Sommaire

LE MOT DE L’INTERVENANT

Avec ce séminaire, je compte vous éclairer dans vos choix...

Avec ce séminaire, je compte vous éclairer dans vos choix stratégiques en matière d’architectures Big Data, afin de pouvoir exploiter pleinement le potentiel des gisements de données à votre disposition. Ces données sont de plus en plus nombreuses, distribuées, interconnectées, hétérogènes, mobiles… et de plus en plus difficiles à intégrer et analyser, notamment en temps réel. Vous pourrez comprendre les concepts et les techniques à la base de ces nouvelles architectures, ainsi que les meilleures pratiques pour réussir vos projets Big Data.

Patrick VALDURIEZ
Directeur de recherche à Inria, expert en Data Science et Systèmes Distribués, conseiller scientifique de la start-up LeanXcale (SGBD NewSQL). Consultant international, auteur du best-seller “Principles of Distributed Database Systems”. Grande expérience de la R&D (senior scientist au Microelectronics & Computer Technology Corp., USA, Directeur de la joint venture Dyade entre Bull et Inria) et de l’enseignement (professeur à l’Université Pierre-et-Marie-Curie).
Lire la suite Cacher le texte

Le Big Data bouleverse radicalement la gestion traditionnelle de données avec de nombreuses solutions et technologies, adaptées à différents besoins. Afin d’aider à se repérer dans un paysage complexe et à faire les choix stratégiques, ce séminaire fait le point sur les architectures Big Data et les meilleures pratiques.

Il répond aux questions suivantes :

  • Big Data : quels enjeux ? Quels sont les meilleurs Use Cases dans l’industrie ? Impact du RGPD sur les données personnelles ? Impact de la Data Gravity sur le SI ?
  • Scalabilité des architectures Big Data : Scale Uup vs. Scale Out ?
  • Frameworks de traitement de données : Hadoop vs Spark ?
  • Moteurs de recherche : comment indexer et traiter le Big Data métier ?
  • Web sémantique : impact sur la recherche d’information dans du Big Data ?
  • SGBD NoSQL : la fin de l’approche « taille unique » du Relationnel ?
  • SGBD NewSQL : comment allier Relationnel et NoSQL ?
  • HTAP : comment analyser les données opérationnelles en temps réel ?
  • Intégration de Big Data dans le SI : Data Warehouse vs Data Lake ?
  • Quelles solutions Big Data dans le Cloud ?
  • Quelle méthodologie pour vos projets Big Data?


Big Data : enjeux et opportunités


Science des données

  • Le continuum de la compréhension : données, informations, connaissances, sagesse.
  • Les cinq «  V  » du Big Data : Volume, Variété, Vélocité, Véracité, Validité.
  • Données structurées (transactionnelles, décisionnelles, etc.) vs non structurées (Web, IoT, etc.).
  • Positionnement par rapport à l’IA : Machine Learning et Data Analytics.

Les enjeux pour l’entreprise

  • Enjeux techniques : maîtrise de la Data Gravity et des flux temps réel, protection des données personnelles, RGPD et anonymisation.
  • Enjeux stratégiques : mesure de la performance, exploration des données, analyse des comportements sociaux, expérimentation de nouvelles questions.
  • Les meilleurs Use Cases dans l’industrie.
  • Succès et échecs de projets Big Data.

Opportunités

  • Progrès matériels : mémoire flash, disque SSD, combinaison CPU/GPU, réseaux haut débit.
  • Clusters de serveurs à grande échelle.
  • Technologies éprouvées : logiciel libre, services Cloud.
  • Nouveaux produits et services basés sur les données.

Architectures Big Data


Architectures de données parallèles

  • Objectifs : Speed Up, Scale Up, Scale Out, Élasticité.
  • Parallélisme de données : inter-requête, inter-opération, intra-opération, pipeline.
  • Clusters de serveurs : Shared Disk vs Shared Nothing.
  • Techniques : stockage en colonne, Sharding, transactions, réplication, haute disponibilité et Failover, parallélisation.

SGBD parallèles

  • La pile logicielle du SGBD SQL : requêtes décisionnelles et transactions, distribution.
  • Produits principaux : Actian, IBM, Microsoft, Oracle ExaData, MySQL Cluster, SAP Sybase, TeraData, Vertica, ParAccel, GreenPlum.
  • Étude de cas : la base de données Walmart avec TeraData.

La pile logicielle Big Data

  • Les niveaux fonctionnels : stockage, organisation, traitement, intégration, indexation et analyse.
  • La persistance polyglotte.

L’architecture Hadoop

  • MapReduce et SQL-on-Hadoop, Hbase.
  • Gestion de ressources avec Yarn.
  • Coordination avec Zookeeper.
  • Hadoop Distributed File System (HDFS) : intégration dans Yarn, Failover.

Moteurs de recherche


Indexation et recherche d’information dans le Big Data

  • Techniques : index, fichiers inverses, recherche par mot-clé, recherche par contenu.
  • Moteurs de recherche : Bing, Google Search, ElasticSearch, Exalead, Lucene, Indexma, Qwant, Splink.
  • Google Search : l’algorithme PageRank, l’architecture en cluster Shared Nothing.
  • Étude de cas : assurance qualité Monoprix avec Exalead.

Le Web sémantique

  • Exemple d’application phare : Google Knowledge Graph.
  • RDF (Resource Description Framework) et les ontologies.
  • Le langage de requêtes SPARQL.
  • Les triplestores : 4Store, AllegroGraph, Marklogic, Sesame, SparqlDB, Virtuoso, CumulusRDF, Seevl.

NoSQL et NewSQL


Motivations

  • La fin de l’approche «  taille unique  » du relationnel.
  • Scalabilité et haute disponibilité dans le Cloud.
  • Le théorème CAP : analyse et impact.

SGBD NoSQL

  • Modèles de données : clé-valeur, document, tabulaire, graphe.
  • Architecture distribuée scalable.
  • Systèmes : DynamoDB, Cassandra, Hbase, MongoDB, CouchBase, Neo4J, etc.
  • Use Cases dans l’industrie.

SGBD NewSQL

  • Comment associer cohérence SQL et scalabilité/haute disponibilité NoSQL.
  • HTAP : Analytics et transactionnel sur les mêmes données opérationnelles.
  • Systèmes : CockroachDB, SAP HANA, Esgyn, LeanXcale, MemSQL, NuoDB, Splice Machine, Google Spanner, VoltDB.
  • Use Cases : la base Google AdWords avec Spanner ; supervision de SI avec LeanXcale.

Frameworks Big Data


Hadoop MapReduce

  • Objectif : analyse de Big Data en mode Batch.
  • Modèle de programmation : les fonctions Map et Reduce.
  • Architecture distribuée : partitionnement de données, tolérance aux fautes et équilibrage de charge.

Frameworks CEP

  • Objectif : analyse de flux de données en temps réel.
  • Les concepts : Data Streams, requêtes continues, données temporaires, fenêtre glissante.
  • Principaux CEP : InfoSphere Streams, Kafka, Parstream, Streambase, StreamInsight.
  • Pattern streaming temps-réel.
  • Use Case : détection de fraude en temps réel.

Spark

  • Objectif : analyse de Big Data en mode interactif et itératif.
  • Extensions du modèle MapReduce : le langage Scala, transformations et actions, Resilient Distributed Datasets.
  • Les outils : Spark SQL, Spark Streaming, MLlib (Machine Learning), GraphX (graphes).
  • Use Case Spark Streaming.

Intégration de Big Data


Intégration de données

  • Intégration réelle (Data Warehouse - DW) ou virtuelle (fédérateur de données).
  • Médiateur, adaptateur et ETL.
  • Intégration de schémas et d’ontologies : les conflits sémantiques, le problème de la résolution d’entité.
  • Qualité des données, nettoyage, et Master Data Management.

Le Data Lake

  • Problèmes avec le DW : développement ETL, schéma en écriture.
  • Apports : schéma en lecture, traitement de données multiworkload, RoI.
  • Enterprise Hadoop : intégration, sécurité et gouvernance, outils BI.
  • Chargement de données parallèles : exemple avec HDFS, Pattern extracteur de sources.
  • Use Case dans le commerce de détail.
  • Meilleures pratiques.

Intégration du Big Data dans un DW

  • Nouveaux besoins en acquisition, organisation, analyse.
  • Tables externes SQL et Pattern connecteur.
  • Place de Hadoop : les ETL comme Splunk, accès HDFS avec tables externes SQL.
  • Offres des éditeurs de DW : Microsoft HDInsight et Polybase, IBM Analytics Engine, Oracle Big Data Appliance.

Big Data dans le Cloud


Architecture Cloud

  • Modèles de services : SaaS, IaaS, PaaS, XaaS.
  • Différents types de Clouds : public, privé, communautaire, hybride.
  • Exemples de PaaS : AWS, Azure, OVH.
  • Modèles de déploiement Multitenant.

Cloud hybride et iPaaS

  • Cloud privé virtuel, le projet OpenStack.
  • iPaaS : objectifs, architecture.
  • Acteurs : Dell Boomi, Informatica, Mulesoft, CloudHub, SnapLogic, Microsoft, Oracle, SAP.

Database as a Service (DBaaS)

  • Positionnement par catégorie : polyglotte, SQL, NoSQL, NewSQL, DW.
  • Exemples : AWS RedSchift, Snowflake.
  • Migration vers DBaaS.

Big Data as a Service

  • Positionnement des acteurs.
  • Chargement de Big Data dans le Cloud.
  • Accès au Big Data dans le Cloud.

Méthodologie pour projets Big Data


Stratégie pour un projet Big Data

  • Préparation : objectifs métiers, besoins en données, qualité des données.
  • Equipe : rôles et compétences, cadre pour la gouvernance des données.
  • Outils : le choix de développer du code ou utiliser.
  • Analytics : du réactif au prescriptif.
  • Gouvernance : comment éviter le Data Swamp.

Conduite de projet Big Data

  • Limites de la méthode en cascade.
  • Méthodes itératives : l’exemple CRISP-DM.
  • Méthodes agiles : Scrum et Big Data.
  • Meilleures pratiques.