Sommaire

LE MOT DE L’INTERVENANT

Avec ce séminaire, je compte vous éclairer dans vos choix...

Avec ce séminaire, je compte vous éclairer dans vos choix stratégiques en matière d’architectures Big Data, afin de pouvoir exploiter pleinement le potentiel des gisements de données à votre disposition. Ces données sont de plus en plus nombreuses, distribuées, interconnectées, hétérogènes, mobiles… et de plus en plus difficiles à intégrer et analyser, notamment en temps réel. Vous pourrez comprendre les concepts et les techniques à la base de ces nouvelles architectures, ainsi que les meilleures pratiques pour réussir vos projets Big Data.

Patrick Valduriez
Directeur de recherche à Inria, expert en Data Science et Systèmes Distribués, conseiller scientifique de la start-up LeanXcale (SGBD NewSQL). Consultant international, auteur du best-seller “Principles of Distributed Database Systems”. Grande expérience de la R&D (senior scientist au Microelectronics & Computer Technology Corp., USA, Directeur de la joint venture Dyade entre Bull et Inria) et de l’enseignement (professeur à l’Université Pierre-et-Marie-Curie).
Lire la suite Cacher le texte

Le Big Data bouleverse radicalement la gestion traditionnelle de données avec de nouvelles solutions et technologies, adaptées à différents besoins. Afin d’aider à se repérer dans un paysage complexe et à faire les choix stratégiques, ce séminaire fait le point sur les architectures de données Big Data et les meilleures pratiques.

Il répond aux questions suivantes :

  • Big Data : quels enjeux ? Quels retours d’expériences en entreprise ? Quels sont les meilleurs cas d’utilisation dans l’industrie ? Impact du RGPD sur les données personnelles ?
  • Architecture Hadoop : pourquoi une nouvelle approche? Différences avec les SGBD relationnels ?
  • Moteurs de recherche : comment indexer et traiter le Big Data métier ?
  • Web sémantique : impact sur la recherche d’information dans le Big Data ?
  • Architectures massivement parallèles : pourquoi les frameworks de programmation ? Impact de Spark ?
  • SGBD NoSQL : Que dit le théorème CAP ? La fin de l’approche « taille unique » du relationnel ?
  • SGBD NewSQL : comment allier relationnel et NoSQL ? comment associer transactionnel et analytics avec HTAP ?
  • Intégration de Big Data avec les données du SI : Data Warehouse vs Data Lake ? Quelles offres Big Data as a Service ?
  • Projets Big Data : quelle méthodologie ?


Big Data : opportunités et enjeux


Evolution vers la science des données

  • Le continuum de la compréhension : données, informations, connaissances, sagesse.
  • Les cinq « V » du Big Data : Volume, Variété, Vélocité, Véracité, Validité.
  • Données structurées : transactionnelles, décisionnelles, référentielles, scientifiques, etc.
  • Données non structurées : Web, documents, réseaux sociaux, Linked Open Data, IoT, etc.
  • Machine Learning et Data Analytics.

Les enjeux pour l’entreprise

  • Enjeux techniques : maîtrise du cycle de vie des données, réactivité face aux flux temps réel, protection des données personnelles, impact du RGPD et anonymisation.
  • Enjeux stratégiques : mesure de la performance, exploration des données, analyse des comportements sociaux, expérimentation de nouvelles questions.
  • Les meilleurs cas d’utilisation dans l’industrie.
  • Stratégie Big Data : impact sur la gouvernance des données ?
  • Succès et échecs de projets Big Data.

Architectures parallèles

  • La nouvelle hiérarchie de mémoires : RAM, flash, disque SSD, disque HDD.
  • Un teraoctet de RAM sur un chip : l’avènement du traitement de données in-memory ?
  • Processeurs multicœurs, la combinaison CPU/GPU, la nouvelle hiérarchie du calcul parallèle.
  • Les architectures massivement parallèles (MPP) : speed-up, scale-up, scale-out, élasticité.

Systèmes parallèles


Architectures de données parallèles

  • La pile logicielle du SGBD SQL : requêtes décisionnelles et transactions, distribution.
  • Parallélisme de données : inter-requête, inter-opération, intra-opération, pipeline.
  • Le stockage en cluster: DAS vs NAS vs SAN.
  • Architectures en cluster : Shared Disk vs Shared Nothing.

Techniques distribuées et parallèles

  • Organisation des données : stockage en ligne ou en colonne, sharding, indexation.
  • Transactions distribuées : modèle ACID, protocole 2PC, tolérance aux pannes et scalabilité.
  • Réplication de données : cohérence des copies, propagation des mises à jour.
  • Haute disponibilité et tolérance aux pannes : le Failover, les points de sauvegarde pour requêtes lourdes.
  • Parallélisation des requêtes, optimisation et équilibrage de charge.

SGBD parallèles

  • Produits principaux : Actian, IBM, Microsoft, Oracle Exadata, MySQL Cluster, SAP Sybase, Teradata, Vertica, ParAccel, GreenPlum.
  • Étude de cas : la base de données Walmart avec Teradata.

Architectures Big Data


La pile logicielle Big Data

  • Les niveaux fonctionnels : stockage, organisation, traitement, intégration, indexation et analyse.
  • Comparaison avec SGBD relationnels.

L'architecture Apache Hadoop

  • MapReduce et SQL-on-Hadoop, Hbase.
  • Gestion de ressources avec Yarn.
  • Coordination avec Zookeeper.
  • Hadoop Distributed File System (HDFS) : intégration dans Yarn, tolérance aux fautes.

Indexation et recherche d’information dans le Big Data

  • Techniques : index, fichiers inverses, recherche par mot-clé, recherche par contenu.
  • Moteurs de recherche: Bing, Google Search, ElasticSearch, Exalead, Lucene, Indexma, Qwant, Splink.
  • Google Search: l’algorithme PageRank, l’architecture en Cluster Shared Nothing.
  • Étude de cas : assurance qualité Monoprix avec Exalead.

Le web sémantique

  • Exemple d’application phare: Google Knowledge Graph.
  • RDF (Resource Description Framework) et les ontologies.
  • Le langage de requêtes SPARQL.
  • Les triplestores: 4Store, AllegroGraph, Marklogic, Sesame, SparqlDB, Virtuoso, CumulusRDF, Seevl.

SGBD NoSQL


Motivations

  • La fin de l’approche « taille unique » du relationnel.
  • Scalabilité dans le Cloud.
  • Le théorème CAP : analyse et impact.

SGBD clé-valeur

  • Gestion de l’accès sur clé, parallélisme, tolérance aux fautes.
  • Systèmes clé-valeur : Amazon DynamoDB, Amazon SimpleDB, Apache Cassandra, Linkedin Voldemort.
  • Étude de cas : supervision de réseau Orange avec Cassandra.

SGBD grandes tables

  • Modèle de données : table, orienté ligne/colonne, opérateurs ensemblistes.
  • Exemples : Hadoop Hbase, Google Bigtable, Apache Accumulo.
  • Étude de cas : services financiers chez Scaled Risk avec Hbase.

SGBD documents

  • Modèles de données JSON, le langage SQL++.
  • SGBD JSON : MongoDB, CouchBase, LinkedIn Espresso, etc.
  • XML/JSON dans les SGBD relationnels : IBM DB2, Oracle, SQLServer, SAP Sybase, MySQL, PostgreSQL.
  • Étude de cas : vue 360° des assurés MetLife avec MongoDB.

SGBD graphes

  • Modèle de données graphe : opérateurs de parcours de graphes, langages de requêtes.
  • Exemples : Neo4J, AllegroGraph, InfiniteGraph.
  • Étude de cas : intégration sociale et jeux en ligne chez GameSys avec Neo4J.

SGBD NewSQL

  • Comment associer cohérence SQL et scalabilité NoSQL.
  • HTAP : OLAP+OLTP sur les mêmes données opérationnelles.
  • Les SGBD NewSQL/HTAP : CockroachDB, SAP HANA, Esgyn, LeanXcale, MemSQL, NuoDB, Splice Machine, Google Spanner, VoltDB.
  • Études de cas : la base Google AdWords avec F1/Spanner ; marketing de proximité chez IKEA avec LeanXcale.

Frameworks de programmation Big Data


Le framework MapReduce

  • Analyse de Big Data en mode batch.
  • Le modèle de données clé-valeur, les fonctions Map et Reduce, partitionnement de fichiers.
  • Architecture : tolérance aux fautes et équilibrage de charge.

L’écosystème Hadoop

  • Les fondements : HDFS, Yarn, MapReduce.
  • Les outils : Pig (interface Workflows), Hive (interface SQL).
  • Editeurs : Cloudera-Hortonworks, Datameer, Datastax, Greenplum HD, Talend, VMware.

Traitement des flux de données

  • Les concepts : Data Streams, requêtes continues, données temporaires, fenêtre glissante.
  • Les outils : InfoSphere Streams, Kafka, Parstream, Samza, Storm, Streambase, StreamInsight.
  • Le projet Beymani : détection de fraude en temps réel.

Le framework Spark

  • Analyse de Big Data en mode interactif et itératif.
  • Extensions du modèle MapReduce : le langage Scala, transformations et actions, Resilient Distributed Datasets.
  • Les outils : Spark SQL, Spark Streaming, MLlib (Machine Learning), GraphX (graphes).
  • Editeurs : Data Bricks, Apache, Cloudera-Hortonworks, Amazon EMR.
  • Étude de cas : gestion de coupons chez Ericsson avec Cassandra et Spark.

Traitement des graphes

  • Le modèle de calcul de graphes de Google Pregel.
  • Étude de cas : gestion de 1 000 milliards de liens chez FaceBook avec Apache Giraph.

Architectures d’intégration de Big Data


Intégration de données hétérogènes

  • Intégration réelle (Data Warehouse) ou virtuelle (fédérateur de données).
  • Médiateur, adaptateur et ETL.
  • Intégration de schémas et d’ontologies : les conflits sémantiques, le problème de la résolution d’entité.
  • Qualité des données, nettoyage, MDM.
  • L’offre produits et services.

Le Data Lake

  • Problèmes avec les entrepôts de données : développement ETL, schéma en écriture.
  • Apports : schéma en lecture, traitement de données multiworkload, retour sur investissement.
  • Enterprise Hadoop : intégration, sécurité et gouvernance, outils BI.
  • Chargement de données parallèles : exemple avec HDFS.
  • Étude de cas : performance du marketing ciblé.
  • Meilleures pratiques.

Intégration du Big Data dans un Data Warehouse

  • Nouveaux besoins en acquisition, organisation, analyse.
  • Place de Hadoop : les ETL comme Splunk, accès HDFS avec tables externes SQL.
  • Exemples : HadoopDB, Microsoft HDInsight et Polybase, IBM Analytics Engine, Oracle Big Data Appliance.
  • Le Data Lake opérationnel : traitement HTAP sur Big Data.
  • Les offres Big Data as a Service : Amazon EMR, Google BigQuery, Azure HDInsight, IBM Analytics for Apache Spark, Qubole, SAP Altiscale.

Méthodologie pour un projet Big Data

  • Stratégie : objectifs métiers, besoins en données, qualité des données.
  • Equipe : rôles et compétences, cadre pour la gouvernance des données.
  • Outils : le choix de développer du code ou utiliser.
  • Processus : évolutivité et réutilisation.
  • Architecture : de la sandbox à l’architecture idéale.
  • Meilleures pratiques.