Sommaire

LE MOT DE L’INTERVENANT

Avec ce séminaire, je compte vous éclairer dans vos choix...

Avec ce séminaire, je compte vous éclairer dans vos choix stratégiques en matière d’architectures Big Data, afin de pouvoir exploiter pleinement le potentiel des gisements de données à votre disposition. Ces données sont de plus en plus nombreuses, distribuées, interconnectées, hétérogènes, mobiles… et de plus en plus difficiles à intégrer et analyser, notamment en temps réel. Vous pourrez comprendre les concepts et les techniques à la base de ces nouvelles architectures, ainsi que les meilleures pratiques pour réussir vos projets Big Data.

Patrick VALDURIEZ
Directeur de recherche à Inria, expert en Data Science et Systèmes Distribués, conseiller scientifique de la start-up LeanXcale (SGBD NewSQL). Consultant international, auteur du best-seller “Principles of Distributed Database Systems”. Grande expérience de la R&D (senior scientist au Microelectronics & Computer Technology Corp., USA, Directeur de la joint venture Dyade entre Bull et Inria) et de l’enseignement (professeur à l’Université Pierre-et-Marie-Curie).
Lire la suite Cacher le texte

     NOUVEAU

Séminaire dual-media : présentiel et distanciel    Disponible en présentiel et distanciel

Prochaine session : 8-9 OCTOBRE 2020


Le Big Data bouleverse radicalement la gestion traditionnelle de données avec de nouvelles solutions et technologies, adaptées à différents besoins. Afin d’aider à se repérer dans un paysage complexe et à faire les choix stratégiques, ce séminaire fait le point sur les architectures Big Data et les meilleures pratiques.

Il répond aux questions suivantes :

  • Big Data : Quels enjeux ? Impact du RGPD sur les données personnelles ? Quels sont les meilleurs cas d’utilisation
    dans l’industrie ?
  • nData gravity : l’intérêt de la gestion de données polyglotte ?

  • Frameworks de traitement de données parallèles : Hadoop vs Spark ?
  • Moteurs de recherche : comment indexer et traiter le Big Data métier ?
  • Web sémantique : impact sur la recherche d’information dans le Big Data ?
  • SGBD NoSQL : Que dit le théorème CAP ? La fin de l’approche « taille unique » du relationnel ?
  • SGBD NewSQL : comment allier relationnel et NoSQL ? comment associer transactionnel et analytics avec HTAP ?
  • Intégration de Big Data avec les données du SI : Data Warehouse vs Data Lake ?
  • Quelles offres Big Data as a Service ?
  • Quelle méthodologie pour vos projets Big Data?


Big Data : opportunités et enjeux


Evolution vers la science des données

  • Le continuum de la compréhension : données, informations, connaissances, sagesse.
  • Les cinq «  V  » du Big Data : Volume, Variété, Vélocité, Véracité, Validité.
  • Données structurées : transactionnelles, décisionnelles, référentielles, scientifiques, etc.
  • Données non structurées : Web, documents, réseaux sociaux, Linked Open Data, IoT, etc.
  • Machine Learning et Data Analytics.

Les enjeux pour l’entreprise

  • Enjeux techniques : maîtrise du cycle de vie des données, réactivité face aux flux temps réel, protection des données personnelles, impact du RGPD et anonymisation.
  • Enjeux stratégiques : mesure de la performance, exploration des données, analyse des comportements sociaux, expérimentation de nouvelles questions.
  • Les meilleurs cas d’utilisation dans l’industrie.
  • Data gravity : intégration de données, impact sur la gouvernance des données.
  • Succès et échecs de projets Big Data.

Architectures parallèles

  • La nouvelle hiérarchie de mémoires : RAM, flash, disque SSD, disque HDD.
  • Un teraoctet de RAM sur un chip : l’avènement du traitement de données in-memory ?
  • Processeurs multicœurs, la combinaison CPU/GPU, la nouvelle hiérarchie du calcul parallèle.
  • Les architectures massivement parallèles (MPP) : speed-up, scale-up, scale-out, élasticité.

Architectures de données parallèles


Architectures de données et architectures parallèles

  • La pile logicielle du SGBD SQL : requêtes décisionnelles et transactions, distribution.
  • Parallélisme de données : inter-requête, inter-opération, intra-opération, pipeline.
  • Le stockage en cluster: DAS vs NAS vs SAN.
  • Architectures en cluster : Shared Disk vs Shared Nothing.

Techniques distribuées et parallèles

  • Organisation des données : stockage en ligne ou en colonne, sharding, indexation.
  • Transactions distribuées : modèle ACID, protocole 2PC, tolérance aux pannes et scalabilité.
  • Réplication de données : cohérence des copies, propagation des mises à jour.
  • Haute disponibilité et tolérance aux pannes : le Failover, les points de sauvegarde pour requêtes lourdes.
  • Parallélisation des requêtes, optimisation et équilibrage de charge.

SGBD parallèles

  • Produits principaux : Actian, IBM, Microsoft, Oracle Exadata, MySQL Cluster, SAP Sybase, Teradata, Vertica, ParAccel, GreenPlum.
  • Étude de cas : la base de données Walmart avec Teradata.

Architectures Big Data


La pile logicielle Big Data

  • Les niveaux fonctionnels : stockage, organisation, traitement, intégration, indexation et analyse.
  • La persistance polyglotte.
  • Comparaison avec SGBD relationnels.

L’architecture Hadoop

  • MapReduce et SQL-on-Hadoop, Hbase.
  • Gestion de ressources avec Yarn.
  • Coordination avec Zookeeper.
  • Hadoop Distributed File System (HDFS) : intégration dans Yarn, tolérance aux fautes.

Indexation et recherche d’information dans le Big Data

  • Techniques : index, fichiers inverses, recherche par mot-clé, recherche par contenu.
  • Moteurs de recherche : Bing, Google Search, ElasticSearch, Exalead, Lucene, Indexma, Qwant, Splink.
  • Google Search : l’algorithme PageRank, l’architecture en Cluster Shared Nothing.
  • Étude de cas : assurance qualité Monoprix avec Exalead.

Le Web sémantique

  • Exemple d’application phare : Google Knowledge Graph.
  • RDF (Resource Description Framework) et les ontologies.
  • Le langage de requêtes SPARQL.
  • Les triplestores : 4Store, AllegroGraph, Marklogic, Sesame, SparqlDB, Virtuoso, CumulusRDF, Seevl.

NoSQL et NewSQL


Motivations

  • La fin de l’approche «  taille unique  » du relationnel.
  • Scalabilité dans le Cloud.
  • Le théorème CAP : analyse et impact.

SGBD clé-valeur

  • Gestion de l’accès sur clé, parallélisme, tolérance aux fautes.
  • Systèmes clé-valeur : Amazon DynamoDB, Amazon SimpleDB, Apache Cassandra, Linkedin Voldemort.
  • Étude de cas : supervision de réseau Orange avec Cassandra.

SGBD grande table

  • Modèle de données : table, orienté ligne/colonne, opérateurs ensemblistes.
  • Exemples : Hadoop Hbase, Google Bigtable, Apache Accumulo.
  • Étude de cas : services financiers chez Scaled Risk avec Hbase.

SGBD document

  • Modèles de données JSON, le langage SQL++.
  • SGBD JSON : MongoDB, CouchBase, LinkedIn Espresso, etc.
  • XML/JSON dans les SGBD relationnels : IBM DB2, Oracle, SQLServer, SAP Sybase, MySQL, PostgreSQL.
  • Étude de cas : vue 360° des assurés MetLife avec MongoDB.

SGBD graphe

  • Modèle de données graphe : opérateurs de parcours de graphes, langages de requêtes.
  • Exemples : Neo4J, AllegroGraph, InfiniteGraph.
  • Étude de cas : intégration sociale et jeux en ligne chez GameSys avec Neo4J.

SGBD NewSQL

  • Comment associer cohérence SQL et scalabilité NoSQL.
  • HTAP : OLAP+OLTP sur les mêmes données opérationnelles.
  • Les SGBD NewSQL : CockroachDB, SAP HANA, Esgyn, LeanXcale, MemSQL, NuoDB, Splice Machine, Google Spanner, VoltDB.
  • Études de cas : la base Google AdWords avec F1/Spanner ; marketing de proximité chez IKEA avec LeanXcale.

Frameworks de traitement Big Data


Hadoop

  • MapReduce : analyse de Big Data en mode batch, modèle de programmation.
  • Architecture : partitionnement de données, tolérance aux fautes et équilibrage de charge.
  • Les outils : Pig (interface Workflows), Hive (interface SQL).
  • Editeurs Hadoop : Cloudera-Hortonworks, Datameer, Datastax, Greenplum HD, Talend, VMware.

Frameworks de traitement de flux de données

  • Les concepts : Data Streams, requêtes continues, données temporaires, fenêtre glissante.
  • Les outils : InfoSphere Streams, Kafka, Parstream, Streambase, StreamInsight.
  • Etude de cas : détection de fraude en temps réel.

Spark

  • Analyse de Big Data en mode interactif et itératif.
  • Extensions du modèle MapReduce : le langage Scala, transformations et actions, Resilient Distributed Datasets.
  • Les outils : Spark SQL, Spark Streaming, MLlib (Machine Learning), GraphX (graphes).
  • Editeurs : Databricks, Apache, Cloudera-Hortonworks, Amazon EMR, Talend.
  • Étude de cas : gestion de coupons chez Ericsson avec Cassandra et Spark.

Frameworks de traitement des graphes

  • Le modèle de calcul de graphes de Google Pregel.
  • Étude de cas : gestion de 1 000 milliards de liens chez FaceBook avec Apache Giraph.

Architectures d’intégration de Big Data


Intégration de données hétérogènes

  • Intégration réelle (Data Warehouse) ou virtuelle (fédérateur de données).
  • Médiateur, adaptateur et ETL.
  • Intégration de schémas et d’ontologies : les conflits sémantiques, le problème de la résolution d’entité.
  • Qualité des données, nettoyage, MDM.

Le Data Lake

  • Problèmes avec les entrepôts de données : développement ETL, schéma en écriture.
  • Apports : schéma en lecture, traitement de données multiworkload, retour sur investissement.
  • Enterprise Hadoop : intégration, sécurité et gouvernance, outils BI.
  • Chargement de données parallèles : exemple avec HDFS.
  • Étude de cas : performance du marketing ciblé.
  • Meilleures pratiques.

Intégration du Big Data dans un Data Warehouse

  • Nouveaux besoins en acquisition, organisation, analyse.
  • Place de Hadoop : les ETL comme Splunk, accès HDFS avec tables externes SQL.
  • Exemples : HadoopDB, Microsoft HDInsight et Polybase, IBM Analytics Engine, Oracle Big Data Appliance.
  • Le Data Lake opérationnel : traitement HTAP sur Big Data.

Big Data as a Service

  • Data as a Service dans le Cloud : confidentialité, sécurité, gouvernance des données.
  • Migration de bases de données legacy dans le Cloud avec Datometry Hyper-Q ;
  • Panorama des offres : Amazon EMR, Google BigQuery, Azure HDInsight, IBM Analytics for Spark, Oracle Big Data Service, Qubole, SAP Altiscale, Snowflake.

Méthodologie pour un projet Big Data

  • Stratégie : objectifs métiers, besoins en données, qualité des données.
  • Equipe : rôles et compétences, cadre pour la gouvernance des données.
  • Outils : le choix de développer du code ou utiliser.
  • Processus : évolutivité et réutilisation.
  • Architecture : de la sandbox à l’architecture idéale.
  • Meilleures pratiques.