 |
Big Data : enjeux et opportunités |
|
Science des données
- Le continuum de la compréhension : données, informations, connaissances, sagesse.
- Les cinq « V » du Big Data : Volume, Variété, Vélocité, Véracité, Validité.
- Données structurées (transactionnelles, décisionnelles, etc.) vs non structurées (Web, IoT, etc.).
- Positionnement par rapport à l’IA : Machine Learning et Data Analytics.
Les enjeux pour l’entreprise
- Enjeux techniques : maîtrise de la Data Gravity et des flux temps réel, protection des données personnelles, RGPD et anonymisation.
- Enjeux stratégiques : mesure de la performance, exploration des données, analyse des comportements sociaux, expérimentation de nouvelles questions.
- Les meilleurs Use Cases dans l’industrie.
- Succès et échecs de projets Big Data.
Opportunités
- Progrès matériels : mémoire flash, disque SSD, combinaison CPU/GPU, réseaux haut débit.
- Clusters de serveurs à grande échelle.
- Technologies éprouvées : logiciel libre, services Cloud.
- Nouveaux produits et services basés sur les données.
|
 |
Architectures Big Data |
|
Architectures de données parallèles
- Objectifs : Speed Up, Scale Up, Scale Out, Élasticité.
- Parallélisme de données : inter-requête, inter-opération, intra-opération, pipeline.
- Clusters de serveurs : Shared Disk vs Shared Nothing.
- Techniques : stockage en colonne, Sharding, transactions, réplication, haute disponibilité et Failover, parallélisation.
SGBD parallèles
- La pile logicielle du SGBD SQL : requêtes décisionnelles et transactions, distribution.
- Produits principaux : Actian, IBM, Microsoft, Oracle ExaData, MySQL Cluster, SAP Sybase, TeraData, Vertica, ParAccel, GreenPlum.
- Étude de cas : la base de données Walmart avec TeraData.
La pile logicielle Big Data
- Les niveaux fonctionnels : stockage, organisation, traitement, intégration, indexation et analyse.
- La persistance polyglotte.
L’architecture Hadoop
- MapReduce et SQL-on-Hadoop, Hbase.
- Gestion de ressources avec Yarn.
- Coordination avec Zookeeper.
- Hadoop Distributed File System (HDFS) : intégration dans Yarn, Failover.
|
 |
Moteurs de recherche |
|
Indexation et recherche d’information dans le Big Data
- Techniques : index, fichiers inverses, recherche par mot-clé, recherche par contenu.
- Moteurs de recherche : Bing, Google Search, ElasticSearch, Exalead, Lucene, Indexma, Qwant, Splink.
- Google Search : l’algorithme PageRank, l’architecture en cluster Shared Nothing.
- Étude de cas : assurance qualité Monoprix avec Exalead.
Le Web sémantique
- Exemple d’application phare : Google Knowledge Graph.
- RDF (Resource Description Framework) et les ontologies.
- Le langage de requêtes SPARQL.
- Les triplestores : 4Store, AllegroGraph, Marklogic, Sesame, SparqlDB, Virtuoso, CumulusRDF, Seevl.
|
 |
NoSQL et NewSQL |
|
Motivations
- La fin de l’approche « taille unique » du relationnel.
- Scalabilité et haute disponibilité dans le Cloud.
- Le théorème CAP : analyse et impact.
SGBD NoSQL
- Modèles de données : clé-valeur, document, tabulaire, graphe.
- Architecture distribuée scalable.
- Systèmes : DynamoDB, Cassandra, Hbase, MongoDB, CouchBase, Neo4J, etc.
- Use Cases dans l’industrie.
SGBD NewSQL
- Comment associer cohérence SQL et scalabilité/haute disponibilité NoSQL.
- HTAP : Analytics et transactionnel sur les mêmes données opérationnelles.
- Systèmes : CockroachDB, SAP HANA, Esgyn, LeanXcale, MemSQL, NuoDB, Splice Machine, Google Spanner, VoltDB.
- Use Cases : la base Google AdWords avec Spanner ; supervision de SI avec LeanXcale.
|
 |
Frameworks Big Data |
|
Hadoop MapReduce
- Objectif : analyse de Big Data en mode Batch.
- Modèle de programmation : les fonctions Map et Reduce.
- Architecture distribuée : partitionnement de données, tolérance aux fautes et équilibrage de charge.
Frameworks CEP
- Objectif : analyse de flux de données en temps réel.
- Les concepts : Data Streams, requêtes continues, données temporaires, fenêtre glissante.
- Principaux CEP : InfoSphere Streams, Kafka, Parstream, Streambase, StreamInsight.
- Pattern streaming temps-réel.
- Use Case : détection de fraude en temps réel.
Spark
- Objectif : analyse de Big Data en mode interactif et itératif.
- Extensions du modèle MapReduce : le langage Scala, transformations et actions, Resilient Distributed Datasets.
- Les outils : Spark SQL, Spark Streaming, MLlib (Machine Learning), GraphX (graphes).
- Use Case Spark Streaming.
|
 |
Intégration de Big Data |
|
Intégration de données
- Intégration réelle (Data Warehouse - DW) ou virtuelle (fédérateur de données).
- Médiateur, adaptateur et ETL.
- Intégration de schémas et d’ontologies : les conflits sémantiques, le problème de la résolution d’entité.
- Qualité des données, nettoyage, et Master Data Management.
Le Data Lake
- Problèmes avec le DW : développement ETL, schéma en écriture.
- Apports : schéma en lecture, traitement de données multiworkload, RoI.
- Enterprise Hadoop : intégration, sécurité et gouvernance, outils BI.
- Chargement de données parallèles : exemple avec HDFS, Pattern extracteur de sources.
- Use Case dans le commerce de détail.
- Meilleures pratiques.
Intégration du Big Data dans un DW
- Nouveaux besoins en acquisition, organisation, analyse.
- Tables externes SQL et Pattern connecteur.
- Place de Hadoop : les ETL comme Splunk, accès HDFS avec tables externes SQL.
- Offres des éditeurs de DW : Microsoft HDInsight et Polybase, IBM Analytics Engine, Oracle Big Data Appliance.
|
 |
Big Data dans le Cloud |
|
Architecture Cloud
- Modèles de services : SaaS, IaaS, PaaS, XaaS.
- Différents types de Clouds : public, privé, communautaire, hybride.
- Exemples de PaaS : AWS, Azure, OVH.
- Modèles de déploiement Multitenant.
Cloud hybride et iPaaS
- Cloud privé virtuel, le projet OpenStack.
- iPaaS : objectifs, architecture.
- Acteurs : Dell Boomi, Informatica, Mulesoft, CloudHub, SnapLogic, Microsoft, Oracle, SAP.
Database as a Service (DBaaS)
- Positionnement par catégorie : polyglotte, SQL, NoSQL, NewSQL, DW.
- Exemples : AWS RedSchift, Snowflake.
- Migration vers DBaaS.
Big Data as a Service
- Positionnement des acteurs.
- Chargement de Big Data dans le Cloud.
- Accès au Big Data dans le Cloud.
|
 |
Méthodologie pour projets Big Data |
|
Stratégie pour un projet Big Data
- Préparation : objectifs métiers, besoins en données, qualité des données.
- Equipe : rôles et compétences, cadre pour la gouvernance des données.
- Outils : le choix de développer du code ou utiliser.
- Analytics : du réactif au prescriptif.
- Gouvernance : comment éviter le Data Swamp.
Conduite de projet Big Data
- Limites de la méthode en cascade.
- Méthodes itératives : l’exemple CRISP-DM.
- Méthodes agiles : Scrum et Big Data.
- Meilleures pratiques.
|