- Accueil
- Data & Big Data
- Architectures Big Data
Formation Architectures Big Data
Concepts, techniques, bonnes pratiques.
Présentation
Le Big Data bouleverse radicalement la gestion traditionnelle de données avec de nombreuses solutions et technologies, adaptées à différents besoins. Afin d’aider à se repérer dans un paysage complexe et à faire les choix stratégiques, ce séminaire fait le point sur les architectures Big Data et les bonnes pratiques.
Il répond aux questions suivantes :
- Big Data : quels enjeux ? quels sont les meilleurs cas d’usage dans l’industrie ? Impact du RGPD sur les données personnelles ? Impact de la data gravity sur le SI ?
- Scalabilité des architectures Big Data : scale up vs. scale out ?
- Frameworks Big Data : le déclin d’Hadoop ou l’avènement de Spark ?
- Moteurs de recherche : comment indexer et traiter le Big Data métier ?
- Web sémantique : impact sur la recherche d’information dans du Big Data ?
- SGBD NoSQL : la fin de l’approche « taille unique » du relationnel ?
- SGBD NewSQL : comment allier relationnel et NoSQL ?
- HTAP : comment analyser les données opérationnelles en temps réel ?
- Intégration de Big Data dans le SI : Data Warehouse vs Data Lake ?
- Quelles solutions Big Data dans le cloud ?
- Quelle méthodologie pour vos projets Big Data?
Le mot de l'animateur
« Les données à disposition des entreprises sont de plus en plus massives, distribuées, interconnectées, hétérogènes, mobiles… et de plus en plus difficiles à intégrer et analyser, notamment en temps réel. Avec cette formation, je compte vous éclairer dans vos choix stratégiques en matière d’architectures Big Data, afin de pouvoir exploiter pleinement le potentiel de vos gisements de données et en extraire informations et connaissances à forte valeur métier. »
Patrick VALDURIEZ
Découvrir l'animateurObjectifs
- Définir et expliquer les concepts, techniques et architectures Big Data.
- Identifier le périmètre d’application du Big Data, notamment par rapport au small data.
- Analyser l’offre pléthorique du marché, où les nouveaux acteurs bousculent les grands éditeurs traditionnels.
- Illustrer les architectures Big Data dans le cloud.
- Discuter les bonnes pratiques pour réussir un projet Big Data.
Programme
1 – Big Data : les fondamentaux
Science des données
- Le continuum de la compréhension : données, informations, connaissances, sagesse.
- Positionnement par rapport à l’IA : Machine Learning et Data Analytics.
- Les cinq « V » du sujet Big Data : Volume, Variété, Vélocité, Véracité, Valeur.
- Caractérisitiques Big Data : données structurées vs non structurées (Web, IoT, etc.).
- Le smart data : positionnement par rapport au small data et thick data.
Les enjeux pour l’entreprise
- Enjeux techniques : maîtrise de la data gravity et des flux temps réel, protection des données personnelles, RGPD et anonymisation.
- Enjeux stratégiques : mesure de la performance, exploration des données, analyse des comportements sociaux, expérimentation de nouvelles questions.
- Les meilleurs cas d’usage dans l’industrie.
- Succès et échecs de projets Big Data.
Opportunités
- Progrès matériels : mémoire flash, disque SSD, combinaison CPU/GPU, réseaux haut débit.
- Clusters de serveurs à grande échelle.
- Technologies éprouvées : logiciel libre, services cloud.
- Nouveaux produits et services basés sur les données.
2 – Architectures big data
Architectures de données parallèles
- Objectifs : speed up, scale up, scale out, élasticité.
- Parallélisme de données : inter-requête, inter-opération, intra-opération, pipeline.
- Clusters de serveurs : Shared Disk vs Shared Nothing.
- Techniques : stockage en colonne, sharding, transactions, réplication, haute disponibilité et failover, parallélisation.
SGBD parallèles
- La pile logicielle du SGBD SQL : requêtes décisionnelles et transactions, distribution.
- Produits principaux : Actian, IBM, Microsoft, Oracle Exadata, MySQL Cluster, SAP Sybase, Teradata, Vertica, ParAccel, GreenPlum.
- Étude de cas : la base de données Walmart avec Teradata.
La pile logicielle Big Data
- Les niveaux fonctionnels : stockage, organisation, traitement, intégration, indexation et analyse.
- La persistance polyglotte.
L’architecture Hadoop
- MapReduce et SQL-on-Hadoop, Hbase.
- Gestion de ressources avec Yarn.
- Coordination avec Zookeeper.
- Hadoop Distributed File System (HDFS) : intégration dans Yarn, failover.
3 – Moteurs de recherche pour le Big Data
Indexation et recherche d’information dans le Big Data
- Techniques : index, fichiers inverses, recherche par mot-clé, recherche par contenu.
- Moteurs de recherche : Bing, Google Search, ElasticSearch, Exalead, Lucene, Indexma, Qwant, Splink.
- Google Search : l’algorithme PageRank, l’architecture en cluster Shared Nothing.
- Étude de cas : assurance qualité Monoprix avec Exalead.
Le Web sémantique
- Exemple d’application phare : Google Knowledge Graph.
- RDF (Resource Description Framework) et les ontologies.
- Le langage de requêtes SPARQL.
- Les triplestores : 4Store, AllegroGraph, Marklogic, Sesame, SparqlDB, Virtuoso, CumulusRDF, Seevl.
4 – Bases de données Big Data : NoSQL et NewSQL
Motivations
- La fin de l’approche « taille unique » du relationnel.
- Scalabilité et haute disponibilité dans le Cloud.
- Le théorème CAP : analyse et impact.
SGBD NoSQL
- Modèles de données : clé-valeur, document, tabulaire, graphe.
- Architecture distribuée scalable.
- Systèmes : DynamoDB, Cassandra, Hbase, MongoDB, CouchBase, Neo4J, etc.
- Use cases dans l’industrie.
SGBD NewSQL
- Comment associer cohérence SQL et scalabilité/haute disponibilité NoSQL.
- HTAP : analytics et transactionnel sur les mêmes données opérationnelles.
- Systèmes : CockroachDB, SAP HANA, Esgyn, LeanXcale, MemSQL, NuoDB, Splice Machine, Google Spanner, VoltDB.
- Use cases : la base Google AdWords avec Spanner ; supervision de SI avec LeanXcale.
5 – Frameworks Big Data
MapReduce
- Objectif : analyse de Big Data en mode batch.
- Modèle de programmation : les fonctions Map et Reduce.
- Architecture distribuée : partitionnement de données, tolérance aux fautes et équilibrage de charge.
CEP
- Objectif : analyse de flux de données en temps réel
- Les concepts : Data Streams, requêtes continues, données temporaires, fenêtre glissante.
- Principaux CEP : InfoSphere Streams, Kafka, Parstream, Streambase, StreamInsight.
- Pattern streaming temps-réel.
- Use case : détection de fraude en temps réel.
Spark
- Objectif : analyse de Big Data en mode interactif et itératif.
- Extensions du modèle MapReduce : le langage Scala, transformations et actions, Resilient Distributed Datasets.
- Les outils : Spark SQL, Spark Streaming, MLlib (Machine Learning), GraphX (graphes).
- Use case Spark Streaming.
6 – Intégration de Big Data
Intégration de données
- Intégration réelle (Data Warehouse – DW) ou virtuelle (fédérateur de données).
- Médiateur, adaptateur et ETL.
- Intégration de schémas et d’ontologies : les conflits sémantiques, le problème de la résolution d’entité.
- Qualité des données, nettoyage, et Master Data Management.
Le Data Lake
- Problèmes avec le DW : développement ETL, schéma en écriture.
- Apports : schéma en lecture, traitement de données multiworkload, RoI.
- Enterprise Hadoop : intégration, sécurité et gouvernance, outils BI.
- Chargement de données parallèles : exemple avec HDFS, pattern extracteur de sources.
- Use case dans le commerce de détail.
- Bonnes pratiques.
Intégration du Big Data dans un DW
- Nouveaux besoins en acquisition, organisation, analyse.
- Tables externes SQL et pattern connecteur.
- Place de Hadoop : les ETL comme Splunk, accès HDFS avec tables externes SQL.
- Offres des éditeurs de DW : Microsoft HDInsight et Polybase, IBM Analytics Engine, Oracle Big Data Appliance.
7 – Big Data dans le Cloud
Architecture Cloud
- Modèles de services : SaaS, IaaS, PaaS, XaaS.
- Différents types de Clouds : public, privé, communautaire, hybride.
- Exemples de PaaS : AWS, Azure, OVH.
- Modèles de déploiement multitenant.
Cloud hybride et iPaaS
- Cloud privé virtuel, le projet OpenStack.
- iPaaS : objectifs, architecture.
- Acteurs : Apigee, Dell Boomi, Informatica, Mulesoft, CloudHub, SnapLogic,
Microsoft, Oracle, SAP.
Database as a Service (DBaaS)
- Positionnement par catégorie : polyglotte, SQL, NoSQL, NewSQL, DW.
- Exemples : AWS RedSchift, Snowflake.
- Migration vers DBaaS.
Big Data as a Service
- Positionnement des acteurs.
- Chargement de Big Data dans le Cloud.
- Accès au big data dans le Cloud.
8 – Méthodologie pour projets Big Data
Stratégie pour un projet Big Data
- Préparation : objectifs métiers, besoins en données, qualité des données.
- Equipe : rôles et compétences, cadre pour la gouvernance des données.
- Outils : le cho
ix de développer du code ou utiliser.
- Analytics : du réactif au prescriptif.
- Gouvernance : éviter le data swamp avec le MDM.
- Impact du RGPD : chiffrement et anonymisation des données personnelles.
Conduite de projet Big Data
- Limites de la méthode en cascade.
- Méthodes itératives : l’exemple CRISP-DM.
- Méthodes agiles : Scrum et Big Data.
- Bonnes pratiques.
Public
DSI, responsables SI, architectes informatiques, consultants, ingénieurs et chefs de projets.
Prérequis
Connaissances de base en systèmes d’information et bases de données.
Méthodologie
METHODES PEDAGOGIQUES : Définition précise des concepts, techniques et architectures avec une représentation commune.
lllustration avec de nombreux exemples et études de cas.
Comparaison des solutions et produits par des tableaux synthétiques.
METHODES D'EVALUATION : Le stagiaire reçoit en amont de la formation un questionnaire permettant de mesurer les compétences, profil et attentes du stagiaire.
Tout au long de la formation, les stagiaires sont évalués au moyen de différentes méthodes (quizz, ateliers, exercices et/ou de travaux pratiques, etc.) permettant de vérifier l'atteinte des objectifs.
Un questionnaire d'évaluation à chaud est soumis à chaque stagiaire en fin de formation pour s’assurer de l’adéquation des acquis de la formation avec les attentes du stagiaire.
Une attestation de réalisation de la formation est remise au stagiaire.
93%
de participants satisfaits sur les 12 derniers mois
Autres formations sur le même thème
Data & Big Data
Gouvernance des Données
Comprendre les enjeux et solutions de mise en œuvre d'une gouvernance de données orientée métier : objectifs, erreurs à éviter, méthodologie, ..
Nouveau
Data & Big Data
Architectures de Données : l’état de l’art
Maîtrisez les différentes architectures de données : ETL, MDM, ESB, Batch, Big Data, BI, IA, Temps réel, IoT, Observabilité, Microservices, etc..
Data & Big Data
La Data au coeur de la transformation numérique
Découvrez en quoi les données peuvent servir de carburant dans la transformation numérique et apprenez à réussir cette transition.
Data & Big Data
Business Analytics, Data Science et DataViz
Acquérir des bases solides sur les Big Data, Data Science, Business Analytics et Dataviz afin de pouvoir exploiter au mieux vos données.
Data & Big Data
DQM – MDM : les données métiers
Connaitre les concepts, critères, outils, méthodes et bonnes pratiques pour fiabiliser les données sur lesquelles sont fondés les traitements SI.
Data & Big Data
Décisionnel : du reporting à l’analyse prédictive
Découvrez comment la modélisation de vos données clés conduit forcément à des décisions pérennes : points clefs, acteurs, outils, organisation.
Data & Big Data
Impact du RGPD sur le Système d’Information
Découvrez les différents chantiers informatiques nécessaires à la mise en conformité RGPD de votre entreprise, le plan d'action, les budgets induits.
Data & Big Data
Big Data : l’état de l’art
Découvrez les mythes, solutions et réalités technologiques et méthodologiques du Big Data, de sa mise en œuvre et de la création de valeur.