Formation Architectures Big Data

Concepts, techniques, bonnes pratiques.

Présentation

Le Big Data bouleverse radicalement la gestion traditionnelle de données avec de nombreuses solutions et technologies, adaptées à différents besoins. Afin d’aider à se repérer dans un paysage complexe et à faire les choix stratégiques, ce séminaire fait le point sur les architectures Big Data et les bonnes pratiques.

Il répond aux questions suivantes :

  • Big Data : quels enjeux ? quels sont les meilleurs cas d’usage dans l’industrie ? Impact du RGPD sur les données personnelles ? Impact de la data gravity sur le SI ?
  • Scalabilité des architectures Big Data : scale up vs. scale out ?
  • Frameworks Big Data : le déclin d’Hadoop ou l’avènement de Spark ?
  • Moteurs de recherche : comment indexer et traiter le Big Data métier ?
  • Web sémantique : impact sur la recherche d’information dans du Big Data ?
  • SGBD NoSQL : la fin de l’approche « taille unique » du relationnel ?
  • SGBD NewSQL : comment allier relationnel et NoSQL ?
  • HTAP : comment analyser les données opérationnelles en temps réel ?
  • Intégration de Big Data dans le SI : Data Warehouse vs Data Lake ?
  • Quelles solutions Big Data dans le cloud ?
  • Quelle méthodologie pour vos projets Big Data?
Afficher plus

Le mot de l'animateur

« Les données à disposition des entreprises sont de plus en plus massives, distribuées, interconnectées, hétérogènes, mobiles… et de plus en plus difficiles à intégrer et analyser, notamment en temps réel. Avec cette formation, je compte vous éclairer dans vos choix stratégiques en matière d’architectures Big Data, afin de pouvoir exploiter pleinement le potentiel de vos gisements de données et en extraire informations et connaissances à forte valeur métier. »
Patrick VALDURIEZ
Découvrir l'animateur

Objectifs

  • Définir et expliquer les concepts, techniques et architectures Big Data.
  • Identifier le périmètre d’application du Big Data, notamment par rapport au small data.
  • Analyser l’offre pléthorique du marché, où les nouveaux acteurs bousculent les grands éditeurs traditionnels.
  • Illustrer les architectures Big Data dans le cloud.
  • Discuter les bonnes pratiques pour réussir un projet Big Data.

Programme

1 – Big Data : les fondamentaux

Science des données

  • Le continuum de la compréhension : données, informations, connaissances, sagesse.
  • Positionnement par rapport à l’IA : Machine Learning et Data Analytics.
  • Les cinq « V » du sujet Big Data : Volume, Variété, Vélocité, Véracité, Valeur.
  • Caractérisitiques Big Data : données structurées vs non structurées (Web, IoT, etc.).
  • Le smart data : positionnement par rapport au small data et thick data.

Les enjeux pour l’entreprise

  • Enjeux techniques : maîtrise de la data gravity et des flux temps réel, protection des données personnelles, RGPD et anonymisation.
  • Enjeux stratégiques : mesure de la performance, exploration des données, analyse des comportements sociaux, expérimentation de nouvelles questions.
  • Les meilleurs cas d’usage dans l’industrie.
  • Succès et échecs de projets Big Data.

Opportunités

  • Progrès matériels : mémoire flash, disque SSD, combinaison CPU/GPU, réseaux haut débit.
  • Clusters de serveurs à grande échelle.
  • Technologies éprouvées : logiciel libre, services cloud.
  • Nouveaux produits et services basés sur les données.

2 – Architectures big data

Architectures de données parallèles

  • Objectifs : speed up, scale up, scale out, élasticité.
  • Parallélisme de données : inter-requête, inter-opération, intra-opération, pipeline.
  • Clusters de serveurs : Shared Disk vs Shared Nothing.
  • Techniques : stockage en colonne, sharding, transactions, réplication, haute disponibilité et failover, parallélisation.

SGBD parallèles

  • La pile logicielle du SGBD SQL : requêtes décisionnelles et transactions, distribution.
  • Produits principaux : Actian, IBM, Microsoft, Oracle Exadata, MySQL Cluster, SAP Sybase, Teradata, Vertica, ParAccel, GreenPlum.
  • Étude de cas : la base de données Walmart avec Teradata.

La pile logicielle Big Data

  • Les niveaux fonctionnels : stockage, organisation, traitement, intégration, indexation et analyse.
  • La persistance polyglotte.

L’architecture Hadoop

  • MapReduce et SQL-on-Hadoop, Hbase.
  • Gestion de ressources avec Yarn.
  • Coordination avec Zookeeper.
  • Hadoop Distributed File System (HDFS) : intégration dans Yarn, failover.

3 – Moteurs de recherche pour le Big Data

Indexation et recherche d’information dans le Big Data

  • Techniques : index, fichiers inverses, recherche par mot-clé, recherche par contenu.
  • Moteurs de recherche : Bing, Google Search, ElasticSearch, Exalead, Lucene, Indexma, Qwant, Splink.
  • Google Search : l’algorithme PageRank, l’architecture en cluster Shared Nothing.
  • Étude de cas : assurance qualité Monoprix avec Exalead.

Le Web sémantique

  • Exemple d’application phare : Google Knowledge Graph.
  • RDF (Resource Description Framework) et les ontologies.
  • Le langage de requêtes SPARQL.
  • Les triplestores : 4Store, AllegroGraph, Marklogic, Sesame, SparqlDB, Virtuoso, CumulusRDF, Seevl.

4 – Bases de données Big Data : NoSQL et NewSQL

Motivations

  • La fin de l’approche « taille unique » du relationnel.
  • Scalabilité et haute disponibilité dans le Cloud.
  • Le théorème CAP : analyse et impact.

SGBD NoSQL

  • Modèles de données : clé-valeur, document, tabulaire, graphe.
  • Architecture distribuée scalable.
  • Systèmes : DynamoDB, Cassandra, Hbase, MongoDB, CouchBase, Neo4J, etc.
  • Use cases dans l’industrie.

SGBD NewSQL

  • Comment associer cohérence SQL et scalabilité/haute disponibilité NoSQL.
  • HTAP : analytics et transactionnel sur les mêmes données opérationnelles.
  • Systèmes : CockroachDB, SAP HANA, Esgyn, LeanXcale, MemSQL, NuoDB, Splice Machine, Google Spanner, VoltDB.
  • Use cases : la base Google AdWords avec Spanner ; supervision de SI avec LeanXcale.

5 – Frameworks Big Data

MapReduce

  • Objectif : analyse de Big Data en mode batch.
  • Modèle de programmation : les fonctions Map et Reduce.
  • Architecture distribuée : partitionnement de données, tolérance aux fautes et équilibrage de charge.

CEP

  • Objectif : analyse de flux de données en temps réel
  • Les concepts : Data Streams, requêtes continues, données temporaires, fenêtre glissante.
  • Principaux CEP : InfoSphere Streams, Kafka, Parstream, Streambase, StreamInsight.
  • Pattern streaming temps-réel.
  • Use case : détection de fraude en temps réel.

Spark

  • Objectif : analyse de Big Data en mode interactif et itératif.
  • Extensions du modèle MapReduce : le langage Scala, transformations et actions, Resilient Distributed Datasets.
  • Les outils : Spark SQL, Spark Streaming, MLlib (Machine Learning), GraphX (graphes).
  • Use case Spark Streaming.

6 – Intégration de Big Data

Intégration de données

  • Intégration réelle (Data Warehouse – DW) ou virtuelle (fédérateur de données).
  • Médiateur, adaptateur et ETL.
  • Intégration de schémas et d’ontologies : les conflits sémantiques, le problème de la résolution d’entité.
  • Qualité des données, nettoyage, et Master Data Management.

Le Data Lake

  • Problèmes avec le DW : développement ETL, schéma en écriture.
  • Apports : schéma en lecture, traitement de données multiworkload, RoI.
  • Enterprise Hadoop : intégration, sécurité et gouvernance, outils BI.
  • Chargement de données parallèles : exemple avec HDFS, pattern extracteur de sources.
  • Use case dans le commerce de détail.
  • Bonnes pratiques.

Intégration du Big Data dans un DW

  • Nouveaux besoins en acquisition, organisation, analyse.
  • Tables externes SQL et pattern connecteur.
  • Place de Hadoop : les ETL comme Splunk, accès HDFS avec tables externes SQL.
  • Offres des éditeurs de DW : Microsoft HDInsight et Polybase, IBM Analytics Engine, Oracle Big Data Appliance.

7 – Big Data dans le Cloud

Architecture Cloud

  • Modèles de services : SaaS, IaaS, PaaS, XaaS.
  • Différents types de Clouds : public, privé, communautaire, hybride.
  • Exemples de PaaS : AWS, Azure, OVH.
  • Modèles de déploiement multitenant.

Cloud hybride et iPaaS

  • Cloud privé virtuel, le projet OpenStack.
  • iPaaS : objectifs, architecture.
  • Acteurs : Apigee, Dell Boomi, Informatica, Mulesoft, CloudHub, SnapLogic,

Microsoft, Oracle, SAP.

Database as a Service (DBaaS)

  • Positionnement par catégorie : polyglotte, SQL, NoSQL, NewSQL, DW.
  • Exemples : AWS RedSchift, Snowflake.
  • Migration vers DBaaS.

Big Data as a Service

  • Positionnement des acteurs.
  • Chargement de Big Data dans le Cloud.
  • Accès au big data dans le Cloud.

8 – Méthodologie pour projets Big Data

Stratégie pour un projet Big Data

  • Préparation : objectifs métiers, besoins en données, qualité des données.
  • Equipe : rôles et compétences, cadre pour la gouvernance des données.
  • Outils : le cho

ix de développer du code ou utiliser.

  • Analytics : du réactif au prescriptif.
  • Gouvernance : éviter le data swamp avec le MDM.
  • Impact du RGPD : chiffrement et anonymisation des données personnelles.

Conduite de projet Big Data

  • Limites de la méthode en cascade.
  • Méthodes itératives : l’exemple CRISP-DM.
  • Méthodes agiles : Scrum et Big Data.
  • Bonnes pratiques.
Afficher plus

Public

DSI, responsables SI, architectes informatiques, consultants, ingénieurs et chefs de projets.

Prérequis

Connaissances de base en systèmes d’information et bases de données.

Méthodologie

METHODES PEDAGOGIQUES : Définition précise des concepts, techniques et architectures avec une représentation commune. lllustration avec de nombreux exemples et études de cas. Comparaison des solutions et produits par des tableaux synthétiques.
METHODES D'EVALUATION : Le stagiaire reçoit en amont de la formation un questionnaire permettant de mesurer les compétences, profil et attentes du stagiaire. Tout au long de la formation, les stagiaires sont évalués au moyen de différentes méthodes (quizz, ateliers, exercices et/ou de travaux pratiques, etc.) permettant de vérifier l'atteinte des objectifs. Un questionnaire d'évaluation à chaud est soumis à chaque stagiaire en fin de formation pour s’assurer de l’adéquation des acquis de la formation avec les attentes du stagiaire. Une attestation de réalisation de la formation est remise au stagiaire.

93%

de participants satisfaits sur les 12 derniers mois
Data & Big Data

Architectures Big Data

Découvrez les concepts, techniques et bonnes pratiques pour maîtriser les architectures Big Data et exploiter pleinement le potentiel de vos données.
  •  
  • 2095 € H.T

Autres formations sur le même thème