Nouvelle Formation

Formation Architectures de Données : l’état de l’art

Définitions, Architectures, Technologies, Outils, Sécurité et Gouvernance.

Présentation

Après ces 3 journées, vous saurez aussi bien déchiffrer que dessiner des Architectures de Données contemporaines, aussi complexes soient-elles. Vous acquerrez le vocabulaire et les connaissances fondamentales pour pouvoir commenter et critiquer les choix d’Architectures de Données.

Depuis une décennie on assiste à une multitude d’innovations, de ruptures, aussi bien dans les outils que dans les pratiques, pour construire des Architectures de Données toujours plus sophistiquées. Celles-ci sont de plus en plus complexes à concevoir, à mettre au point, à exploiter, à sécuriser et aussi à financer.

Des paradigmes évolués se généralisent tels que Data Intensive Applications, Data Platform, Data Stream, DataOps, MapReduce, CAP, etc.

Des outils novateurs démontrent leur efficacité opérationnelle tels que Hadoop, Spark, HDFS, YARN, ZooKeeper, Hive, Impala, HBase, Solr, Kafka, ElasticSearch, etc.

Le Cloud affiche une offre pléthorique pour construire des Architectures de Données tels que Amazon, Azure, Google, Alibaba, IBM, Oracle, SAP, 3DOutscale, etc.

Au terme de cette formation, vous aurez acquis une connaissance complète et pragmatique de l’état de l’art des Architectures de Données les plus modernes. Au travers des exposés, du partage d’expérience de projets opérationnels et des retours terrains concrets issus de dizaines d’entreprises, géants du Web comme entreprises conventionnelles, vous aurez acquis les clés techniques, fonctionnelles et de gouvernance pour élaborer vos architectures de données de demain.

Afficher plus

Le mot de l'animateur

« Dans cette formation architecture de données, je vous expose l’état de l’art complet et pragmatique des Architectures de Données les plus modernes. Je partage avec vous les expériences de projets opérationnels et les retours terrains concrets issus directement des usines Data de dizaines d’entreprises, aussi bien des géants du Web que des entreprises conventionnelles en pleine transformation digitale. »
Habib GUERGACHI
Découvrir l'animateur
Jean-François POUX
Découvrir l'animateur

Objectifs

  • Identifier les architectures, les types de données ainsi que les types de traitements associés.
  • Rappeler et analyser les schémas de modélisation de données, leurs origines, zones de confort et contraintes. Catégoriser les systèmes de persistance associés aux schémas de données.
  • Démontrer et illustrer à l’aide de cas pratiques (Kafka, MongoDB, Cassandra) les stratégies de stockage, partitionnement, réplication et disponibilité. Amener les participants à pouvoir analyser et évaluer l’adéquation d’un produit du marché à leur besoins technique.
  • Identifier les problématiques et pratiques de sécurité. Décrire les contraintes règlementaires applicables aux architectures de données.
  • Expliciter les stratégies de gouvernance des architectures de données.

Programme

1 – Architectures de Données

  • Les définitions du terme Donnée.
  • Quelle différence entre Donnée et Information.
  • Définitions du concept Architecte de Données.
  • Les risques à ne pas maîtriser les Architectures des Données.
  • Les contraintes posées par les Données dans les logiciels modernes.
  • Les outils modernes dans les Architectures contemporaines.
  • Exemple d’outils : HDFS, YARN, ZooKeeper, Hive, Impala, HBase, Solr, etc. ?

2 – Typologie et formats de Données

  • Les principaux types de Données.
  • Données structurées, semi structurées, non structurées, etc.
  • Données lisibles, chiffrées, anonymisées, tokenisées, etc.
  • Données métiers vs Données techniques.
  • Métadonnées de conception, d’exécution.
  • Concept de Données en Repos et Données en Mouvement.

3 – Types de traitements de Données

  • Les principaux types de traitement de Données.
  • Découverte et Identification.
  • Structuration et Nettoyage.
  • Extraction et Acquisition.
  • Ingestion, Transformation et Normalisation.
  • Calcul, Analyse et Publication.
  • Chiffrement, Anonymisation et Tokenisation.
  • Stockage, Répartition et Réplication.
  • Sauvegarde et Restauration.
  • Archivage et Suppression.

4 – Schémas de Modélisation de Données

  • Rappels sur les principes de modélisation relationnelle.
  • Introduction aux modèles graphe.
  • Que penser de la modélisation en schéma colonnes ?
  • Les bénéfices de la modélisation en schémas document.
  • Les zones de confort de la modélisation en schéma clé-valeurs.
  • Quid des modèles binaires
  • Rappels sur la matérialisation de vues.
  • Les modèles orientés schéma d’accès aux Données.
  • La modélisation sans schéma.

5 – Persistance et partitionnement de Données

  • Les principaux formats de stockage de Données.
  • Qu’est que la persistance en NoSQL ?
  • Avantages et limites de la persistance en File System.
  • Quelles différences entre : centralisé, distribué, partitionné, répliqué et Sharding.
  • Rappel des modèles de réplication meneursuiveur et égal à égal.
  • Exemple de combinaison du Sharding et de la réplication dans Kafka.

6 – Patterns d’Architectures de Données

  • Présentation de l’architecture des ETL (Extract, Transform and Load)
  • Présentation des architectures ESB (Enterprise Service Bus)
  • Les architectures MDM (Master Data Management)
  • Architecture DW (Data Warehouse)
  • Les types et évolutions des architecture BI (Business Intelligence)
  • Les architectures Data Lake leurs pièges
  • Les contraintes spécifiques au domaine IoT (Internet of Things)
  • Les contraintes spécifiques au domaine OT (Operation Technology)
  • Les contraintes spécifiques au domaine AV (Autonomous Vehicle)
  • Le problème du Big Data et les architectures associées
  • Architecture IA/Deep Learning.
  • Présentation des architectures Stream.
  • Pattern CQRS (Command Query Responsibility Separation)
  • Pattern Event Sourcing / CQRS / Stream.

7 – Intégrité et versionning des Données

  • Définition de l’intégrité d’une Donnée.
  • Consistance en écriture et en lecture.
  • La relaxation de la consistance et de la durabilité.
  • Introduction aux concepts d’Eventual consistency.
  • Versionning métier, technique, temporel, By Design.
  • Comment gérer la traçabilité et l’auditabilité.
  • Introduction à l’observabilité d’une architecture de Données.

8 – Transactionnel et architecture de données

  • Définitions formelles de la Consistance, de l’Isolation et de la Durabilité.
  • Qu’est ce que la Relaxation de la Durabilité ?
  • Comment assurer une disponibilité à 100% ?
  • Pourquoi le Partitionnement est inévitable ?
  • Introduction du Théorème CAP.
  • Analyse des principes transactionnels évolués Quorum, Eventual consistency, etc.
  • Introduction du principe de la transaction de compensation fonctionnelle.

9 – Partitionnement et interfaces d’Invocation

  • Les types de distribution de Données : Replicat, Reflet, Extrait, Vue, Shard, etc.
  • Qu’est ce qu’un contrat d’Interface de Données ?
  • Les principaux pièges du Nommage.
  • Les 4 types de Couplage : technique, fonctionnel, temporel et sémantique.
  • Les principaux modes d’invocation d’une interface : pub/sub, synchrone, asynchrone, Event, message, etc.
  • Exemple d’outils et stockage distribué : HDFS, S3, HBAse, Cassandra, Elastic Search, SolR, Kudu, CockroachDB, etc.

10 – Métadonnées et gouvernance data

  • Les définitions de Métadonnées.
  • Qu’est ce que la Métadonnée de traitement ?
  • Intérêts et limites des Métadatas déclarative.
  • Les avantages des Métadonnées construites par découverte.
  • Management des Métadonnées.

11 – Cluster de Données

  • Qu’est ce qu’un Cluster de Données ?
  • Les nœuds d’un Cluster : MasterNode, Worker Node, Edge Node, etc.
  • Les contraintes de configuration par taille de Cluster.
  • Les types de Clusters : séparation légale, résilience, développement, etc.
  • Qu’est ce que la multitenancy ?
  • Les problèmes de croissance de la taille d’un Cluster.
  • Les modes d’accès à un Cluster : programmatique, accès en ligne, interface Web.
  • Les Landing Zones (accès en CLI, NFS Gateways, WebHDFS, FULME, etc.).

12 – La haute disponibilité

  • Avantages et inconvénients de la disponibilité horizontale.
  • Les précautions essentielles dans la mise en œuvre des Quorums et du Load Balancing.
  • Délégation de la Haute disponibilité aux moteurs de bases de Données.
  • Étude de cas de séparation des Process maître et des Process traitements.
  • Étude de cas de séparation des Services à rôles identiques.
  • Étude de cas d’équilibrage des Configurations maîtres.
  • Optimisation des Configurations de serveurs.

13 – Sécurité des Données

  • Les deux modèles de sécurité de Données At Rest et In Motion.
  • Exemple de chiffrement des volumes avec Cloudera Navigator Encrypt.
  • Exemple de chiffrement transparent dans HDFS.
  • faut-il chiffrer les fichiers temporaires ?
  • Comment gérer l’authentification ?
  • Centralisation du management des autorisations.
  • La problématique de la sécurité de bout en bout.
  • Certificats génériques pour un Cluster multinœuds.

14 – Contraintes d’Infrastructures

  • Les modes de consommation et tarification du calcul et du stockage.
  • Contraintes par taille de Cluster : petit et grande taille.
  • La problématique d’Intégration des réseaux.
  • Les exigences de base (cooling, energie, puissance, réseau, gestion des racks).
  • Coûts et bénéfices des serveurs Commodity.
  • Alignement des domaines de pannes.
  • Exemple de pannes en mode Clusters Spanning.
  • Concepts avancés : Réplication vs Erasure Coding.
  • Exemples de contraintes liée à l’ingestion et l’extraction de gros volumes.
  • Introduction au concept de Chaos Kong.

15 – Sauvegarde et restauration

  • Le problème de la multiplicité des systèmes distribués à sauvegarder.
  • Scénarios de désastre et de reprise d’activité.
  • Définition des RTO (Recovery Time Objectives) et RPO (Recovery Point Objectives)
  • Stratégies de sauvegarde en fonction de RPO et RTO.
  • Comment choisir les sources de Données à sauvegarder ?
  • Les principaux types de Données à sauvegarder.
  • La problématique de la consistance des Données post restauration.
  • Les pratiques de validation des backup et des restaurations.

16 – Conformité GDPR

  • Quels prérequis pour minimiser les risques liés à l’Accountability ?
  • Comment partager les responsabilités sur des architectures hétérogènes et complexes.
  • Quelle place du registre dans l’architecture de Données ?
  • Certification de tous les building blocks des Architectures de Données.
  • Analyse de la difficulté à garantir la conformité.
  • Qu’est qu’une entreprise GDPR Compliant by Design ?

17 – Gouvernance

  • Les rôles et responsabilités dans un projet Data.
  • Les rôles et responsabilités sur les Données, les Métadonnées.
  • Les modèle de gouvernance orientés Infrastructure, Middleware et Applications.
  • Les nouvelles approches pour construire une équipe dans un projet Data.
  • Impact des silos de l’IT et de l’OT.
  • Les limites des découpages des responsabilités.
  • Quel rôle pour le DevOps, DevSecOps, DataOps, etc. ?
  • Avantages et limites des centres d’excellence et des centres de compétences ?
  • Les principaux KPI de gouvernance des Données dans l’entreprise.
  • Les principaux organismes de référence en gouvernance de Données.

18 – Panorama des outils

Ce chapitre dresse un panorama critique des principales offres des outils Data aussi bien Éditeurs et Open Source que Cloud. Caractéristiques des principaux produits dans chaque catégorie, points forts et limites, domaines d’application privilégiés et principales contre-indications respectives, etc.

Parmi les outils étudiés HADOOP, HDFS, YARN, ZooKeeper, Hive, Impala, HBase, Solr, Kudu, Oozie, Hue, Kafka, Sentry, etc. Google Cloud (Big Query, DataFlow, SQL, Firebase, FireStore,Big Table, Spanner, etc.). Microsoft Azure (SQL Database,, DMS, Cosmos DB, DataBox, DataBricks, HDInsight, HDP, Analysis Services, SQL Server Big Data, etc. ). Amazon Web Services (QLDB, Aurora, Aurora, RDS, Elasticache, EMR, Athena, Redshift, Kinesis, etc.).

Afficher plus

Public

Décideurs informatiques, urbanistes et architectes, consultants, ingénieurs et chefs de projets, maîtrises d’ouvrage.

Prérequis

Connaissances de base en Digital, Systèmes d’Information, Architecture de Services et Cloud.

Méthodologie

METHODES PEDAGOGIQUES : Méthode I3 (i Puissance 3) inventée et éprouvée par Habib GUERGACHI depuis 25 ans de formations. Chaque sujet est traité en 3 phases. Introduction au sujet grâce à des définitions formelles. Puis immersion dans le sujet aussi profondément que l’exigent les interactions sous la forme de questions et réponses. Enfin, interconnexion avec les autres sujets traités.
METHODES D'EVALUATION : Le stagiaire reçoit en amont de la formation un questionnaire permettant de mesurer les compétences, profil et attentes du stagiaire. Tout au long de la formation, les stagiaires sont évalués au moyen de différentes méthodes (quizz, ateliers, exercices et/ou de travaux pratiques, etc.) permettant de vérifier l'atteinte des objectifs.Un questionnaire d'évaluation à chaud est soumis à chaque stagiaire en fin de formation pour s’assurer de l’adéquation des acquis de la formation avec les attentes du stagiaire.Une attestation de réalisation de la formation est remise au stagiaire.

94%

de participants satisfaits sur les 12 derniers mois
Nouveau
Data & Big Data

Architectures de Données : l’état de l’art

Maîtrisez les différentes architectures de données : ETL, MDM, ESB, Batch, Big Data, BI, IA, Temps réel, IoT, Observabilité, Microservices, etc..
  •  
  • 2825 € H.T

Autres formations sur le même thème