Capgemini Institut 0144742410
24 rue du Gouverneur général Eboué 92136 Issy les Moulineaux
Architectures de gestion des données Big Data Paris
Architectures de gestion des données Big Data Paris
DURéE
2 jours
DATES
18-19 mai 2017
13-14 novembre 2017
LIEU
Paris
PRIX
1 910 € ht (2 292 € ttc)
Sommaire du séminaire
    Séminaires technique Institut Capgemini

    Architectures de gestion
    des données Big Data

    >  Concepts, techniques, approches




    Le Big Data a marqué la fin de l’approche «taille unique» des SGBD relationnels, en proposant de nombreuses solutions et technologies, riches et variées, adaptées à différents besoins. Afin d’aider à se repérer dans un paysage complexe et à faire les choix stratégiques pour le SI, ce séminaire fait le point sur les architectures de gestion de Big Data.

    Il répond notamment aux questions suivantes :

    • Big Data : enjeux pour les entreprises ? Opportunités offertes par les récents progrès matériels ?
    • Architectures Big Data : pourquoi de nouvelles approches ? Que dit le théorème CAP ? Différences avec les architectures des SGBD relationnels ?
    • Architectures de stockage : objet, fichier ou clé-valeur ? pour quels besoins ?
    • Nouveaux modèles de données : clé-valeur, tabulaire, document, graphe, stream. La fin de l’approche taille unique du relationnel ? Impact du big data sur l’existant ?
    • SGBD NoSQL : critères de choix d’un SGBD NoSQL? comment allier relationnel et NoSQL ?
    • Architectures massivement parallèles : stockage en ligne versus colonne ? SGBD versus framework de programmation parallèle ? Comment les associer ? Impact du in-memory sur l’architecture ?
    • Intégration de big data : comment intégrer des données structurées et non structurées? Quid de la validité et de la véracité des sources ? Quid de la cohérence et de la protection des données ?

    Le mot de l’intervenant

    « Avec ce séminaire, je compte vous éclairer dans vos choix stratégiques en matière de d’architectures Big Data, afin de faire face à l’évolution sans précédent des données à gérer dans votre SI. Ces données sont de plus en plus nombreuses, distribuées, interconnectées, hétérogènes, mobiles… et de plus en plus difficiles à intégrer et analyser, notamment en temps réel.

    Je pense vous aider notamment à comprendre les concepts et les techniques à la base des architectures Big Data, ainsi que leur impact sur l’existant. Je pense enfin vous aider à vous repérer dans l’offre pléthorique du marché, où les nouveaux acteurs bousculent les grands éditeurs traditionnels. »

    Patrick Valduriez



    Big Data : enjeux et opportunités


    Evolution des données

    • Le Big Data et ses 5 grands défis : volume, variété, vélocité, véracité, validité.
    • Données massives : Web, réseaux sociaux, Open Data, capteurs, données scientifiques.
    • Ouverture des données publiques : le mouvement Open Data.
    • Interconnexion des données : le Linked Open Data.
    • Variété, distribution, mobilité des données sur Internet.
    • Vélocité et flux continus de données.

    Les enjeux pour les entreprises

    • Véracité et validité des données provenant de sources variées pour la prise de décision.
    • Analyses complexes sur Big Data, Big Analytics.
    • Production d’informations en temps réel à partir de Big Data.
    • Croisement et visualisation de données publiques et privées.
    • Réactivité : traitement de flux de données en temps réel, Complex Event Processing (CEP).
    • Exemples de succès et d’échecs de projets Big Data.
    • Cloud et Big Data : le mariage parfait ?

    Opportunités offertes par les progrès matériels

    • Le stockage : mémoires flash, disques HDD versus SSD, la nouvelle hiérarchie de mémoires.
    • Bientôt 1 teraoctet de RAM sur un chip : l’avènement du traitement de données in-memory ?
    • Processeurs multi-cœurs, la combinaison CPU/GPU, la nouvelle hiérarchie du calcul parallèle.
    • Le stockage disque en réseau NAS/SAN : impact sur les architectures de gestion de données?
    • Les architectures massivement parallèles (MPP) : speed-up, scale-up, scale-out, élasticité.
    • Cloud et microserveurs.

    Architectures de bases de données


    Les rappels nécessaires afin de bien comprendre et positionner les architectures Big Data.

    Concepts de base

    • Partage de données, définition et évolution de schéma, cohérence et protection des données.
    • Requêtes, transactions, vues, contraintes d’intégrité et triggers.
    • Optimisation et réglage, l’importance du placement et des index.
    • Le modèle ACID (Atomicité, Cohérence, Isolation, Durabilité) des transactions.
    • Transactions distribuées : le protocole 2PC, tolérance aux pannes et scalabilité.
    • Réplication de données : cohérence des copies, propagation des mises à jour.

    Modèles de données

    • Le modèle relationnel : domaine de valeurs, relation, algèbre et calcul, le concept de valeur nulle.
    • SQL2 : les types de données, les niveaux d’isolation, la portabilité.
    • SQL3 : tables imbriquées, types complexes et extensions objet.
    • Nouveaux modèles : clé-valeur, tabulaire, document, graphe, stream.

    L’analyse de données

    • Décisionnel et OLAP : le benchmark TPC-H, analyse multi-dimensionnelle.
    • Business Intelligence et data mining : extraction de connaissances à partir des données.

    Architectures des SGBD

    • Parallélisme de données : inter-requête, inter-opération, intra-opération, pipeline.
    • Architectures MPP: SMP et NUMA, cluster shared-disk, cluster shared-nothing.

    Architectures Big Data


    Motivations

    • La fin de l’approche « taille unique » du relationnel.
    • Architecture 3-tiers dans le cloud.
    • Le théorème CAP (Consistency, Availability, Partition tolerance) : analyse et impact.

    La pile logicielle big data

    • Les niveaux fonctionnels : stockage, organisation, traitement, intégration, outils d’analyse.
    • La gestion de clusters.
    • L’architecture Hadoop, comparaison avec l’architecture Lambda.
    • Comparaison avec les SGBD relationnels.

    Techniques de base

    • Organisation des données : en ligne ou en colonne.
    • Placement des données : partitionnement et sharding, réplication, indexation.
    • Parallélisation des requêtes, équilibrage de charge.
    • Haute disponibilité : le failover, les points de sauvegarde pour requêtes lourdes.

    Stockage de big data


    Stockage d’objets

    Stockage en fichiers distribués

    • Systèmes de fichiers distribués : Hadoop HDFS, Google File System, IBM GPFS, GlusterFS, Lustre.

    Stockage clé-valeur

    • Systèmes clé-valeur : Amazon DynamoDB, Amazon SimpleDB, Apache Cassandra, Linkedin Voldemort.

    Les principaux SGBD NoSQL


    SGBD tabulaires

    • Modèle de données : table, orienté ligne/colonne, opérateurs ensemblistes.
    • Architecture : partitionnement et réplication de tables, stockage en fichiers.
    • Exemples : Google Bigtable sur GFS, Hadoop Hbase sur HDSF, Apache Accumulo.

    SGBD orientés-documents

    SGBD orientés-graphes

    • Modèle de données : graphe, RDF, opérateurs de parcours de graphes, langages de requêtes.
    • Architecture : partitionnement et réplication de graphes, stockage en fichiers, index.
    • Exemples : Neo4J, DEX/Sparksee, AllegroGraph, InfiniteGraph, IBM DB2 Sparql.

    Intégration SQL/NoSQL

    • Le relâchement de la cohérence : problèmes pour les développeurs et les utilisateurs.
    • NoSQL versus relationnel. L’intégration SQL/NoSQL avec Google F1.

    Frameworks de traitement de données parallèles


    Le framework MapReduce

    • Objectifs : analyse de Big Data en mode batch.
    • Le modèle de données clé-valeur, les fonctions Map et Reduce, partitionnement des fichiers.
    • Architecture : tolérance aux fautes et équilibrage de charge.
    • Étude de cas : le moteur de recherche Google.

    L’écosystème Hadoop

    • Les fondements : HDFS, Yarn, MapReduce.
    • Les outils : Pig (interface workflows), Hive (interface SQL).
    • Distributeurs/éditeurs principaux: Cloudera, Datameer, Datastax, Greenplum HD, Hurence, Intel, Talend, VMware.
    • Les alternatives basées sur SQL : Google Bigquery, Cloudera Impala.

    Le framework Spark

    • Objectifs : analyse de Big Data en mode interactif et itératif.
    • Extensions du modèle MapReduce : le langage Scala, transformations et actions.
    • Les Resilient Distributed Datasets : partitionnement, tolérance aux fautes et stockage in-memory.
    • Les outils : Spark SQL, Spark Streaming, MLlib (machine learning), GraphX (graphes).
    • Distributeurs/éditeurs principaux: Apache, Cloudera, Amazon EC2.

    Traitement des flux de données

    • Les concepts : data streams, requêtes continues, données temporaires, réponses approchées.
    • Modélisation des flux : séquences, séries temporelles, fenêtre fixe ou glissante sur le flux.
    • Intégration du streaming avec Hadoop/MapReduce/Spark Streaming.

    Architectures d’intégration de Big Data


    Intégration de données hétérogènes

    • Intégration réelle (data warehouse) ou virtuelle (fédérateur de données).
    • Médiateur, adaptateur et ETL.
    • Intégration de schémas et d’ontologies : les conflits sémantiques, le problème de la résolution d’entité.
    • Modèles de données pour l’intégration : relationnel, XML, JSON, clé-valeur.
    • L’offre produits et services.

    Intégration des données du SI avec big data

    • Besoins : acquisition, organisation, analyse.
    • Place de Hadoop et Spark dans une architecture d’intégration
    • Exemples de plateformes d’intégration: Microsoft HDInsight, IBM InfoSphere BigInsights, Oracle Bigdata Appliance.

    Systèmes multistores

    • Intégration de données SQL et NoSQL : couplage faible versus couplage fort.
    • Exemples : Microsoft Polybase, HadoopDB.
    • SQL et NoSQL dans le cloud : le projet européen CoherentPaaS.