Capgemini Institut 0144742410
24 rue du Gouverneur général Eboué 92136 Issy les Moulineaux
Big Data : l’état de l’art Paris
Big Data : l’état de l’art Paris
Big Data : l’état de l’art Paris
Big Data : l’état de l’art Paris
Big Data : l’état de l’art Paris
Big Data : l’état de l’art Paris
Big Data : l’état de l’art Paris
Big Data : l’état de l’art Paris
DURéE
2 jours
DATES
28-29 septembre 2017
16-17 octobre 2017
9-10 novembre 2017
7-8 décembre 2017
5-6 février 2018
22-23 mars 2018
28-29 mai 2018
21-22 juin 2018
LIEU
Paris
PRIX 2017
1 910 € ht (2 292 € ttc)
Sommaire du séminaire
    Séminaires technique Institut Capgemini

    Big Data : l’état de l’art

    >  Concepts, outils, mise en place, meilleures pratiques




    Big Data s’impose comme l’une des évolutions majeures des systèmes d’information, à la fois sur les plans métiers, fonctionnels et technologiques. Big Data est un écosystème riche et complexe que les DSI doivent maîtriser pour accompagner les directions métier.

    Au travers de nombreux exemples et cas concrets, ce séminaire guide le responsable SI vers la création de valeur à partir des données et répond à ses préoccupations pratiques de mise en œuvre :

    • Hadoop, Spark, Flink, In-Memory, MPP, NoSQL, NewSQL : quelles sont les architectures à mettre en place ?
    • Data Science, Machine Learning, DeepLearning, IA, DataViz, Cloud : quelles sont les compétences et les technologies à maîtriser ?
    • Hadoop, Cassandra, MongoDB, Storm, Flink : comment tirer parti des évolutions technologiques ?
    • Modélisation, architecture, conception : quels sont les outils et les meilleures pratiques du marché ?
    • Comment mener un projet Big Data, en tenant compte de l’innovation technologique ?

    LE MOT de l’intervenant

    « Big Data, l’état de l’art est un séminaire de référence pour comprendre quels sont les mythes et les réalités des projets de Big Data Analytics qui réussissent dans les organisations françaises et internationales.

    En deux jours, vous saurez quelles directions prendre et tracer une route pragmatique pour réussir vos projets.

    Du Data Lake au Data Lab, le Big Data est probablement l’un des sujets les plus tendances auprès des directions informatiques et des directions métiers, et agrège de très nombreuses facettes. »

    Julien Cabot



    Big Data, quelles opportunités pour la DSI ?


    Big Data et la performance de l’entreprise

    • Clients, produits, processus, infrastructures : les nouveaux enjeux de performance des entreprises.
    • L’analyse des données au service de la performance : comment identifier les nouveaux leviers de performance ?
    • En quoi Big Data est un enjeu de performance pour les entreprises et les organisations ?
    • Étude de cas réel.

    Rôle de la DSI dans le Big Data

    • La DSI comme fournisseur de services IT ou fournisseur de données à valeur ajoutée ?
    • Quelles sont les notions de Data Lake, Data Hub et de Data Lab
    • Comment, concrètement, le DSI peut-il saisir l’opportunité Big Data ?
    • Quels sont les nouveaux challenges pour la DSI ?

    Création de valeur à partir des données

    • Comment identifier les données à valeur ajoutée ?
    • Comment tirer profit des données clients, produits ou de suivi ?
    • Grille d’analyse de la valeur des données et des objectifs d’analyse.
    • Étude de cas.

    L’analyse des données


    Ce chapitre synthétise, de façon accessible, les techniques d’analyse des données indispensables au Big Data.

    Evolutions du datamining vers le Machine Learning

    • Les principales évolutions du datamining vers le machine learning et le deep learning.
    • Le Machine Learning : arbre de décision, règle d’association, Support Vector Machines.
    • Les spécificités du Machine Learning pour le Big Data : haute dimension, occurrences élevées.
    • Les meilleures pratiques pour le Machine Learning : cross-validation, grid search, semi-supervision.
    • Domaines d’application privilégiés : marketing, finance, e-commerce, transport.

    Sources de données publiques et privées

    • Quelles sont les sources de données internes, externes, gratuites, payantes à exploiter?
    • Comment exploiter les données des réseaux sociaux ? Qu’est-ce que le Data Sourcing?
    • Comment exploiter les données des objets connectés ?
    • Comment croiser données publiques et privées ?

    Le cadre juridique des données

    • Les données identifiantes et à caractère personnel.
    • Les obligations légales des entreprises. Pseudonymisation et anonymisation de facteur k
    • La propriété intellectuelle des données dans le cadre du Big Data.
    • L’évolution du cadre légal européen, GDPR

    Visualisation des données à valeur ajoutée

    • Les limites des outils traditionnels d’analyse de données : Excel, BO, etc.
    • Comment représenter efficacement des données analytiques ?
    • Les outils et composants de visualisation des données Big Data.

    Les architectures Big Data


    Le fondement des architectures Big Data

    • Quelles sont les évolutions technologiques qui révolutionnent l’architecture technique ?
    • Quelles sont les contraintes techniques ? Performance, scalabilité, disponibilité.
    • Les caractéristiques d’une architecture Big Data hautement performante.

    Panorama des nouvelles solutions Big Data

    • Architecture orientée stockage : Hadoop, Spark, MPP
    • Architecture orientée calcul : Grid Computing, GPU, Many core
    • Architecture orientée temps réel: NoSQL, NewSQL
    • Architecture orientée évènementiel : CEP, ESP, Storm, Flink

    Typologie des architectures Big Data

    • Comment positionner un système Big Data dans le SI ?
    • Composants Big Data : Data Lake, Data Lab, Data Hub ?
    • Qu’est ce que la Lambda Architecture ?
    • Déploiement physique, appliance ou cloud Big Data?

    Le stockage des Big Data, le Data Lake


    Technologies de stockage distribué

    • La technologie HDFS : principes et fonction­nement.
    • La granularité de cohérence des données : les différents niveaux de cohérence.
    • Quel dimensionnement ? Serveurs, RAM, CPU, disques, réseau.

    Manipulation et Extraction des données

    • Outils de requêtage et de traitement Hadoop MapReduce.
    • Performance et limites du MapReduce.
    • Manipulation interactive : Impala, SparkSQL, MPP, Vertical distribué.

    Le transactionnel Big Data NoSQL et NewSQL

    • Les principales bases NoSQL : Cassandra, MongoDB, Redis Neo4j
    • Traitements analytiques en temps réel ? Fusionner Big Data et Fast Data
    • Panorama des solutions NewSQL : VoltDB, Clustrix, Aerospike

    Le traitement des Big Data, le Data Lab


    Programmation parallèle MapReduce

    • Fondamentaux du traitement MapReduce.
    • Fonctionnement MapReduce dans Hadoop.
    • Points de vigilance et administration.

    Machine Learning en environnement parallèle

    • Les contraintes de parallélisme des algorithmes de Machine Learning.
    • Les librairies de Machine Learning : Spark MLlib, Mahout, Hama, Scikit Learn, R.
    • Étude de cas.

    Traitements des données non structurées

    • Les types de données non structurées : message, document, semi-structuré.
    • Les principes de l’analyse sémantique : sentiment, univers, corrélation.
    • Les principes de l’analyse des images pour le Machine Learning.
    • Étude de cas.

    La méthodologie pour un projet Big Data Analytics


    Le cadrage des projets Big Data

    • Les différentes facettes à cadrer des projets

    Big Data.

    • Comment intégrer l’incertitude au Business Case projet ?
    • Comment estimer le budget et le délai d’un projet Big Data Analytics ?

    Le management des projets de Big Data Analytics

    • Une approche projet nécessairement agile.
    • Comment manager un projet Big Data ?
    • Les étapes d’un projet Big Data phase par phase.

    L’organisation des projets Big Data Analytics

    • Quelle gouvernance pour le Big Data ?
    • Les différentes formes d’organisation. Retours d’expérience.
    • Comment recruter et organiser la montée en compétences des équipes.