Big Data : l’état de l’art

Concepts, outils, mise en place, meilleures pratiques.
Sommaire

LE MOT DE L’INTERVENANT

Big Data, l’état de l’art est un séminaire de référence pour...

Big Data, l’état de l’art est un séminaire de référence pour comprendre quels sont les mythes et les réalités des projets de Big Data Analytics qui réussissent dans les organisations françaises et internationales. En deux jours, vous saurez quelles directions prendre et tracer une route pragmatique pour réussir vos projets. Du Data Lake au Data Lab, le Big Data agrège de très nombreuses facettes. Il est probablement l’un des sujets les plus tendances auprès des directions informatiques et des directions métiers.

Adrian Pellegrini
Adrian Pellegrini est ingénieur Big Data de formation et a pu appliquer durant tout son parcours professionnel les techniques associées à ce domaine dans des cas d’usages bien réels. Il est aujourd’hui directeur d’une start-up technologique autour du Big Data et de l’Intelligence Artificielle.
Lire la suite Cacher le texte

Depuis quelques années Big Data s’est imposé comme l’une des innovations majeures des Systèmes d’Information, à la fois sur les plans métiers, fonctionnels et technologiques. Il s'agit aujourd'hui de ne plus en rester à l'innovation mais d'aller dans l'implémentation.

Big Data est un écosystème riche et complexe que les DSI et Directions Métier doivent maîtriser conjointement pour accompagner la transformation Data des entreprises. Au travers de nombreux retours d'expériences, cas concrets et mises en pratique, ce séminaire guide vers la création de valeur à partir des Big Data et répond aux préoccupations de mise en œuvre d’une stratégie Big Data :

  • Qu'entend-t-on par Big Data aujourd'hui, comment aller au-delà du mot clé ?
  • Déploiement sur site ou déploiement sur le Cloud : avantages et inconvénients
  • Modélisation, architecture, conception : les outils et les meilleures pratiques du marché.
  • Architectures distribuées, In-Memory, MPP, NoSQL, NewSQL, Time Series DBMS, Graph : les technologies à mettre en place.
  • Hadoop, Cassandra, MongoDB, Spark, Kafka… : comment tirer parti des évolutions technologiques ?
  • Amazon Web Services, Google, Microsoft : Les plateformes Cloud de "Big Data as a service"
  • Data Science, DataViz, Machine Learning, Intelligence Artificielle : les compétences et les technologies à maîtriser pour l'exploitation des données.
  • RGPD, règlement e-privacy, Anonymisation, Privacy by Design : quelles implications les nouvelles réglementations auront sur le traitement des données ? Comment utiliser la technologie pour conserver les performances tout en restant en conformité ?
  • Comment mener un projet Big Data, en tenant compte de l’innovation technologique et des tendances du marché ?
  • Des nouveaux métiers apparaissent sur le marché : DataOps, DataSteward... Quel avenir pour nos métiers historiques ?


Big Data, quelles opportunités pour l'entreprise ?


Quel Big Data pour l'entreprise ?

  • « Buzzword » à ces débuts, quelle définition pragmatique pouvons-nous donner aujourd’hui au Big Data ?
  • L’analyse des données au service de la performance : comment identifier les nouveaux leviers de performance ?
  • En quoi Big Data est un enjeu de performance pour les entreprises et les organisations ?
  • IA, Cloud, IoT, etc. : Où positionner le Big Data ?
  • Les "V" du Big Data, comme standard de définition.

Rôle de la DSI dans le Big Data

  • La DSI comme fournisseur de services IT ou fournisseur de données à valeur ajoutée ?
  • Comment, concrètement, le DSI peut-il saisir l’opportunité Big Data ?
  • Quels sont les nouveaux challenges pour la DSI ?
  • Comment travailler conjointement entre une direction Métier et la DSI ?

Création de valeur à partir des données

  • Comment identifier les données à valeur ajoutée ?
  • Les nouveaux types de données : non structurées (message, document), semi-structurées.
  • Comment tirer profit des données clients, produits ou de suivi ?
  • Grille d’analyse de la valeur des données et des objectifs d’analyse.
  • Étude de cas.

Sources de données publiques et privées

  • Quelles sont les sources de données internes, externes, gratuites, payantes à exploiter ?
  • Comment exploiter les données des réseaux sociaux ? Qu’est-ce que le Data Crunching ?
  • La mise à disposition de données gratuites : Open Data.
  • Comment exploiter les données des objets connectés ?
  • Comment croiser données publiques et privées ?
  • Comment utiliser les données provenant du Web ?

Business intelligence ou Big Data

  • Rappels sur ce que l'on appelle BI ou informatique décisionnelle.
  • Les limites de la BI.
  • Comparaisons de l'approche Big Data et de l'approche BI.
  • Transformation du SI décisionnel.

Le stockage des Big Data


Technologies de stockage distribué

  • La technologie HDFS : principes et fonctionnement.
  • La granularité de cohérence des données : les différents niveaux de cohérence.
  • Quel dimensionnement ? Serveurs, RAM, CPU, disques, réseau.

Manipulation et extraction des données

  • Outils de requêtage et de traitement Hadoop MapReduce.
  • Performance et limites du MapReduce.
  • Manipulation interactive : Impala, SparkSQL, MPP, Vertical distribué.

Le transactionnel Big Data NoSQL et NewSQL

  • Les principales bases NoSQL : Cassandra, MongoDB, Neo4j.
  • Traitements analytiques en temps réel ? Fusionner Big Data et Fast Data.
  • Focus sur les bases de données Graph : Exemple de ElasticSearch.
  • Panorama des solutions NewSQL : VoltDB, Aerospike, NuoDB.

Les bases de données Séries Temporelles

  • Quels sont leurs usages ?
  • Quels sont les points clefs de ces stockages ?
  • Panorama des solutions Time Series DBMS : InfluxDB, Kdb+, Prometheus.

La révolution Cloud, le stockage vu comme moins limitant

  • Le principe du Xaas, de la scalabilité aux services managés.
  • Vue d'ensemble des principaux fournisseurs Data as a Service.
  • Principes fondamentaux de leur stockage et coûts associés.
  • Data Virtualization : ou comment dépasser la problématique du stockage.

Les architectures Big Data


Le fondement des architectures Big Data

  • Quelles sont les évolutions technologiques qui révolutionnent l’architecture technique ?
  • Quelles sont les contraintes techniques ? Performance, scalabilité, disponibilité.
  • Les caractéristiques d’une architecture Big Data hautement performante.
  • Stockage par bloc, stockage objet, l'arrivée du Software Defined Storage.

Panorama des nouvelles solutions Big Data sur site

  • Architecture orientée stockage : Hadoop, Spark, MPP.
  • Architecture orientée calcul : Grid Computing, GPU.
  • Architecture orientée haute disponibilité: NoSQL, NewSQL.
  • Architecture orientée évènementiel : CEP, ESP, Storm, Flink, Spark.
  • Hadoop : Description et évolutions.
  • Mise en pratique d'un cluster Hadoop.
  • Focus sur Spark : définition, technique et cas d'usage.

Panorama des nouvelles solutions Big Data Cloud

  • Une vision pragmatique grâce aux services managés.
  • Une opportunité d'accès à la technologie Big Data.
  • AWS, Microsoft, Google. Quelles différences entre les différents fournisseurs?
  • Cloud Privé, une solution alternative ?
  • Mise en pratique.

Typologie des architectures Big Data

  • Comment positionner un système Big Data dans le SI ?
  • Concepts logiques Big Data : Data Lake, Data Lab, Data Hub ?
  • Qu’est-ce que la Lambda Architecture (puis la Kappa et Zeta architecture) ? Quels usages pour chaque architecture ?
  • Déploiement physique, Appliance ou Cloud Big Data ?
  • Cas d'usage.

Trois cas d'usages classiques

  • Du Datawarehouse au Datalake.
  • Le traitement des objets connectés.
  • La prise en charge des données des réseaux sociaux.

Le traitement et l'analyse des Big data


Ce chapitre synthétise, de façon accessible, les techniques d’analyse des données indispensables au Big Data.

Le cadre juridique des données : RGPD

  • Les données identifiantes et à caractère personnel.
  • Les obligations légales des entreprises : minimisation, finalité, durée de conservation, droits des personnes.
  • La propriété intellectuelle des données dans le cadre du Big Data.
  • L’évolution du cadre légal européen.
  • Mise en pratique de la pseudonymisation, de l'anonymisation de facteur K et du differential privacy.

Visualisation des données à valeur ajoutée

  • Les limites des outils traditionnels d’analyse de données : Excel, BO, etc.
  • Comment représenter efficacement des données analytiques ?
  • Les outils et composants de visualisation des données Big Data.

Evolutions du Data Mining vers le Machine Learning

  • Les principales évolutions du Data Mining vers le Machine Learning et le Deep Learning.
  • Les spécificités du Machine Learning pour le Big Data : haute dimension, occurrences élevées.
  • Domaines d’application privilégiés : marketing, finance, e-commerce, transport, ressources humaines.
  • Ethique des algorithmes, sujet d’avenir.

Machine Learning en environnement parallèle

  • Les contraintes de parallélisme des algorithmes de Machine Learning.
  • Les librairies de Machine Learning : Spark MLlib, Mahout, Hama, Scikit Learn, R, Tensor Flow.
  • Étude de cas.

Programmation parallèle MapReduce

  • Fondamentaux du traitement MapReduce.
  • Fonctionnement MapReduce dans Hadoop.
  • Points de vigilance et administration.

Traitements des données non structurées

  • Les principes de l’analyse sémantique : sentiment, univers, corrélation.
  • Les principes de l’analyse des images pour le Machine Learning.
  • Étude de cas.

La méthodologie pour un projet Big Data


Le cadrage des projets Big Data

  • Les différentes facettes à cadrer des projets Big Data.
  • Comment intégrer l’incertitude au Business Case projet ?
  • Comment estimer le budget et le délai d’un projet Big Data Analytics ?

Le management des projets de Big Data

  • Une approche projet nécessairement agile, mix entre Scrum et Kanban : ScrumBan.
  • La fin du POC : du POV à l'industrialisation.
  • Comment manager un projet Big Data ?
  • Les étapes d’un projet Big Data phase par phase.
  • Mise en pratique.

L’organisation des projets Big Data

  • Quels sont les nouveaux métiers du Big Data ?
  • Data Scientist, Data Engineer, Data Stewards et maintenant Data Ops : qui recruter pour quels besoins ?
  • Quelle gouvernance pour le Big Data ?
  • Les différentes formes d’organisation. Retours d’expérience.
  • Comment recruter et organiser la montée en compétences des équipes ?