Formation Big Data : l’état de l’art

Concepts, outils, mise en place, meilleures pratiques.

Présentation

Depuis plus de quinze ans, le Big Data s’est imposé comme l’une des innovations majeures des SI, sur les plans métiers, fonctionnels et technologiques. Il s’agit aujourd’hui de ne plus en rester à l’innovation mais d’aller dans l’implémentation et le maintien en conditions opérationnelles.

Mais qu’entend-t-on vraiment par Big Data aujourd’hui, a-t-on réussi à aller au-delà du mot-clef ?

Pour cela, les DSI et Directions Métier doivent maîtriser conjointement cet écosystème riche pour accompagner la transformation Data des entreprises.

Au travers de retours d’expériences, cas concrets et mises en pratique, cette formation guide vers la création de valeur sur trois axes :

  • Stratégique : Déploiement sur site ou déploiement sur le Cloud ? Quelle place pour l’Intelligence Artificielle dans le processus Big Data ?
  • Tactique : Comment mener un projet Big Data, en tenant compte de l’innovation technologique et des tendances du marché ?
  • Opérationnel : Quelles technologies choisir : « Big Data as a service » sur le Cloud, Hadoop, distribuées, In-Memory, MPP, NoSQL, TSDB, Cassandra, MongoDB, Spark, Kafka … Et avec quels profils d’experts pour les maitriser : DataEngineer, DataScientists, DataOps, DataSteward
Afficher plus

Le mot de l'animateur

« Big Data, l’état de l’art est la formation de référence pour comprendre quels sont les mythes et les réalités du Big Data. En deux jours, je vous donnerai les clefs pour réussir vos projets Big Data de manière pragmatique en entreprise, à travers de retours d’expériences que j’ai pu avoir après dix ans dans le domaine. Entre technologies, techniques, méthodologies et gouvernance, le domaine du Big Data s’est complexifié mais est arrivé à une maturité accessible lorsqu’on maitrise les bons fondamentaux. »
Adrian PELLEGRINI
Découvrir l'animateur

Objectifs

  • Guider les responsables SI et métiers vers la création de valeur à partir des Big Data et répondre à ses préoccupations pratiques de mise en œuvre.
  • Appréhender les opportunités, les projets réels en rapport direct avec les métiers sur les problématiques Data (Engineering, Science, Vizualisation).
  • Examiner en profondeur les solutions technologique et architectures, du Data Lake à la restitution de données.
  • Assembler les briques Big data : stockage, calcul, sécurité, infrastructure.
  • Appliquer une méthodologie pour un projet Big Data : cadrage, management et organisation.

Programme

1 – Big Data, que signifie-t-il pour l’entreprise ?

Avant toute chose, nous définissons ici le vocabulaire et les enjeux du Big Data

Quel Big Data pour l’entreprise ?

  • « Buzzword » à ces débuts, quelle définition pragmatique pouvons-nous donner aujourd’hui au Big Data ?
  • L’analyse des données au service de la performance : comment identifier les nouveaux leviers de performance ?
  • En quoi Big Data est un enjeu de performance pour les entreprises et les organisations ?
  • IA, Cloud, IoT, etc. : Où positionner le Big Data ?
  • Les « V » du Big Data, comme standard de définition.

Tendances du moment contre le Big Data ?

  • Les Small and Wide data
  • L’Edge Computing
  • La notion de durabilité et d’écologie face au Big Data
  • Les fusions récentes d’acteurs historiques fragilisant la R&D dans le domaine
  • Le paradoxe de la Data Gravity

Création de valeur à partir des données

  • Comment identifier les données à valeur ajoutée ?
  • Les nouveaux types de données : non structurées (message, document), semi-structurées.
  • Comment tirer profit des données clients, produits ou de suivi ?
  • Grille d’analyse de la valeur des données et des objectifs d’analyse.
  • Étude de cas.

Business intelligence ou Big Data

  • Rappels sur ce que l’on appelle BI ou informatique décisionnelle.
  • Les limites de la BI.
  • Comparaisons de l’approche Big Data et de l’approche BI.
  • Transformation du SI décisionnel.

2 – Le stockage des Big Data

La première question à se poser est de savoir comment stocker et mettre à disposition ces Big Data

Technologies de stockage distribué

  • La technologie HDFS : principes et fonctionnement.
  • La granularité de cohérence des données : les différents niveaux de cohérence.
  • Quel dimensionnement ? Serveurs, RAM, CPU, disques, réseau.

Le transactionnel Big Data NoSQL et NewSQL

  • Les principales bases NoSQL : Cassandra, MongoDB, Neo4j.
  • Traitements analytiques en temps réel ? Fusionner Big Data et Fast Data.
  • Focus sur les bases de données Graph : Exemple de ElasticSearch.
  • Panorama des solutions NewSQL : VoltDB, Aerospike, NuoDB.

Les bases de données Séries Temporelles

  • Quels sont leurs usages ?
  • Quels sont les points clefs de ces stockages ?
  • Panorama des solutions Time Series DBMS : InfluxDB, Kdb+, Prometheus.

La révolution Cloud, le stockage vu comme moins limitant

  • Le principe du XaaS, de la scalabilité aux services managés.
  • Vue d’ensemble des principaux fournisseurs Data as a Service.
  • Principes fondamentaux de leur stockage et coûts associés.
  • Data Virtualization : ou comment dépasser la problématique du stockage.

Les plateformes Cloud de DataWarehousing tendance de fin 2021

  • Cloud Data Warehouse : exemple de Snowflake
  • Les équivalents chez les grands du Cloud : Google Bigquery, AWS Redshift, Azure Synapse Analytics

3 – Les architectures Big Data

Après les choix technologiques fonctionnels, il faut pouvoir placer les différentes briques au sein d’une architecture solide

Le fondement des architectures Big Data

  • Quelles sont les évolutions technologiques qui révolutionnent l’architecture technique ?
  • Quelles sont les contraintes techniques ? Performance, scalabilité, disponibilité.
  • Les caractéristiques d’une architecture Big Data hautement performante.
  • Stockage par bloc, stockage objet, l’arrivée du Software Defined Storage.
  • La persistance polyglotte, ou comment assembler différentes briques technologiques pour différents besoins

Panorama des solutions Big Data sur site

  • Architecture orientée stockage: Hadoop, Spark, MPP.
  • Architecture orientée calcul : Grid Computing, GPU.
  • Architecture orientée haute disponibilité: NoSQL, NewSQL.
  • Architecture orientée évènementiel : CEP, ESP, Storm, Flink, Spark.
  • Hadoop toujours comme standard : Description et évolutions.
  • Mise en pratique d’un cluster Hadoop.
  • Focus sur Spark : définition, technique et cas d’usage.

Panorama des nouvelles solutions Big Data Cloud : vers une vision plateforme Analytics

  • Une vision pragmatique grâce aux services managés.
  • Une opportunité d’accès à la technologie Big Data.
  • AWS, Microsoft, Google. Quelles différences entre les différents fournisseurs ?
  • Cloud Privé, une solution alternative ?
  • Mise en pratique.

Typologie des architectures Big Data

  • Comment positionner un système Big Data dans le SI ?
  • Concepts logiques Big Data : Data Lake, Data Lab, Data Hub ?
  • Qu’est-ce que la Lambda Architecture (puis la Kappa et Zeta architecture) ? Quels usages pour chaque architecture ?
  • Déploiement physique, Appliance ou Cloud Big Data ?
  • Cas d’usage.

Trois cas d’usages classiques

  • Du Datawarehouse au Datalake.
  • Le traitement des objets connectés.
  • La prise en charge des données des réseaux sociaux pour une étude orienté marché.

4 – Les fondamentaux du traitement et l’analyse des données Big Data

Enfin, ce chapitre synthétise, de façon accessible, les techniques d’analyse des données indispensables au Big Data.

Fondamentaux du traitement de données Big Data

  • Fondamentaux et fonctionnement du traitement MapReduce.
  • Performance et limites du MapReduce.
  • Manipulation interactive : Impala, SparkSQL, MPP, Vertical distribué.
  • Traitements des données non structurées : Analyse Sémantique, Analyse d’images.

Intelligence Artificielle et Big Data comment les mettre en place conjointement

  • Comment mixer les technologies.
  • Quand activer les pratiques Big Data pour l’Intelligence Artificielle.
  • Cas d’usages.

Evolutions du Data Mining vers le Machine Learning

  • Les principales évolutions du Data Mining vers le Machine Learning et le Deep Learning.
  • Les spécificités du Machine Learning pour le Big Data : haute dimension, occurrences élevées.
  • Domaines d’application privilégiés : marketing, finance, e-commerce, transport, ressources humaines.
  • Ethique des algorithmes, sujet d’avenir.

Machine Learning en environnement parallèle

  • Les contraintes de parallélisme des algorithmes de Machine Learning.
  • Les librairies de Machine Learning : Spark MLlib, Mahout, Hama, Scikit Learn, R, Tensor Flow.
  • Étude de cas.

Visualisation des données à valeur ajoutée

  • Les limites des outils traditionnels d’analyse de données : Excel, BO, etc.
  • Comment représenter efficacement des données analytiques ?
  • Les outils et composants de visualisation des données Big Data.

Le cadre juridique des données : RGPD

  • Les données identifiantes et à caractère personnel.
  • Les obligations légales des entreprises : minimisation, finalité, durée de conservation, droits des personnes.
  • La propriété intellectuelle des données dans le cadre du Big Data.
  • L’évolution du cadre légal européen.
  • Mise en pratique de la pseudonymisation, de l’anonymisation de facteur K et du differential privacy.
  • Prise d’exemple sur les dérives possibles (exemple des USA)

Sources de données publiques et privées

  • Quelles sont les sources de données internes, externes, gratuites, payantes à exploiter ?
  • Comment exploiter les données des réseaux sociaux ? Qu’est-ce que le Data Crunching ?
  • La mise à disposition de données gratuites : Open Data.
  • Comment exploiter les données des objets connectés ?
  • Comment croiser données publiques et privées ?
  • Comment utiliser les données provenant du Web ?

5 – Big Data et méthodologie de projet

Dernière étape, et non des moindre, nous verrons comment orchestrer les différentes connaissances acquises via une méthodologie spécifique aux projets Data

Le cadrage des projets Big Data

  • Les différentes facettes à cadrer des projets Big Data.
  • Comment intégrer l’incertitude au Business Case projet ?
  • Comment estimer le budget et le délai d’un projet Big Data Analytics ?

Le management des projets de Big Data

  • Une approche projet nécessairement agile, mix entre Scrum et Kanban : ScrumBan.
  • La fin du POC : du POV à l’industrialisation.
  • Comment manager un projet Big Data ?
  • Les étapes d’un projet Big Data phase par phase.
  • Mise en pratique.

L’organisation des projets Big Data

  • Quels sont les nouveaux métiers du Big Data ?
  • Data Scientist, Data Engineer, Data Stewards et maintenant Data Ops : qui recruter pour quels besoins ?
  • Quel avenir pour nos métiers historiques ?
  • Quelle gouvernance pour le Big Data ? Existe–til un framework adapté ?
  • Les différentes formes d’organisation. Retours d’expérience.
  • Comment recruter et organiser la montée en compétences des équipes ?

Rôle de la DSI dans le Big Data

  • La DSI comme fournisseur de services IT ou fournisseur de données à valeur ajoutée ?
  • Comment, concrètement, le DSI peut-il saisir l’opportunité Big Data ?
  • Quels sont les nouveaux défis pour la DSI ?
  • Comment travailler conjointement entre une direction Métier et la DSI ?
Afficher plus

Public

Directions informatiques et directions métiers (Marketing, Commerciale, Innovation, etc.).

Prérequis

Connaissances de base en Systèmes d'Information.

Méthodologie

METHODES PEDAGOGIQUES : Exposé, échanges d’expérience, études de cas, analyse de marché, démonstration d’outils.
METHODES D'EVALUATION : Le stagiaire reçoit en amont de la formation un questionnaire permettant de mesurer les compétences, profil et attentes du stagiaire. Tout au long de la formation, les stagiaires sont évalués au moyen de différentes méthodes (quizz, ateliers, exercices et/ou de travaux pratiques, etc.) permettant de vérifier l'atteinte des objectifs. Un questionnaire d'évaluation à chaud est soumis à chaque stagiaire en fin de formation pour s’assurer de l’adéquation des acquis de la formation avec les attentes du stagiaire. Une attestation de réalisation de la formation est remise au stagiaire.

Présentation de la formation en vidéo

95%

de participants satisfaits sur les 12 derniers mois
Data & Big Data

Big Data : l’état de l’art

Découvrez les mythes, solutions et réalités technologiques et méthodologiques du Big Data, de sa mise en œuvre et de la création de valeur.
  •  
  • 2095 € H.T

Autres formations sur le même thème