Capgemini Institut 0144742410
24 rue du Gouverneur général Eboué 92136 Issy les Moulineaux
Business Analytics, Data Science et Dataviz Paris
Business Analytics, Data Science et Dataviz Paris
DURéE
2 jours
DATES
20-21 novembre 2017
7-8 juin 2018
LIEU
Paris
PRIX 2017
1 910 € ht (2 292 € ttc)
Sommaire du séminaire
    Séminaires technique Institut Capgemini

    Business Analytics, Data Science et Dataviz

    >  Méthodes, algorithmes, organisation et outils




    Comment la révolution des données peut-elle contribuer à la performance de l’entreprise ?

    Les grands acteurs du web ont vulgarisé l’usage des Business Analytics et de la Data Science afin d’exploiter les données du Big Data. A l’heure où même la Maison Blanche se dote d’un CDO (Chief Data Scientist), la culture de la donnée se diffuse dans les entreprises et révolutionne les business models : Uber, Amazon, Airbnb, Google nous le démontrent tous les jours.

    Il devient de plus en plus nécessaire aux décideurs, dans les fonctions métiers et IT, de comprendre les résultats que l’on peut obtenir, les limitations, les méthodes et les démarches des Business Analytics, de la Data Science et de la Data Visualisation. Ce séminaire leur permettra, grâce à l’acquisition de bases solides sur le sujet, de s’engager dans la transformation de leur activité en toute connaissance de cause.

    LE MOT de l’intervenant

    « La Data Science et les Business Analytics sont des éléments essentiels de la nouvelle vague digitale mise en mouvement par l’utilisation avancée de la donnée. Cette session vous donne des bases larges et solides pour appréhender les nouveaux projets, et interagir avec, orienter et évaluer des équipes de spécialistes. Elle est une première étape dans la construction d’une expertise, que vous pouvez ensuite compléter par des formations plus spécialisées en Machine Learning et en technologies Big Data. »

    Matthieu Vautrot

    Matthieu Vautrot travaille depuis 2010 en tant que consultant sur des projets d’exploitations de données. Exploitation par des approches BI et statistiques dans un premier temps (trois ans), exploitation par le Big Data et la Data Science dans un second temps (quatre ans). Il travaille aujourd’hui comme Manager et Architecte Big Data & Analytics chez Quantmetry et intervient régulièrement depuis 2015 chez Centrale Supelec Master Executive pour dispenser les modules de formations Hadoop et Spark.



    Le déluge des données et comment en tirer parti


    L’émergence de nouvelles sources de données

    • Economie digitale
    • La révolution mobile
    • Les nouvelles APIs
    • Objets connectés
    • Données non structurées

    Des nouvelles technologies pour maîtriser ce volume

    • Plafonnement sur les temps de traitement et d’accès séquentiels
    • Réduction exponentielle des coûts de stockage
    • Puissance de calcul et architectures parallélisées
    • Logiciels d’analyse et de parallélisation

    Le modèle des grands du web

    • Un modèle qui a prouvé son efficacité en contexte contraint
    • Culture de la mesure
    • Souplesse technologique
    • Contribution Open Source
    • L’intelligence artificielle comme cœur de métier des nouveaux acteurs

    Définitions et use cases métier


    Définitions

    • Business Analytics
    • Positionnement face à la Business Intelligence
    • Big Data
    • Dataviz
    • Data Science
    • Algorithmic business

    La donnée comme avantage concurrentiel

    • Clé d’amélioration des processus
    • Au cœur de nouveaux produits
    • Commercialisation de la donnée

    Relation Client

    • Ciblage des campagnes
    • Estimation du risque d’attrition client
    • Recommandation de produits
    • Segmentation clients

    Gestion du crédit client

    • Scoring de risque client
    • Gestion des défauts de paiement

    Maintenance

    • Planification des approvisionnements en pièces détachées pour des ascenseurs
    • Réduction des pannes sur des moteurs de camions

    Santé

    • Anticipation des risques de récidive en cancérologie
    • Veille concurrentielle sur des médicaments

    Méthodologie d’analyse de données


    Le processus CRISP-DM

    • Comprendre la problématique métier
    • Comprendre la donnée
    • Préparer la donnée
    • Modéliser
    • Evaluer
    • Déployer

    Une approche itérative expérimentale

    • Un processus non prévisible proche d’une démarche de recherche
    • Une vraie démarche scientifique
    • Du laboratoire à l’usine : l’industrialisation

    Des compétences clé

    • Statistiques et probabilité
    • Machine Learning
    • Bases de données
    • Architecture informatique

    Rappels de statistiques et probabilités


    Notion de base

    • Série statistique
    • Variables aléatoires discrètes et continues
    • Principales caractéristiques : médiane, moyenne, écart-type
    • Représentations graphiques

    Corrélation vs causalité

    • Corrélation élevée n’implique pas causalité
    • Exploiter les corrélations pour mieux comprendre les processus métier

    De l’inférence bayésienne au machine learning

    • Théorème de Bayes et application
    • Un modèle du machine learning

    Préparation de la donnée


    Une qualité de données souvent insuffisante

    • Disponibilité et accessibilité difficile
    • Homogénéité faible entre sources
    • Complétude, ou des processus opérationnels qui ne favorisent pas la collecte
    • Véracité, ou la qualité des données au minimum
    • Historique limité aux besoins opérationnels

    Datawarehouse et Data Lake

    • La Datawarehouse historique : en tirer partie
    • Nouvelles approches Big Data : le Data Lake
    • Pourquoi faut-il vraiment tout conserver ?
    • La nécessaire gouvernance de la donnée

    Modélisation, algorithmes, évaluation


    Apprentissage supervisé

    • Classification et régression
    • Le modèle de base : les régressions linéaires et logistiques
    • Evaluation de modèles et métriques
    • Overfit et underfit
    • Les modèles à arbres : arbres de décision, random forest, gradient boosting
    • Réseaux de neurones et deep learning

    Apprentissage non supervisé

    • Clustering et segmentation
    • Détection d’anomalie : incidents et fraude

    Recommandation

    • Recommandation par le contenu
    • Filtrage collaboratif

    Visualisation : la Dataviz


    Que visualiser ?

    • Exploration de données
    • Performance de modèles
    • Prédictions des modèles

    Comment visualiser ?

    • Types de représentations : courbes, histogrammes, diagrammes 3D …
    • Statique vs interactif

    Outils et technologies

    • La montée du JavaScript
    • Librairies Open Source : ggplot2, Shiny / RShiny, Seaborn, librairies avancées Python
    • Produits commerciaux : Tableau, QlikView, ZoomData

    Infrastructures et outils informatiques


    Pour commencer

    • La Workstation Data Science
    • Open Source : R, Python

    Une infrastructure de collecte

    • Hadoop et HDFS
    • L’émergence de Spark
    • Le Data Lake

    Une architecture orientée donnée

    • Lambda architecture
    • Du stockage parallèle au calcul parallèle
    • Pig et Hive
    • Les promesses de Spark
    • Positionnement des bases NoSQL
    • Cloud ou On Premise (Point sur IAAS, SAAS, PAAS)

    Produits commerciaux

    • Quel positionnement par rapport à l’Open Source ?

    Démarche projet


    Démarche globale

    • Une démarche globale
    • Etude de faisabilité

    POC

    • Prototypage : le point de départ
    • Quelle évaluation

    Industrialisation

    • Bien mener un pilote
    • Jusqu’à l’industrialisation
    • Motivation
    • L’analytique dans les tranchées
    • Automatiser la prise de décision

    Mettre en production un modèle

    • PMML
    • Model as code
    • L’utilisation de Spark
    • Les promesses des APIs

    Facteurs clés

    • Facteurs clés de succès d’un projet
    • Facteurs de risque d’un projet

    Réussir sa transformation par la donnée


    Une organisation pour innover par la donnée

    • Centralisation vs Décentralisation
    • Interne vs externe

    Datalab

    • Le Datalab, une cellule transverse
    • Motiver et installer un datalab

    Recrutement

    • Les profils-types
    • Quels cursus et compétences
    • Faire progresser ses équipes
    • Motiver et fidéliser

    Facteurs de succès

    • S’insérer dans une démarche de transformation digitale
    • Communiquer
    • Obtenir des moyens
    • Montrer des résultats rapidement et régulièrement
    • Soutenir l’effort dans la durée