Capgemini Institut 0144742410
24 rue du Gouverneur général Eboué 92136 Issy les Moulineaux
Machine Learning : l’état de l’art Paris
Machine Learning : l’état de l’art Paris
DURéE
2 jours
DATES
22-23 mars 2018
18-19 juin 2018
LIEU
Paris
PRIX 2017
1 910 € ht (2 292 € ttc)
Sommaire du séminaire
    Séminaires technique Institut Capgemini

    Machine Learning : l’état de l’art

    >  Concepts, modèles mathématiques et statistiques, outils




    Comment et pourquoi le Machine Learning joue-t-il un rôle essentiel dans la révolution du Big Data ? Augmentation du nombre de capteurs, explosion des réseaux sociaux, émergence de l’internet des objets, capacité de stockage toujours plus grande : autant de facteurs qui aujourd’hui confrontent les entreprises à un véritable déluge de données.

    Comment faire pour analyser et valoriser cette manne de données complexes, dont la variabilité, la forte volumétrie et la grande dimensionnalité empêchent bien souvent l’application de méthodes statistiques traditionnelles ?

    A la confluence des mathématiques et de l’informatique, le Machine Learning est un ensemble de modèles et d’algorithmes permettant à des systèmes d’apprendre automatiquement à partir de ces données et d’effectuer des tâches variées. Les progrès accomplis au cours de la dernière décennie dans cette discipline en plein essor ont conduit à la création d’algorithmes et de modèles de prédiction toujours plus performants. Ils constituent, combinés à la ressource en données et en puissance de calcul, un levier de transformation puissant pour les entreprises..

    Le Mot de l’Intervenant

    « Ce séminaire propose une approche didactique du Machine Learning, illustré par de très nombreux exemples et démonstrations. Je tenterai de vous donner les clés d’une bonne compréhension, ainsi que les points d’attention et de précaution pour une mise en œuvre efficace dans l’entreprise. Ce séminaire est destiné aux DSI, managers, chefs de projets, maîtres d’ouvrage, responsables marketing, DBA qui veulent comprendre ce que ce domaine peut apporter et utiliser toute la puissance offerte par le Machine Learning dans la conduite de leurs projets d’innovation digitale. »

    Héloïse Nonne



    Introduction


    A quoi le Machine Learning peut-il servir ? Motivations par des cas d’usages

    • Identifier des « groupes » ayant des caractéristiques similaires : application au marketing (profils de consommateurs ou produits similaires).
    • Construire des systèmes de prédiction : prédire la consommation électrique, le prix d’une action, le comportement d’un consommateur, etc.
    • Reconnaissance automatique d’images et de sons.
    • Systèmes de recommandation : Amazon, Netflix, publicité ciblée.
    • Systèmes d’aide à la décision.

    Le Machine Learning dans la stratégie d’entreprise

    • Comment et pourquoi un changement de paradigme est-il en train de s’opérer dans les processus décisionnels de l’entreprise ?
    • Comment le Machine Learning procure-t-il un nouvel avantage compétitif pour l’entreprise ?

    Le Machine Learning : définition

    • Petite histoire des statistiques et du Machine Learning
    • Raisonnement déductif et raisonnement inductif
    • Adaptabilité : Le Machine Learning consiste à apprendre à une machine ou un système une tâche pour laquelle il n’a pas été explicitement programmé.
    • Inférence : Le Machine Learning est basé sur l’inférence : le système apprend à partir de données d’exemples, de règles générales.
    • Généralisation : Le Machine Learning vise à donner des capacités de généralisation. Les systèmes doivent être capables de traiter efficacement des données nouvelles.
    • Les données d’entrée du Machine Learning : architecture, bases de données relationnelles, Big Data ?

    Corrélation, description et prédiction

    • Que signifie la corrélation de deux grandeurs? Quels sont les outils de mesures de corrélation ?
    • Eviter la confusion entre corrélation et causalité.
    • Exploiter la corrélation pour mieux décrire des faits, des phénomènes.
    • Exploiter la corrélation pour prédire des résultats.

    L’exemple des modèles linéaires


    L’hypothèse de linéarité et ses limites

    • Qu’est-ce qu’une relation linéaire entre variables ?
    • Quels sont les avantages des modèles linéaires ? Quelles sont leur limites ?

    La régression linéaire

    • La régression linéaire : un modèle historique et fondamental.
    • Principes, algorithmes d’entrainement. Minimisation de la fonction de coût. Résolution exacte et résolution approchée.
    • Application au cas monovarié. Généralisation au cas multivarié.

    La régression logistique

    • De la régression linéaire à la régression logistique : différences et similarités.
    • Principes et algorithmes d’entrainement.

    Illustration

    Les grands types d’apprentissage


    Apprentissage supervisé

    • Distinguer les variables « explicatives » et les variables « cibles ».
    • Savoir quand utiliser l’apprentissage supervisé. Exemples d’applications.

    Apprentissage non supervisé

    • Différences entre l’apprentissage supervisé et non supervisé.
    • Savoir quand utiliser l’apprentissage non supervisé. Exemples d’applications.

    Apprentissage online

    • Intérêt de l’apprentissage online.
    • Etat de l’art et démonstration.

    Apprentissage par renforcement

    • Savoir développer des systèmes qui agissent intelligemment en environnement inconnu ou partiellement connu.
    • Savoir quand utiliser l’apprentissage par renforcement. Exemple d’applications.

    Les langages et bibliothèques associés

    • Présentation des langages les plus utilisés par les data Scientist : Python et R.
    • Les bibliothèques de Machine Learning et de data science : scikit learn, theano, PyBrain, caret, Vowpal Wabbit.

    Généralités sur les modèles prédictifs


    Classification vs régression

    • Qu’est-ce que la classification ? Exemples d’application de la classification.
    • Qu’est-ce que la régression ? Exemples d’application de la régression.

    Les grandes étapes de construction d’un modèle prédictif

    • Comprendre les grandes phases d’entrainement d’un modèle : choix du modèle, entrainement du modèle, utilisation du modèle entrainé pour prédiction.
    • Entrainement des modèles. Différences entre modèles et algorithmes d’entrainement.
    • Application pour la prédiction de nouvelles valeurs.

    Evaluation d’un modèle prédictif

    • Division des données en jeu d’entrainement et jeu de test.
    • Construction d’indicateurs de performance : matrice de confusion, courbes ROC, lift.

    Vers les modèles plus complexes


    De la régression linéaire à la régression polynomiale

    • Comment généralise-t-on la régression linéaire au cas polynomial ?
    • Quelles sont les contraintes engendrées par une complexification du modèle ?

    Le risque du sur-apprentissage

    • Définition et illustration du sur-apprentissage.
    • Présentation des facteurs de risques : complexité du modèle, dimensionnalité élevée des données, données à faibles densité.

    Comment se prémunir du sur-apprentissage : validation croisée et régularisation

    • Validation croisée : données d’entrainement, de validation et de tests.
    • Application de méthodes de régularisation pour garantir les capacités de généralisation.
    • Techniques de Bootstraping et de bagging.

    Panorama des principaux modèles prédictifs


    Classifieur naïf bayésien

    • Qu’est-ce que l’hypothèse d’indépendance ? Dans quel cas est-elle pertinente ? Quelles sont les précautions à prendre ?
    • Qu’est-ce qu’un classifieur naif bayésien ? Comment exploite-t-il l’hypothèse d’indépendance ?

    Modèles à arbres de décisions

    • L’arbre de décision simple : structures, principes d’entrainement et de régularisation.
    • Les forêts aléatoires : comment combiner plusieurs arbres de décisions simples ?
    • Le gradient boosting : apprendre à minimiser les erreurs.

    Méthodes à noyaux

    • Motivation.
    • Séparateurs à vastes marges.
    • Classifieurs à marges souples.
    • Définition d’une fonction noyau, intérêt dans le traitement de données à grandes dimensions.
    • Application au cas de Support Vector Machine : principes, avantages, limites.

    Les réseaux de neurones et le Deep Learning


    Le perceptron

    • Définition d’un réseau de neurones simple: neurones, poids, biais, fonctions d’activation.
    • Difficultés pour l’entrainement. Algorithme itératif de résolution approchée : la descente de gradient.
    • Pourquoi le Perceptron est-il un approximateur universel ? Pourquoi est-ce insuffisant pour en faire un modèle universel ?

    Deep Learning

    • Introduction et discussion autour du concept de Deep Learning.
    • En quoi le Deep Learning est-il une amélioration par rapport aux réseaux de neurones classiques ?

    Applications propres au Deep Learning

    • Images : reconnaissances de formes, de contours, de contenu vidéo.
    • Sons : reconnaissance automatique de musique, de discours. Traducteurs automatiques.
    • Traitement naturel du langage : méthodes d’analyse sémantique de textes.

    L’apprentissage non supervisé


    Principe

    • En quoi l’apprentissage non supervisé diffère-t-il de l’apprentissage supervisé ?
    • Cas d’application : clustering et réduction de dimensionnalité.

    Algorithmes de clustering

    • Le K-means.
    • Clustering hiérarchique.
    • DBScan.

    Algorithme de réduction de dimensionnalité

    • Intérêt de la réduction de dimension.
    • Analyse en composantes principales.
    • Auto encodeurs et Restricted Boltzman Machines.
    • Cartes autoorganisatrices

    Technologies, Big Data et mise en production du Machine learning


    Les technologies

    • Présentation du framework Hadoop : principe de stockage HDFS. Paradigme de traitement MapReduce.
    • Spark et la MLlib
    • Le cloud : Amazon, Microsoft Azure ML, IBM Bluemix…

    La mise en production

    • Quelles sont les spécificités liées au développement d’un modèle en environnement distribué ?
    • Quelles sont les contraintes liées au développement d’un modèle en production ? Passage du POC au pilote et à la production.
    • Quelles problématiques anticiper ?
    • Comment assurer la maintenance ?