Machine Learning : l’état de l’art

Concepts, modèles mathématiques et statistiques, outils
Sommaire

LE MOT DE L’INTERVENANT

Ce séminaire, illustré par de très nombreux exemples et des...

Ce séminaire, illustré par de très nombreux exemples et des démonstrations pédagogiques sur des jeux de données réels, propose une approche didactique du Machine Learning. Je vous donnerai les clés de compréhension et les points d’attention et de précaution pour une mise en œuvre efficace dans l’entreprise. Ce séminaire est destiné aux DSI, managers, chefs de projets, maîtres d’ouvrage, responsables marketing, DBA, etc. qui veulent comprendre ce que ce domaine peut apporter, pouvoir challenger leurs équipes de Data Science et utiliser le Machine Learning dans la conduite de leurs projets d’innovation digitale.

Grégoire Martinon
Docteur en astrophysique, Grégoire Martinon est consultant Data Scientist. Il s’est notamment spécialisé dans la détection de fraude et l’application de méthodes de Deep Learning pour la vidéo-protection. Il dirige également des travaux de recherche et développement sur le cycle de vie des modèles en production.
Lire la suite Cacher le texte

 

Comment et pourquoi le Machine Learning joue-t-il un rôle essentiel dans la révolution du Big Data ? Augmentation du nombre de capteurs, explosion des réseaux sociaux, émergence de l’internet des objets, capacité de stockage toujours plus grande : autant de facteurs qui aujourd’hui exposent les entreprises à un véritable déluge de données.

Comment faire pour analyser et valoriser cette manne de données complexes, dont la variabilité, la forte volumétrie et la grande dimensionnalité empêchent bien souvent l’application de méthodes statistiques traditionnelles ?

A la confluence des mathématiques et de l’informatique, le Machine Learning est un ensemble de modèles et d’algorithmes permettant à des systèmes d’apprendre automatiquement à partir de ces données et d’effectuer des tâches variées. Les progrès accomplis au cours de la dernière décennie dans cette discipline en plein essor ont conduit à la création d’algorithmes et de modèles de prédiction toujours plus performants. Combinés à la ressource en données et en puissance de calcul, ils constituent un levier de transformation puissant pour les entreprises.

La formation sera agrémentée de nombreux exemples concrets, avec des démonstrations en directe sur des jeux de données réels.



Introduction


Quelles sont les applications du Machine Learning ?

  • Aide à la décision : systèmes de recommandations, maintenance prédictive, rétention de clients.
  • Séries temporelles : détections de complications post-opératoires, prédiction de stocks et de consommation, détection de fraude.
  • Reconnaissance d’images : détection d’infrastructures sur images satellites, amélioration des diagnostics cliniques, voitures autonomes, vidéo-protection.
  • Traitement du langage naturel : classification automatique de textes, analyse de sentiments, reconnaissance du langage parlé, synthèse automatique de texte.

Comment s’insère le Machine Learning dans la stratégie d’entreprise ?

  • Le changement de paradigme à l’œuvre dans les entreprises.
  • L’avantage compétitif procuré par le Machine Learning.
  • Règlementation et protection des données à l’heure du RGPD : connaître la finalité des traitements de données.
  • Organisation des entreprises autour de la donnée : le sujet de la gouvernance.

Qu’est-ce que le Machine Learning ?

  • Histoire du Machine Learning.
  • Le Machine Learning en tant que science prédictive.
  • Les trois piliers du Machine Learning : la donnée, l’apprentissage, la prédiction.

Quel est le lien entre Machine Learning et statistiques ?

  • La corrélation et ses limites pour la compréhension d’un phénomène et de ses causes.
  • Les coulisses du Machine Learning : exploiter les corrélations pour prédire.

Les modèles linéaires


Quel est le modèle de Machine Learning le plus simple ?

  • Modéliser et prédire une relation simple et linéaire.
  • Apprentissage en régression : optimisation de la fonction de coût.
  • Unicité de la solution : comprendre les difficultés de l’apprentissage.

Comment fonctionne la phase d’apprentissage ?

  • Apprentissage : comment ça marche ?
  • Les différentes familles de descente de gradient.

Comment classifier des données en catégories ?

  • De la régression linéaire à la régression logistique : différences et similarités.
  • Apprentissage en classification : la fonction de coût logistique.
  • Choix d’un seuil de détection orienté métier et influence sur le type d’erreurs.

Comment évaluer la performance d’un modèle prédictif ?

  • Métriques de performance en régression et classification.
  • Méthodologie : jeu d’entraînement et jeu de test.
  • Méthodologie : la validation croisée.

Les grands types d’apprentissage


Quels problèmes peut résoudre l’apprentissage supervisé ?

  • Les trois grands piliers du Machine Learning en régression.
  • Les trois grands piliers du Machine Learning en classification.
  • Propriétés générales de l’apprentissage supervisé.

Quelles solutions peut apporter l’apprentissage non supervisé ?

  • La segmentation (clustering).
  • La détection d’anomalies.
  • La classification semi-supervisée.
  • Propriétés générales de l’apprentissage non supervisé.

Qu’est-ce que l’apprentissage par renforcement ?

  • Les applications propres au renforcement : les jeux vidéo, la robotique et la voiture autonome.
  • Le compromis exploration-exploitation.

Quels sont les outils de développement du Machine Learning ?

  • Les incontournables : python, R, scikit-learn.
  • La prolifération des outils : XGBoost, LightGBM, theano, PyTorch, keras, TensorFlow, caret, MOA, MLLib

Vers les modèles plus complexes


Pourquoi les modèles linéaires ne suffisent pas ?

  • Les limites des modèles linéaires.
  • Construction et intérêt des variables polynomiales.
  • Les limites des modèles polynomiaux : temps de calcul et sur-apprentissage.

Quel est l’impact du compromis biais-variance sur le choix d’un modèle ?

  • Biais et variance des algorithmes, le diagnostic indispensable.
  • Le choix de la complexité d’un modèle.
  • Influence de la taille du jeu de données sur le compromis biais-variance.
  • Le fléau de la dimensionnalité.

Comment combattre le sur-apprentissage ?

  • Méthodologie : le jeu de validation pour l’optimisation des paramètres.
  • Méthodologie : la validation croisée imbriquée.
  • La régularisation des modèles prédictifs.
  • Méthodes ensemblistes et agrégation de modèles.

Panorama des principaux modèles prédictifs : entre performance et intelligibilité


Qu’est-ce qu’un arbre de décision ?

  • Principe d’un arbre de décision en régression et en classification.
  • Le processus de croissance de l’arbre.
  • Les limites des arbres : l’instabilité vis-à-vis du compromis biais-variance.

Pourquoi combiner des arbres en forêts aléatoires ?

  • Le principe du bagging (bootstrap aggregating).
  • Forêts aléatoires : l’apprentissage parallèle, avantages et inconvénients.

Quel avenir pour le très populaire gradient boosting ?

  • Le principe du boosting.
  • Adaptive boosting, la genèse des chaînes de modèles.
  • Gradient boosting, l’artillerie lourde, ses avantages et ses inconvénients.
  • Les bibliothèques spécifiques au boosting : XGBoost, LightGBM et CatBoost.

Comment fonctionnent les réseaux de neurones ?

  • Le perceptron : distinction entre neurone biologique et neurone artificiel.
  • Le perceptron multi-couches : apprentissage et rétro-propagation.
  • Compromis biais-variance : les techniques de régularisation spécifiques au Deep Learning.
  • Les bibliothèques spécifiques aux réseaux de neurones : keras, tensorflow et pytorch.

Comment rendre les algorithmes intelligibles ?

  • Intelligibilité pour qui ? Les acteurs du Machine Learning.
  • Intelligibilité pourquoi ? Les exigences éthiques et la fiabilité.
  • Intelligibilité globale : comprendre les décisions d’un algorithme sur une population.
  • Intelligibilité locale : comprendre les décisions d’un algorithme sur un individu.
  • Les bibliothèques spécifiques à l’intelligibilité : shap, eli5 et pdpbox.

L’apprentissage non supervisé


Comment identifier des groupes similaires ?

  • Les cas d’usage propres à la segmentation : le marketing personnalisé et les systèmes de recommandation
  • K-means : identification de groupes convexes.
  • DBScan : identification de groupes de densité, comparaison avec K-means.
  • Classification ascendante hiérarchique : analyser la structure et le nombre des profils.
  • Evaluation d’une segmentation.Comment définir et détecter des anomalies ?
  • Les cas d’usage propres à la détection d’anomalies : la fraude, la maintenance prédictive et le contrôle qualité.
  • Apprentissage d’une distribution normale.
  • Isolation forest, ou comment contourner le fléau de la dimensionnalité avec la bibliothèque eif.

Pourquoi la réduction de dimensionalité est-elle essentielle ?

  • Les cas d’usage spécifiques : la visualisation, l’encodage de données à haute dimensionnalité, réduire le sur-apprentissage et le temps de calcul.
  • Les approches itératives.
  • Analyse en composantes principales.
  • Les approches par plongement et projections de proche en proche.

Technologies, Big Data et mise en production du Machine Learning


Quelles sont les technologies dédiées au Big Data ?

  • Les 4 V du Big Data.
  • Panorama des technologies.
  • La stack Hadoop : stockage et calcul distribué.
  • La stack ELK : requêtage rapide de bases de documents.
  • Le Cloud : comparaison avec le déploiement on-premise, avantages et inconvénients.
  • Les principaux acteurs du Cloud : AWS, Azure et GCP.

Quels sont les pièges à éviter lors de la mise en production d’un modèle ?

  • Les acteurs de la mise en production en entreprise.
  • Les contraintes métier et le choix de l’algorithme.
  • Projet data : du POC à l’industrialisation.
  • Comment orienter ses choix technologiques ?
  • Exemples d’hybridation Big Data et Machine Learning.

L’industrialisation, et après ? Le cycle de vie des modèles prédictifs

  • Le problème de la dérive des données et de la dérive des modèles.
  • Qu’est-ce qu’une dérive de modèles ?
  • Comment détecter une telle dérive ?
  • Comment s’adapter à une dérive ? L’apprentissage adaptatif.