Formation Machine Learning : concepts, modèles et outils

Techniques, algorithmes, champs d'application et limites, des data sciences au Big Data et au Deep Learning.

Présentation

Comment et pourquoi le Machine Learning joue-t-il un rôle essentiel dans la révolution du Big Data ? Augmentation du nombre de capteurs, explosion des réseaux sociaux, émergence de l’internet des objets, capacité de stockage toujours plus grande : autant de facteurs qui aujourd’hui exposent les entreprises à un véritable déluge de données.

Comment faire pour analyser et valoriser cette manne de données complexes, dont la variabilité, la forte volumétrie et la grande dimensionnalité empêchent bien souvent l’application de méthodes statistiques traditionnelles ?

A la confluence des mathématiques et de l’informatique, le Machine Learning est un ensemble de modèles et d’algorithmes permettant à des systèmes d’apprendre automatiquement à partir de ces données et d’effectuer des tâches variées. Les progrès accomplis au cours de la dernière décennie dans cette discipline en plein essor ont conduit à la création d’algorithmes et de modèles de prédiction toujours plus performants. Combinés à la ressource en données et en puissance de calcul, ils constituent un levier de transformation puissant pour les entreprises.

La formation sera agrémentée de nombreux exemples concrets, avec des démonstrations en directe sur des jeux de données réels.

Afficher plus

Le mot de l'animateur

« Cette formation, illustrée par de très nombreux exemples et des démonstrations pédagogiques sur des jeux de données réels, propose une approche didactique du Machine Learning. Je vous donnerai les clés de compréhension et les points d’attention et de précaution pour une mise en œuvre efficace dans l’entreprise. Elle est destinée aux DSI, managers, chefs de projets, maîtres d’ouvrage, responsables marketing, DBA, etc. qui veulent comprendre ce que ce domaine peut apporter, pouvoir challenger leurs équipes de Data Science et utiliser le Machine Learning dans la conduite de leurs projets d’innovation digitale. »
Grégoire MARTINON
Découvrir l'animateur

Objectifs

  • Connaitre et comprendre le rôle essentiel du Machine Learning dans la révolution du Big Data.
  • Savoir analyser et valoriser la manne de données complexes, dont la variabilité, la forte volumétrie et la grande dimensionnalité empêchent bien souvent l’application de méthodes statistiques traditionnelles.
  • Avoir une vue d’ensemble des techniques de Machine Learning (principes, champs d’application et limites), des algorithmes les plus couramment utilisés aux approches les plus récentes comme le Deep Learning, ainsi que des méthodologies de Data Science, cruciales pour appliquer avec succès le Machine Learning.
  • Aborder les technologies Big Data du point de vue du Machine Learning, ainsi que les problématiques de mise en production.

Programme

1 – Machine Learning : les concepts

Quelles sont les applications du Machine Learning ?

  • Aide à la décision : systèmes de recommandations, maintenance prédictive, rétention de clients.
  • Séries temporelles : détections de complications post-opératoires, prédiction de stocks et de consommation, détection de fraude.
  • Reconnaissance d’images : détection d’infrastructures sur images satellites, amélioration des diagnostics cliniques, voitures autonomes, vidéo-protection.
  • Traitement du langage naturel : classification automatique de textes, analyse de sentiments, reconnaissance du langage parlé, synthèse automatique de texte.

Comment s’insère le Machine Learning dans la stratégie d’entreprise ?

  • L’émergence des GAFAM.
  • Un changement de paradigme dans toutes les entreprises.
  • Règlementation et protection des données à l’heure du RGPD : connaître la finalité des traitements de données.
  • Organisation des entreprises autour de la donnée : le sujet de la gouvernance.

Qu’est-ce que le Machine Learning ?

  • Histoire du Machine Learning.
  • Le Machine Learning en tant que science prédictive.
  • Les trois piliers du Machine Learning : la donnée, l’apprentissage, la prédiction.

Quel est le lien entre Machine Learning et statistiques ?

  • La corrélation et ses limites pour la compréhension d’un phénomène et de ses causes.
  • Les coulisses du Machine Learning : exploiter les corrélations pour prédire.

2 – Les modèles linéaires de Machine Learning

Quel est le modèle de Machine Learning le plus simple ?

  • Modéliser et prédire une relation simple et linéaire.
  • Apprentissage en régression : optimisation de la fonction de coût.
  • Unicité de la solution : comprendre les difficultés de l’apprentissage.

Comment fonctionne la phase d’apprentissage ?

  • Apprentissage : comment fonctionne la descente de gradient ?
  • Les différentes familles de descente de gradient.

Comment classifier automatiquement des données en catégories ?

  • De la régression linéaire à la régression logistique : différences et similarités.
  • Apprentissage en classification : la fonction de coût logistique.
  • Choix d’un seuil de détection orienté métier et influence sur le type d’erreurs.

Comment évaluer la performance d’un modèle prédictif ?

  • Métriques de performance en régression et classification.
  • Méthodologie : jeu d’entraînement et jeu de test.
  • Méthodologie : la validation croisée.

3 – Vers les modèles plus complexes de Machine Learning

Pourquoi les modèles linéaires ne suffisent pas ?

  • Les limites des modèles linéaires.
  • Construction et intérêt des variables polynomiales.
  • Les limites des modèles polynomiaux : temps de calcul et sur-apprentissage.

Comment choisir un modèle ?

  • Biais et variance des algorithmes, le diagnostic indispensable.
  • Le choix de la complexité d’un modèle.
  • Influence de la taille du jeu de données sur le compromis biais-variance.
  • Le fléau de la dimensionnalité.

Comment combattre le sur-apprentissage ?

  • Méthodologie : le jeu de validation pour l’optimisation des paramètres.
  • Méthodologie : la validation croisée imbriquée.
  • La régularisation des modèles prédictifs.
  • Méthodes ensemblistes et agrégation de modèles.

4 – Panorama des principaux modèles prédictifs : entre performance, intelligibilité et éthique

Qu’est-ce qu’un arbre de décision ?

  • Principe d’un arbre de décision en régression et en classification.
  • Le processus de croissance de l’arbre.
  • Les limites des arbres : l’instabilité vis-à-vis du compromis biais-variance.

Pourquoi combiner des arbres en forêts aléatoires ?

  • Le principe du bagging (bootstrap aggregating).
  • Forêts aléatoires : l’apprentissage parallèle, avantages et inconvénients.

Que signifie gradient boosting ?

  • Le principe du boosting.
  • Adaptive boosting, la genèse des chaînes de modèles.
  • Gradient boosting, l’artillerie lourde, ses avantages et ses inconvénients.
  • Les bibliothèques spécifiques au boosting : XGBoost, LightGBM et CatBoost.

Comment fonctionnent les réseaux de neurones ?

  • Le perceptron : distinction entre neurone biologique et neurone artificiel.
  • Le perceptron multi-couches : apprentissage et rétro-propagation.
  • Compromis biais-variance : les techniques de régularisation spécifiques au Deep Learning.
  • Les bibliothèques spécifiques aux réseaux de neurones : keras, tensorflow et pytorch.

5 – L’IA de confiance

Comment rendre les algorithmes intelligibles ?

  • Intelligibilité globale : comprendre les décisions d’un algorithme sur une population.
  • Intelligibilité locale : comprendre les décisions d’un algorithme sur un individu.
  • Les bibliothèques spécifiques à l’intelligibilité : shap, eli5 et pdpbox.
  • Les limitations des techniques d’intelligibilité
  • L’intelligibilité by-design

Comment rendre les algorithmes robustes ?

  • L’omniprésence de l’overfitting et des variations de domaine
  • La notion d’incertitude en machine learning
  • Comment estimer l’incertitude en régression et en classification ?
  • Les méthodes de ré-échantillonnage et les modèles bayésiens

Comment rendre les algorithmes éthiques ?

  • Pourquoi les modèles de machine learning sont en général biaisés ?
  • Quels sont les différents types de biais ?
  • Comment mesurer un biais ?
  • Comment corriger un biais : preprocessing, inprocessing et postprocessing
  • Application au cas du recrutement automatique

6 – L’apprentissage non supervisé

Comment identifier des groupes similaires ?

  • Les cas d’usage propres à la segmentationK-means : identification de groupes convexes.
  • DBScan : identification de groupes de densité, comparaison avec K-means.
  • Comment définir et détecter des anomalies ?
  • Les cas d’usage propres à la détection d’anomaliesApprentissage d’une distribution normale.
  • Isolation forest, ou comment contourner le fléau de la dimensionnalité.

Pourquoi la réduction de dimensionnalité est-elle essentielle ?

  • Les cas d’usage spécifiques : la visualisation, l’encodage de données à haute dimensionnalité, réduire le sur-apprentissage et le temps de calcul.
  • Analyse en composantes principales.
  • Les auto-encodeurs et la dérive des deepfakes.

7 – Technologies, Big Data et mise en production du Machine Learning

Quelles sont les technologies dédiées au Big Data ?

  • Les 4 V du Big Data.
  • Panorama des technologies.
  • La stack Hadoop : stockage et calcul distribué.
  • La stack ELK : requêtage rapide de bases de documents.
  • Le Cloud : comparaison avec le déploiement on-premise, avantages et inconvénients.
  • Les principaux acteurs du Cloud : AWS, Azure et GCP.

Quels sont les pièges à éviter lors de la mise en production d’un modèle ?

  • Les acteurs de la mise en production en entreprise.
  • Les contraintes métier et le choix de l’algorithme.
  • Projet data : du POC à l’industrialisation.
  • Comment orienter ses choix technologiques ?
  • Exemples d’hybridation Big Data et Machine Learning.

L’industrialisation, et après ? Le cycle de vie des modèles prédictifs

  • Origine et définition du cycle de vie des modèles.
  • Neuf étapes indispensables au cycle de vie des modèles.
  • Comment identifier son cycle de vie des modèles ?
Afficher plus

Public

Les responsables informatiques et leurs équipes.

Prérequis

Connaissances de base en Systèmes d’Information et en statistiques.

Méthodologie

METHODES PEDAGOGIQUES : Exposé, échanges d’expérience, études de cas
METHODES D'EVALUATION : Le stagiaire reçoit en amont de la formation un questionnaire permettant de mesurer les compétences, profil et attentes du stagiaire. Tout au long de la formation, les stagiaires sont évalués au moyen de différentes méthodes (quizz, ateliers, exercices et/ou de travaux pratiques, etc.) permettant de vérifier l'atteinte des objectifs. Un questionnaire d'évaluation à chaud est soumis à chaque stagiaire en fin de formation pour s’assurer de l’adéquation des acquis de la formation avec les attentes du stagiaire. Une attestation de réalisation de la formation est remise au stagiaire.

Présentation de la formation en vidéo

90%

de participants satisfaits sur les 12 derniers mois
Intelligence Artificielle

Machine Learning : concepts, modèles et outils

Découvrez les clés de compréhension et les points d’attention et de précaution pour une mise en œuvre efficace du machine learning dans votre entreprise.
  •  
  • 2095 € H.T

Autres formations sur le même thème