|
Les entreprises sont confrontées à la gestion d’un nombre croissant de sources de données partagées par leurs différentes applications. Quelques années après le déploiement des ERP et EAI, censés apporter une réponse définitive au problème, le bilan tiré par les DSI et les analystes du marché montre à quel point l’intégration de données demeure une difficulté majeure. Ce séminaire de synthèse dresse un état de l’art des technologies d’intégration de données d’entreprise (Enterprise Information Integration ou EII), les domaines d’application privilégiés et la plus-value par rapport aux technologies concurrentes. L’accent est particulièrement mis sur la définition et le maintien des liens avec les sources de données distribuées, l’orchestration des requêtes adressées aux systèmes cibles ainsi que l’identification et la résolution des problèmes d’hétérogénéité sémantique. Les solutions présentées montrent notamment l’articulation entre les domaines d’application, d’une part, et les choix d’architecture et de techniques d’intégration, d’autre part. En deux jours, le séminaire présente de façon concise et didactique les enjeux de l’intégration de données, les différents concepts architecturaux, les exigences de qualité des applications, les stratégies d’intégration, les méthodes et les outils mis en œuvre pour contrôler et gérer l’hétérogénéité des données. Il répondra notamment aux questions suivantes :
- Quels sont les domaines d’application privilégiés nécessitant l’intégration de données ?
- Quels sont les problèmes induits par l’hétérogénéité sémantique et l’hétérogénéité technologique ?
- Quelles technologies peuvent répondre au problème de l’intégration de données ?
- Comment maîtriser et mettre en œuvre ces technologies ?
- Quelles sont leurs limites ? Quelles sont les tendances ?
- Quelle démarche mettre en œuvre dans un projet d’intégration de données ?
- Quels méthodes et outils peuvent être utilisés pour assister ces démarches ?
- Comment évaluer la qualité des données qui résultent d’un processus d’intégration ?
|
 |
Problématique de l'intégration de données |
|
- Prolifération des sources de données et besoins d’intégration
- Raisons principales de l’accroissement des volumes de données des entreprises.
- Expansion de nouvelles applications : commerce électronique, portails Web, intelligence économique.
- Pratiques métiers induites par les technologies et les coûts des infrastructures.
- Émergence de produits informationnels à forte valeur ajoutée.
- Enjeux pour l’entreprise
- Mutualisation des données et modernisation des applications, gestion des données de référence (MDM).
- Alimentation des systèmes décisionnels et constitution d’entrepôts de données (ETL).
- Exploitation et requalification des données du patrimoine (legacy data).
- Veille technologique, intelligence économique et gestion des connaissances.
- Commerce électronique, CRM, SCM.
- Enjeux économiques et enjeux stratégiques dans le pilotage de l’entreprise (CPM).
- Exigence en qualité des données
- Problèmes liés à l’hétérogénéité des sources de données.
- Caractérisation de la qualité des données en fonction de leurs sources de production.
- Caractérisation des données en fonction de leurs processus de production.
- Liens entre l’intégration et la qualité des données.
- Pérennité de l’information.
- Quelques exemples de systèmes d’intégration de données
- Entrepôts de données : architectures et fonctionnalités, valeur ajoutée et problèmes de mise en œuvre.
- La médiation au service de l’intégration de données d’entreprise (EII).
- L’intégration de données via les applications (EAI).
- L’intégration de données via les services Web (SOA).
- Facteurs techniques et méthodologiques déterminant le succès d’un système d’intégration de données.
|
 |
Conception d’un système d’intégration de données |
|
- Notions fondamentales d’un système d’intégration de données
- Notion de schéma global, schéma virtuel ou schéma cible.
- Notion de schéma local et de schéma exporté, notion de vue.
- De la notion de schéma à la notion d’ontologie : définition et rôle d’une ontologie, exemples d’ontologies.
- Notion de mapping linguistique ou assertion et de mapping opérationnel ou requête de médiation.
- Lien sémantique entre schéma cible et schéma source.
- Modèles de description de schémas : relationnel, objet, XML.
- Langages et outils de description d’ontologies : OWL, OWL-S, protégé.
- Méthode de conception d’un système d’intégration de données
- Les activités types d’une méthode d’intégration de données.
- Le cycle de vie d’une méthode d’intégration de données.
- Établissement du cahier des charges et identification des éléments discriminant les architectures techniques.
- Quelle approche pour quel système d’intégration ?
- Identification et analyse des sources de données
- Identification des sources de données utiles (internes et externes).
- Analyse de la disponibilité des sources et caractérisation de leurs modes d’accès.
- Audit de chaque source et cartographie des liens sémantiques entre les informations.
- Détermination des données manquantes, des doublons et des incohérences potentielles.
- Définition du cycle de vie des données, des fréquences de mise à jour et des périodes de synchronisation.
- Intégration de schémas
- Problématique de l’intégration de schémas, intégration de schémas vs intégration de données.
- Spécificité des schémas de médiation, de fédération de bases de données et d’entrepôts de données.
- Différentes approches d’intégration de schémas : approche ascendante et approche descendante.
- Rôle des ontologies dans l’intégration de schémas, problèmes d’intégration d’ontologies.
- Problématique de l’intégration des schémas faiblement structurés (XML).
- Exemples d’outils de définition et d’intégration de schémas.
- Définition des mappings entre schémas virtuels et schémas sources
- Différents types de correspondances dans les architectures d’intégration.
- Approches ascendante et descendante pour la définition des mappings : bénéfices et limites des approches.
- Génération manuelle et automatique des mappings.
- Impact de l’évolution du système d’intégration de données sur la définition des mappings.
- Exemples d’outils d’aide à la définition de mappings.
|
 |
Évaluation et amélioration de la qualité des données |
|
- Problèmes de qualité des données
- Les types d’erreurs les plus fréquentes sur les données et sur les processus.
- Les moments où la qualité des données se dégrade.
- Impact d’une mauvaise qualité sur les processus décisionnels.
- Quelques indicateurs témoignant des enjeux de la qualité.
- Exemples d’initiatives prises pour la maîtrise de la qualité dans les grandes organisations.
- Concepts de base dans la gestion de la qualité
- Notions de dimension et de facteur de qualité.
- Notions de métrique et de mesure de la qualité.
- Notion de but de qualité, expression des buts par des questions.
- Notion d’objet mesurable, types d’objets et niveaux de granularité.
- Notions de valeur attendue, de valeur effective et de seuil de tolérance.
- Approches de gestion de la qualité
- Approche par les données : analyse des contenus, échantillonnage et profilage des données, procédures de nettoyage et de transformation des données, utilisation de données de référence, techniques de datamining pour l’extraction de règles de gestion, rôle et importance des ETL.
- Approche par les processus : analyse des processus métiers, caractérisation de leurs modes d’exécution et de livraison des données, modèles de qualité et processus de mesure, méthodes de propagation des contraintes et impact sur la réorganisation et l’amélioration des processus.
- Bénéfices et limites pour les systèmes d’intégration.
- Etude de cas : mesure de la fraîcheur et de l’exactitude des données
- Paramètres influents sur la mesure de la fraîcheur et de l’exactitude.
- Modèles de calcul et d’analyse de chaque facteur de qualité.
- Mise en œuvre de ces modèles en conception et en maintenance.
- Opérations de diagnostique et de restructuration des processus métier en vue de l’amélioration de la qualité.
- Exemples d’outils de gestion de la qualité.
- Support intégré d’assurance qualité
- Comment exploiter plusieurs outils de gestion de la qualité ? Comment intégrer ces outils dans une plate-forme cohérente ?
- Définition d’un métamodèle de la qualité, dérivation de patterns de qualité spécifiques à des problèmes types.
- Infrastructure d’intégration des outils de qualité.
- Une approche décisionnelle pour la gestion de la qualité.
- Rôle et apport des métadonnées dans l’intégration de données et dans la gestion de la qualité
- Les métadonnées décrivant les sources de données et le système d’intégration de données.
- Utilisation des métadonnées pour l’accès aux sources de données.
- Les standards de métadonnées : MOF et CWM de l’OMG, DCMI.
- Exemple d’outils de gestion de métadonnées dans les systèmes d’intégration de données.
|
 |
Infrastructures d’intégration de données : l’offre du marché |
|
- Différentes infrastructures d’intégration de données
- Objectifs et fonctions des infrastructures d’intégration de données.
- Classification des infrastructures.
- Exemples d’infrastructures d’intégration de données : architectures distribuées, architectures middleware.
- Exemples d’infrastructures d’intégration de services : moniteurs transactionnels, services Web, EAI, stations B2B.
- Les ETL (extraction, transformation et chargement des données)
- Architecture de référence et fonctionnalités.
- Opérations de transformation de données ; intégration des opérations de nettoyage de données.
- Planification des processus d’extraction de transformation et de chargement des données.
- Performance et passage à l’échelle.
- Analyse du marché, tendances et comparaison des principaux systèmes existants (IBM Data Stage, Informatica, Business Objects Data Integrator, SAS, Oracle Data Integrator – ex-Sunopsis).
- Exemples de domaines d’application : entrepôts de données (data warehouse et datamarts), migration de données.
- Les médiateurs de type EII
- Architecture générale et fonctionnalités.
- Adaptation des sources de données.
- Expression des correspondances de schéma (“mappings”) entre le schéma cible et les schémas source ; intégration d’opérations de nettoyage de données.
- Performances des requêtes d’accès aux données et passage à l’échelle.
- Gestion de la confidentialité.
- Analyse du marché, tendances et comparaison des principaux systèmes existants (IBM WebSphere II, Composite Software, Business Objects Data Federator, BEA Liquid Data).
- Exemples de domaines d’application : business intelligence, vue métier 360° des données.
|
 | Urbanisation des données |
| - Cartographie des données
- Définition et objectifs de l’urbanisation de données ; différences avec l’analyse des processus dans l’urbanisation des systèmes d’information (approche orientée EAI).
- Les étapes de la cartographie : analyse des sources de données, analyse des applications consommatrices.
- Définition des cartes de dérivation et cartes thématiques.
- Architecture fonctionnelle du système d’intégration de données
- Sélection des sources de données.
- Alimentation des applications consommatrices.
- Rationalisation du choix des infrastructures d’intégration de données à base de patrons (ou “patterns”).
- Exploitation des métadonnées et des facteurs de qualité identifiés durant la phase de conception d’un système d’intégration.
- Règles d’urbanisation des EII.
|