DURÉE
3 jours
DATES
8-10 novembre 2010
16-18 mai 2011
PRIX
2 280 € ht (2 726,88 € ttc)
Sommaire du seminaire
    Séminaires technique Institut Capgemini
     

    Bases de Données :
    la synthèse


    > les connaissances indispensables




    Une synthèse de l’ensemble des connaissances indispensables à tous les professionnels de l’informatique en matière de bases de données.
    • Architectures client-serveur, client riche ou léger, architectures n-tiers.
    • Classification des applications BD : transactionnel, décisionnel, documentaire, personnel, embarqué.
    • Le modèle objet-relationnel, rappels du relationnel, le langage SQL3.
    • Datawarehouse, moteur OLAP, cube décisionnel, ETL, fouille de données.
    • Conception de BD et de DW, élaboration du schéma, utilisation d’UML, réglage des performances.
    • Administration et protection des données, techniques d’optimisation des requêtes.
    • BD et XML, modèle XML, les langages SQL/XML et XQuery, mapping relationnel.
    • Les principaux SGBD du marché : DB2, Oracle, SQL Server, Sybase, Ingres, PostgreSQL, MySQL.
    • BD et Web, publication des BD, accès depuis un serveur d’applications, J2EE versus .NET.
    • Bases de données distribuées, transactions distribuées, réplication de données, intégration de données, requêtes distribuées, administration, principaux produits.
    • Machines bases de données, bases de données parallèles, clusters de bases données, hautes performances, haute disponibilité.
    • Datagrid et datacloud, accès transparent aux ressources de données distribuées, parallélisme à grande échelle.

    Évolution des architectures


    • Définitions et objectifs des SGBD.
    • Architectures (client-serveur 2-tiers, 3-tiers, n-tiers), impact du Web, datagrid et datacloud.
    • Les classes d’utilisation : transactionnel (OLTP), décisionnel (OLAP), documentaire (GED).
    • Les architectures d’intégration de données basées sur la médiation (EAI, EII) et les services (SOA).
    • Applications d’intégration de données : CRM, MDM, systèmes décisionnels, BI.
    • Outils de développement : programmation objet (C++, C#, Java), conception UML, plates-formes de conception et développement (L4G, Eclipse, ETL, ateliers intégrés).

    Modèle objet-relationnel


    • Les structures de données : type, attribut, table et ligne, objet.
    • Les contraintes d’intégrité structurelle : clé et entité ; contraintes référentielles ; contraintes utilisateurs.
    • Les opérations de base : l’algèbre relationnelle ; sélection, jointure et agrégat, extensions.
    • Les concepts additionnels : vues virtuelles et concrètes, BD actives et triggers.
    • L’introduction des objets : motivations et origines, rappels de l’objet, objets complexes et multimédias.
    • Les langages SQL étendus aux objets : types de données utilisateurs, le standard SQL3, exemples de requêtes.
    • Bilan : forces et faiblesses, utilisation de l’objet, impact de XML et du Web.

    Datawarehouse


    • Architecture des DW : collecte de données, transformation de données, agrégation de données, customisation de données et notion de datamart, outils décisionnels.
    • Concepts de base : données factuelles et données décisionnelles, données multidimensionnelles et notion de datacube, algèbre multidimensionnelle et requêtes décisionnelles (OLAP).
    • Positionnement des principaux produits, technologies spécifiques pour le décisionnel (ROLAP versus MOLAP), vers des moteurs hybrides parallèles.
    • Les benchmarks : TPC-H et TPC-R (définition, résultats, cadre d’utilisation).
    • Importance des métadonnées pour la création et la gestion de DW : l’exemple de CWM.
    • La fouille de données (datamining), exemple d’application, les principales approches, intégration aux SGBD.

    Conception de base de données et de DW


    • Étapes de conception d’une application BD : modélisation des données, transformation de schémas, optimisation physique, réingénierie ou rétroconception de BD.
    • Élaboration du schéma conceptuel : approche entité-association, approche objet (UML) ; approche basée sur les ontologies.
    • Élaboration du schéma logique : normalisation ; outils de normalisation et d’audit de schémas.
    • Techniques d’optimisation physique : partitionnement vertical et horizontal, réplication de données, matérialisation de vues, sélection d’index, principaux outils de conception de BD.
    • Conception d’un système d’intégration de données : définition du schéma virtuel, définition des liens entre le schéma virtuel et les sources de données.
    • Conception du DW : approche globale ou datamarts, modèles de données en étoile ou en flocon, ingénierie du nettoyage de données, rafraîchissement des données, conception et mise en œuvre d’un ETL, principaux ETL.
    • Gestion de la qualité des schémas et des données : facteurs de qualité, acteurs de la qualité des données, modèles et techniques d’évaluation de la qualité.

    Fonctionnalités des SGBD


    • Architecture type, dictionnaire de données.
    • Gestion des vues : définition normalisée, mises à jour au travers des vues, vues matérialisées.
    • Maintien de l’intégrité des données : contraintes d’intégrité normalisées SQL/ISO, autres contraintes.
    • Déclencheurs : objectifs, exemples, risques.
    • Confidentialité des données : hiérarchie des privilèges d’accès aux données, droits d’accès normalisés, sécurisation de bout en bout, cryptage des données.

    Techniques d’optimisation


    • Optimisation des requêtes : principe de l’optimisation, schéma physique, indexation, exécution des jointures, optimisation heuristique ou basée sur un modèle de coût, paramètres de réglage d’un optimiseur, réglage du SGBD.
    • Gestion de transactions : propriétés ACID, atomicité, durabilité, contrôle des accès concurrents aux données, verrouillage, choix des degrés d’isolation SQL.

    Bases de données XML


    • Le standard XML : DTD et schémas, publication de données et XSL, XML pour quoi faire ?
    • Le modèle de données XML : forces et faiblesses, modèle d’arbre et hyperliens ; position par rapport aux modèles traditionnels, mapping XML-relationnel.
    • Le langage de requête XQuery : objectifs ; avantages et inconvénients ; extensions de SQL pour XML, XQuery successeur de SQL ou SQL/XML ?
    • Principaux produits : extension des SGBD relationnels (mapping, type XML) versus systèmes natifs ; stockage en BLOB ; architecture et positionnement des produits ; marché ciblé, exemples d’applications et perspectives.

    Étude comparative des principaux SGBD


    • Les principaux SGBD du marché : DB2, Oracle, SQL Server, Sybase : points forts, différences d’architecture, caractéristiques techniques essentielles, atouts et faiblesses, domaines d’application privilégiés, les nouvelles versions annoncées.
    • Les autres SGBD du marché : l’émergence des logiciels libres, MySQL et PostGresQL ; Access de Microsoft et les SGBD personnels.
    • Les benchmarks standards TPC-C, TPC-H, TCP-W et TPC-App : définition, résultats, cadre d’utilisation.

    Accès Web aux bases de données


    • Publication des bases de données sur le Web : les sites Web dynamiques, les BD pour le commerce électronique ; l’impact du Web 2.0.
    • Les pages Web dynamiques côté client : DHTML, JScript, DOM et CSS.
    • Les pages Web dynamiques côté serveur : ASP, JSP, PHP.
    • Client riche RIA/RDA : Ajax, XUL, Microsoft Silverlight, Novell Moonlight.
    • Couplage aux serveurs d’applications : la plate-forme J2EE, container Web, container d’EJB, JDBC et SQLJ, les principaux serveurs d’applications J2EE, la plate-forme .NET de Microsoft.

    Gestion de données distribuées


    • Concepts de base : intégration des schémas et des données, médiation de sources hétérogènes, gestion des métadonnées, traitement et optimisation des requêtes distribuées.
    • Les principaux SGBD distribués : Oracle, IBM DB2, Sybase, Microsoft SQL Server, Master Data Management, etc.
    • Les médiateurs de données : place de XML, exemples de produits (OLE DB, SAP/BO Federator, DB2 Information Integrator, BEA Liquid Data), l’exemple de KelKoo.
    • Gestion de transactions distribuées : le protocole de validation en deux étapes ; le standard DTP. SGBD distribué versus moniteur transactionnel.
    • Gestion de données répliquées : objectifs de disponibilité et de performances, diffusion synchrone et asynchrone, réplication symétrique versus asymétrique, gestion des défaillances. Étude de cas : magasins franchisés.
    • Administration des données distribuées : annuaires et méta-annuaires, le standard LDAP, mise en place d’une architecture d’annuaires, les principaux produits.

    Machines bases de données


    • Bases de données parallèles : architecture à disques partagés, NAS versus SAN, architecture à mémoire distribuée, cluster de bases de données.
    • Techniques de parallélisation : partitionnement des données, parallélisation des requêtes.
    • Techniques de haute disponibilité : équilibrage de charge et failover.
    • SGBD parallèles : DB2 Parallel Edition, SQL Server, Oracle, Teradata, MySQL.
    • Étude de cas : Sabre ATSE sur grands clusters MySQL.

    Datagrid et datacloud


    • Les grilles de données : accès à la demande aux ressources de données distribuées et parallélisme à grande échelle.
    • Administration, sécurité, annuaire, gestion de ressources.
    • Les services standards de l’Open Grid Service Architecture. Le logiciel libre Globus.
    • Les offres des éditeurs pour les grilles : Oracle 11g, IBM, HP, Microsoft, Sun.
    • Étude de cas : MercadoLibre.
    • Cloud versus grid : objectifs, positionnement des grands acteurs, datacenters, avantages et risques.
    • Clouds de données : Amazon Simple DB, GoogleBase, MapReduce, etc.