Fermer
  • Accueil
  • Comment gérer efficacement les données de son organisation ?

Comment gérer efficacement les données de son organisation ?

Publié le :
13 février 2024

Presque toutes les entreprises testent actuellement le concept de Data Product, permettant de faire négocier directement les producteurs et les consommateurs de données. Mais personne ne semble réellement vouloir utiliser le terme de Data Mesh

Si les organisations choisissent plutôt de s’inspirer de cette approche et de sélectionner uniquement les règles qu’elles souhaitent engager, c’est parce que le data mesh devient assez contraignant, si l’on respecte l’ensemble de ses principes d’application.

De multiples interrogations se posent alors sur le sujet :

  • Quelles seront les architectures informatiques déployées ?
  • Quelle sera l’évolution observée par rapport à l’usage du data warehouse ?
  • Les data products pourront-ils coexister avec les architectures centralisées actuelles

Difficile d’imaginer qu’une grande entreprise ait la maturité nécessaire pour que tous les utilisateurs prennent dès maintenant le contrôle de leurs données. Il convient donc d’appliquer une transition par étape, avant d’envisager de décommissionner les systèmes centraux.

A cet effet, Amazon propose d’apporter une réponse avec un nouveau produit, appelé Data Zone. Il s’agit d’un “espace”, dans lequel il sera possible de conserver l’ensemble des données, qu’elles soient dans des data lakes, des data products, avec une logique de place de marché.

En parallèle, Amazon lance également un outil d’intelligence artificielle générative au service de la donnée. Il s’appelle Data Genie. Il fonctionnera de concert avec le catalogue de données Amazon Glue Data Catalog. Il s’appuiera sur ce catalogue pour y ajouter un glossaire métier, permettant à l’IA générative de créer des descriptions automatisées, et de comprendre des requêtes en langage naturel. Amazon reconnait que “cela ne remplacera jamais la description rédigée par un spécialiste métier”, mais c’est une avancée intéressante. A noter que les descriptions sont uniquement générées en anglais pour l’instant.

Dans le cadre de la compréhension des requêtes envoyées par l’utilisateur en langage naturel (d’ailleurs cela fonctionne ici en français, en espagnol et en anglais), plutôt que de vectoriser l’ensemble des données pour essayer de les comprendre, Amazon Genie s’appuie là encore sur le catalogue ; qui sera lui-même vectorisé – à la clef, gain d’espace, de temps de calcul et de coût.

Cela renforce la place centrale de la gouvernance des données, et de son catalogue au cœur de la plateforme data. Bien sûr, cela ne fonctionne que si vous utilisez l’ensemble de l’écosystème Amazon. L’éditeur nous affirme que le lien peut être fait avec des catalogues existants tels que Collibra ou Alation, mais cela suppose un export de tout le catalogue au format JSON… peut-on vraiment considérer cela comme de l’intégration ?

Alors, la Data Zone est-elle plus claire que les Data Plate-forme, Data Hub, Data Fabric et autres Data Trucs inventés par chaque fournisseur ?

En plaçant le catalogue de données au centre de sa Data Zone, Amazon semble aller dans la bonne direction, celle de la gouvernance des données. Et celle d’une gouvernance appliquée à une architecture moderne, autour des data products, préservant cependant l’existant.

Philippe NIEUWBOURG

Analyste et professeur/formateur