Comment les coffres-forts de données sont l'avenir de l'entreposage de données [5 ressources d'apprentissage]

Alors que les entreprises génèrent de plus en plus de données, l’approche traditionnelle de l’entreposage de données devient de plus en plus difficile et coûteuse à maintenir. Le coffre-fort de données, une approche relativement nouvelle de l’entreposage de données, offre une solution à ce problème en fournissant un moyen évolutif, agile et rentable de gérer de grands volumes de données.

Dans ce billet, nous verrons comment les chambres fortes représentent l’avenir de l’entreposage de données et pourquoi de plus en plus d’entreprises adoptent cette approche. Nous fournirons également des ressources d’apprentissage pour ceux qui souhaitent approfondir le sujet !

Qu’est-ce que Data Vault ?

Data Vault est une technique de modélisation d’entrepôt de données particulièrement adaptée aux entrepôts de données agiles. Elle offre un haut degré de flexibilité pour les extensions, une historisation unitaire-temporelle complète des données, et permet une forte parallélisation des processus de chargement des données. Dan Linstedt a développé la modélisation de Data Vault dans les années 1990.

Après la première publication en 2000, elle a attiré l’attention en 2002 grâce à une série d’articles. En 2007, Linstedt a obtenu l’aval de Bill Inmon, qui l’a décrite comme le “choix optimal” pour son architecture Data Vault 2.0.

Quiconque s’intéresse à l’expression “entrepôt de données agile” est rapidement confronté à Data Vault. La particularité de cette technologie est qu’elle est axée sur les besoins des entreprises, car elle permet d’adapter un entrepôt de données de manière flexible et à moindre effort.

Data Vault 2.0 prend en compte l’ensemble du processus de développement et de l’architecture et se compose des éléments suivants : méthode (mise en œuvre), architecture et modèle. L’avantage est que cette approche prend en compte tous les aspects de l’intelligence économique avec l’entrepôt de données sous-jacent pendant le développement.

Le modèle Data Vault offre une solution moderne pour surmonter les limites des approches traditionnelles de modélisation des données. Grâce à son évolutivité, sa flexibilité et son agilité, il constitue une base solide pour la construction d’une plateforme de données capable de prendre en charge la complexité et la diversité des environnements de données modernes.

L’architecture en étoile du coffre-fort de données et la séparation des entités et des attributs permettent l’intégration et l’harmonisation des données entre plusieurs systèmes et domaines, ce qui facilite le développement incrémental et agile.

L’un des rôles essentiels du coffre-fort de données dans la construction d’une plateforme de données est d’établir une source unique de vérité pour toutes les données. Sa vue unifiée des données et sa prise en charge de la capture et du suivi des modifications des données historiques par le biais de tables satellites permettent de répondre aux exigences en matière de conformité, d’audit et de réglementation, ainsi que d’effectuer des analyses et des rapports complets.

Les capacités d’intégration de données en temps quasi réel du Data Vault via le chargement delta facilitent le traitement de gros volumes de données dans des environnements en évolution rapide tels que les applications Big Data et IoT.

Data Vault par rapport aux modèles d’entrepôts de données traditionnels

Third-Normal-Form (3NF) est l’un des modèles d’entrepôt de données traditionnels les plus réputés, souvent privilégié dans de nombreuses grandes implémentations. Il correspond d’ailleurs aux idées de Bill Inmon, l’un des “ancêtres” du concept d’entrepôt de données.

L’architecture Inmon est basée sur le modèle de base de données relationnelle et élimine la redondance des données en décomposant les sources de données en tables plus petites qui sont stockées dans des entrepôts de données et sont interconnectées à l’aide de clés primaires et étrangères. Elle garantit la cohérence et l’exactitude des données en appliquant des règles d’intégrité référentielle.

L’objectif de la forme normale était de construire un modèle de données complet à l’échelle de l’entreprise pour l’entrepôt de données principal ; cependant, elle présente des problèmes d’évolutivité et de flexibilité en raison de marches de données fortement couplées, de difficultés de chargement en mode quasi temps réel, de requêtes laborieuses, et d’une conception et d’une mise en œuvre de type descendant.

Le modèle Kimbal, utilisé pour le traitement analytique en ligne (OLAP) et les marts de données, est un autre modèle célèbre d’entrepôt de données dans lequel les tables de faits contiennent des données agrégées et les tables de dimensions décrivent les données stockées dans un schéma en étoile ou un schéma en flocon de neige. Dans cette architecture, les données sont organisées en tables de faits et de dimensions qui sont dénormalisées pour simplifier l’interrogation et l’analyse.

Kimbal est basé sur un modèle dimensionnel optimisé pour les requêtes et les rapports, ce qui le rend idéal pour les applications de veille stratégique. Cependant, il a connu des problèmes d’isolation des informations orientées sujet, de redondance des données, de structures d’interrogation incompatibles, de difficultés d’évolutivité, de granularité incohérente des tables de faits, de problèmes de synchronisation et de nécessité d’une conception descendante avec une mise en œuvre ascendante.

En revanche, l’architecture Data vault est une approche hybride qui combine des aspects des architectures 3NF et Kimball. Il s’agit d’un modèle basé sur les principes relationnels, la normalisation des données et les mathématiques de redondance qui représente différemment les relations entre les entités et structure différemment les champs des tables et les horodatages.

Dans cette architecture, toutes les données sont stockées dans un coffre-fort de données brutes ou un lac de données, tandis que les données couramment utilisées sont stockées dans un format normalisé dans un coffre-fort d’entreprise qui contient des données historiques et contextuelles spécifiques qui peuvent être utilisées pour l’établissement de rapports.

Le Data Vault résout les problèmes des modèles traditionnels en étant plus efficace, plus évolutif et plus flexible. Il permet un chargement en temps quasi réel, une meilleure intégrité des données et une expansion facile sans affecter les structures existantes. Le modèle peut également être étendu sans migration des tables existantes.

Approche de la modélisation	Structure des données	Approche de la conception
modélisation 3NF	Tables en 3NF	De bas en haut
Modélisation Kimbal	Schéma en étoile ou schéma en flocon de neige	De haut en bas
Voûte de données	Hub-and-Spoke (en étoile)	De bas en haut

Architecture de Data Vault

Data Vault a une architecture en étoile et se compose essentiellement de trois couches :

Couche de préparation: Collecte les données brutes à partir des systèmes sources, tels que le CRM ou l’ERP

Couche d’entrepôt de données: Lorsqu’elle est modélisée comme un modèle de coffre-fort de données, cette couche comprend :

Chambre forte des données brutes : stocke les données brutes.
Chambre forte des données commerciales : comprend les données harmonisées et transformées sur la base des règles commerciales (facultatif).
Chambre forte des métriques : stocke les informations d’exécution (facultatif).
Chambre forte opérationnelle : stocke les données provenant directement des systèmes opérationnels dans l’entrepôt de données (facultatif)

Couche Data Mart: Cette couche modélise les données à l’aide d’un schéma en étoile et/ou d’autres techniques de modélisation. Elle fournit des informations pour l’analyse et le reporting.

Data-vault-EDW-architecture-3 — Source de l’image : Lamia Yessad

Data Vault ne nécessite pas de réarchitecture. De nouvelles fonctions peuvent être construites en parallèle en utilisant directement les concepts et les méthodes de Data Vault, et les composants existants ne sont pas perdus. Les frameworks peuvent faciliter considérablement le travail : ils créent une couche entre l’entrepôt de données et le développeur et réduisent ainsi la complexité de la mise en œuvre.

Composants de Data Vault

Lors de la modélisation, Data Vault divise toutes les informations appartenant à l’objet en trois catégories – contrairement à la modélisation classique de la troisième forme normale. Ces informations sont ensuite stockées de manière strictement séparée les unes des autres. Les domaines fonctionnels peuvent être cartographiés dans Data Vault dans ce que l’on appelle les hubs, les liens et les satellites :

#1. Hubs

Les hubs sont au cœur du concept de base de l’entreprise, comme le client, le vendeur, la vente ou le produit. La table pivot est formée autour de la clé commerciale (nom du magasin ou emplacement) lorsqu’une nouvelle instance de cette clé commerciale est introduite pour la première fois dans l’entrepôt de données.

La plaque tournante ne contient aucune information descriptive ni aucun FK. Il se compose uniquement de la clé métier, d’une séquence de clés d’identification ou de hachage générée par l’entrepôt, de la date et de l’heure de chargement et de la source de l’enregistrement.

#2. Les liens

Les liens établissent des relations entre les clés professionnelles. Chaque entrée d’un lien modélise les relations nm d’un nombre quelconque de hubs. Il permet au coffre-fort de réagir avec souplesse aux changements dans la logique opérationnelle des systèmes sources, tels que des changements dans la cordialité des relations. Tout comme le concentrateur, le lien ne contient aucune information descriptive. Il se compose des identifiants de séquence des concentrateurs qu’il référence, d’un identifiant de séquence généré par l’entrepôt, de l’horodatage du chargement et de la source de l’enregistrement.

#3. Satellites

Les satellites contiennent les informations descriptives (contexte) d’une clé de gestion stockée dans un hub ou d’une relation stockée dans un lien. Les satellites fonctionnent en mode “insertion uniquement”, ce qui signifie que l’historique complet des données est stocké dans le satellite. Plusieurs satellites peuvent décrire une même clé de gestion (ou relation). Cependant, un satellite ne peut décrire qu’une seule clé (hub ou lien).

Data_Vault_Example — Source de l’image : Carbidfischer

Comment construire un modèle de chambre forte

La construction d’un modèle de coffre-fort de données comporte plusieurs étapes, chacune d’entre elles étant essentielle pour garantir que le modèle est évolutif, flexible et capable de répondre aux besoins de l’entreprise :

#1. Identifier les entités et les attributs

Identifiez les entités de l’entreprise et leurs attributs correspondants. Cela implique de travailler en étroite collaboration avec les parties prenantes de l’entreprise pour comprendre leurs besoins et les données qu’elles doivent capturer. Une fois ces entités et attributs identifiés, séparez-les en hubs, liens et satellites.

#2. Définir les relations entre les entités et créer des liens

Une fois que vous avez identifié les entités et les attributs, les relations entre les entités sont définies et les liens sont créés pour représenter ces relations. Chaque lien se voit attribuer une clé de gestion qui identifie la relation entre les entités. Les satellites sont ensuite ajoutés pour capturer les attributs et les relations des entités.

#3. Établir des règles et des normes

Après avoir créé les liens, il convient d’établir un ensemble de règles et de normes de modélisation du coffre-fort de données afin de s’assurer que le modèle est flexible et qu’il peut gérer les changements au fil du temps. Ces règles et normes doivent être revues et mises à jour régulièrement afin de s’assurer qu’elles restent pertinentes et alignées sur les besoins de l’entreprise.

#4. Alimenter le modèle

Une fois le modèle créé, il doit être alimenté en données à l’aide d’une approche de chargement incrémentielle. Il s’agit de charger les données dans les hubs, les liens et les satellites à l’aide de chargements delta. Les chargements delta garantissent que seules les modifications apportées aux données sont chargées, ce qui réduit le temps et les ressources nécessaires à l’intégration des données.

#5. Tester et valider le modèle

Enfin, le modèle doit être testé et validé pour s’assurer qu’il répond aux exigences de l’entreprise et qu’il est suffisamment évolutif et flexible pour gérer les changements futurs. Une maintenance et des mises à jour régulières doivent être effectuées pour s’assurer que le modèle reste aligné sur les besoins de l’entreprise et qu’il continue à fournir une vue unifiée des données.

Ressources pédagogiques sur Data Vault

La maîtrise de Data Vault peut vous permettre d’acquérir des compétences et des connaissances précieuses qui sont très recherchées dans les secteurs d’activité actuels axés sur les données. Voici une liste complète de ressources, y compris des cours et des livres, qui peuvent vous aider à apprendre les subtilités de Data Vault :

#1. Modéliser un entrepôt de données avec Data Vault 2.0

Ce cours Udemy est une introduction complète à l’approche de modélisation Data Vault 2.0, à la gestion de projet Agile et à l’intégration des Big Data. Le cours couvre les bases et les principes fondamentaux de Data Vault 2.0, y compris son architecture et ses couches, les coffres-forts d’entreprise et d’information, et les techniques de modélisation avancées.

Il vous apprend à concevoir un modèle Data Vault à partir de zéro, à convertir des modèles traditionnels comme la 3NF et les modèles dimensionnels vers Data Vault, et à comprendre les principes de la modélisation dimensionnelle dans Data Vault. Ce cours nécessite des connaissances de base sur les bases de données et les principes fondamentaux de SQL.

Avec une note élevée de 4,4 sur 5 et plus de 1 700 commentaires, ce cours best-seller convient à tous ceux qui cherchent à construire une base solide pour Data Vault 2.0 et l’intégration des Big Data.

#2. La modélisation de Data Vault expliquée avec des cas d’utilisation

Ce cours Udemy a pour but de vous guider dans la construction d’un modèle Data Vault à l’aide d’un exemple pratique d’entreprise. Il s’agit d’un guide d’initiation à la modélisation de Data Vault, couvrant des concepts clés tels que les scénarios appropriés pour utiliser les modèles de Data Vault, les limites de la modélisation OLAP conventionnelle, et une approche systématique de la construction d’un modèle de Data Vault. Le cours est accessible aux personnes ayant une connaissance minimale des bases de données.

#3. Le gourou du coffre-fort de données : un guide pragmatique

The Data Vault Guru de M. Patrick Cuba est un guide complet de la méthodologie de la voûte de données, qui offre une opportunité unique de modéliser l’entrepôt de données de l’entreprise en utilisant des principes d’automatisation similaires à ceux utilisés dans la livraison de logiciels.

Preview	Product	Rating
	The Data Vault Guru: a pragmatic guide on building a data vault	No ratings yet	Buy on Amazon

Le livre fournit une vue d’ensemble de l’architecture moderne et offre ensuite un guide complet sur la façon de fournir un modèle de données flexible qui s’adapte aux changements dans l’entreprise, la voûte de données.

En outre, le livre étend la méthodologie de la voûte de données en fournissant une correction automatisée de la chronologie, des pistes d’audit, un contrôle des métadonnées et une intégration avec des outils de livraison agile.

#4. Construire un entrepôt de données évolutif avec Data Vault 2.0

Ce livre fournit aux lecteurs un guide complet pour créer un entrepôt de données évolutif du début à la fin en utilisant la méthodologie Data Vault 2.0.

Preview	Product	Rating
	Building a Scalable Data Warehouse with Data Vault 2.0	No ratings yet	Buy on Amazon

Ce livre couvre tous les aspects essentiels de la construction d’un entrepôt de données évolutif, y compris la technique de modélisation Data Vault, qui est conçue pour éviter les échecs typiques de l’entreposage de données.

Le livre comporte de nombreux exemples qui aident les lecteurs à comprendre clairement les concepts. Avec ses idées pratiques et ses exemples du monde réel, ce livre est une ressource essentielle pour tous ceux qui s’intéressent à l’entreposage de données.

#5. L’éléphant dans le frigo : Des étapes guidées vers le succès de l’entrepôt de données

The Elephant in the Fridge de John Giles est un guide pratique qui vise à aider les lecteurs à réussir leur projet de Data Vault en commençant par l’entreprise et en terminant par l’entreprise.

Preview	Product	Rating
	The Elephant in the Fridge: Guided Steps to Data Vault Success through Building Business-Centered…	No ratings yet	Buy on Amazon

Le livre se concentre sur l’importance de l’ontologie d’entreprise et de la modélisation du concept métier et fournit des conseils étape par étape sur la façon d’appliquer ces concepts pour créer un modèle de données solide.

Grâce à des conseils pratiques et des exemples de modèles, l’auteur propose une explication claire et simple de sujets complexes, ce qui fait de ce livre un excellent guide pour ceux qui découvrent le coffre-fort de données.

Le mot de la fin

Data Vault représente l’avenir de l’entreposage de données, offrant aux entreprises des avantages significatifs en termes d’agilité, d’évolutivité et d’efficacité. Il est particulièrement bien adapté aux entreprises qui ont besoin de charger rapidement de grands volumes de données et à celles qui cherchent à développer leurs applications de veille stratégique de manière agile.

En outre, les entreprises qui disposent d’une architecture en silos peuvent tirer un grand profit de la mise en œuvre d’un entrepôt de données central en amont à l’aide de Data Vault.

Vous pouvez également être intéressé par le lignage des données.