Geekflare est soutenu par notre public. Nous pouvons gagner des commissions d'affiliation en achetant des liens sur ce site.
Partager sur:

Comment les coffres-forts de données sont l'avenir de l'entreposage de données[+5 ressources d'apprentissage]

Comment-les-data-vaults-sont-le-futur-de-l'entreposage-de-données
Scanner de sécurité des applications Web Invicti – la seule solution qui offre une vérification automatique des vulnérabilités avec Proof-Based Scanning™.

À mesure que les entreprises génèrent de plus en plus de données, l'approche traditionnelle de l'entreposage de données devient de plus en plus difficile et coûteuse à maintenir. Le Data Vault, une approche relativement nouvelle de l'entreposage de données, offre une solution à ce problème en fournissant un moyen évolutif, agile et rentable de gérer de gros volumes de données. 

Dans cet article, nous explorerons comment les Data Vaults sont l'avenir de l'entreposage de données et pourquoi de plus en plus d'entreprises adoptent cette approche. Nous fournirons également des ressources d'apprentissage pour ceux qui souhaitent approfondir le sujet !

What is Data Vault?

Data Vault est une technique de modélisation d'entrepôt de données particulièrement adaptée aux entrepôts de données agiles. Il offre une grande flexibilité pour les extensions, une historisation unitaire-temporelle complète des données, et permet une forte parallélisation des processus de chargement des données. Dan Linstedt a développé la modélisation Data Vault dans les années 1990.

Après la première publication en 2000, elle a attiré l'attention en 2002 grâce à une série d'articles. En 2007, Linstedt a obtenu l'aval de Bill Inmon, qui l'a décrit comme le « choix optimal » pour son architecture Data Vault 2.0.

Quiconque utilise le terme entrepôt de données agile se retrouvera rapidement avec Data Vault. La particularité de cette technologie est qu'elle se concentre sur les besoins des entreprises car elle permet des ajustements flexibles et sans effort à un entrepôt de données.

Data Vault 2.0 prend en compte l'ensemble du processus de développement et de l'architecture et se compose de la méthode des composants (implémentation), de l'architecture et du modèle. L'avantage est que cette approche prend en compte tous les aspects de l'informatique décisionnelle avec l'entrepôt de données sous-jacent lors du développement.

Le modèle Data Vault offre une solution moderne pour surmonter les limites des approches traditionnelles de modélisation des données. Grâce à son évolutivité, sa flexibilité et son agilité, il fournit une base solide pour créer une plate-forme de données capable de s'adapter à la complexité et à la diversité des environnements de données modernes.

L'architecture en étoile de Data Vault et la séparation des entités et des attributs permettent l'intégration et l'harmonisation des données sur plusieurs systèmes et domaines, facilitant un développement progressif et agile.

Un rôle crucial du Data Vault dans la construction d'une plate-forme de données est d'établir une source unique de vérité pour toutes les données. Sa vue unifiée des données et la prise en charge de la capture et du suivi des modifications des données historiques via des tables satellites permettent la conformité, l'audit, les exigences réglementaires, ainsi que des analyses et des rapports complets.

Les capacités d'intégration de données en temps quasi réel du Data Vault via le chargement delta facilitent la gestion de gros volumes de données dans des environnements en évolution rapide tels que les applications Big Data et IoT.

Data Vault vs. Traditional Data Warehouse Models

Third-Normal-Form (3NF) est l'un des modèles d'entrepôt de données traditionnels les plus renommés, souvent préféré dans de nombreuses grandes implémentations. Cela correspond d'ailleurs aux idées de Bill Inmon, l'un des « ancêtres » du concept d'entrepôt de données.

L'architecture Inmon est basée sur le modèle de base de données relationnelle et élimine la redondance des données en décomposant les sources de données en tables plus petites qui sont stockées dans des magasins de données et sont interconnectées à l'aide de clés primaires et étrangères. Il garantit que les données sont cohérentes et exactes en appliquant des règles d'intégrité référentielle.

L'objectif du formulaire normal était de créer un modèle de données complet à l'échelle de l'entreprise pour l'entrepôt de données principal ; cependant, il présente des problèmes d'évolutivité et de flexibilité en raison de datamarts fortement couplés, de difficultés de chargement en mode quasi temps réel, de requêtes laborieuses, d'une conception et d'une mise en œuvre descendantes.

inmon

Le modèle Kimbal, utilisé pour OLAP (traitement analytique en ligne) et les magasins de données, est un autre modèle d'entrepôt de données célèbre dans lequel les tables de faits contiennent des données agrégées et les tables de dimension décrivent les données stockées dans un conception de schéma en étoile ou de schéma en flocon de neige. Dans cette architecture, les données sont organisées en tables de faits et de dimensions qui sont dénormalisées pour simplifier l'interrogation et l'analyse.

Kimbal est basé sur un modèle dimensionnel optimisé pour les requêtes et les rapports, ce qui le rend idéal pour les applications d'informatique décisionnelle. Cependant, il a eu des problèmes avec l'isolement des informations orientées sujet, la redondance des données, les structures de requête incompatibles, les difficultés d'évolutivité, la granularité incohérente des tables de faits, les problèmes de synchronisation et la nécessité d'une conception descendante avec une implémentation ascendante. 

kimball

En revanche, l'architecture Data Vault est une approche hybride qui combine des aspects des architectures 3NF et Kimball. Il s'agit d'un modèle basé sur les principes relationnels, la normalisation des données et les mathématiques de redondance qui représente différemment les relations entre les entités et structure les champs de table et les horodatages différemment.

Dans cette architecture, toutes les données sont stockées dans un coffre-fort de données brutes ou un lac de données, tandis que les données couramment utilisées sont stockées dans un format normalisé dans un coffre-fort d'entreprise qui contient des données historiques et spécifiques au contexte qui peuvent être utilisées pour les rapports.

coffre-fort de données

Data Vault résout les problèmes des modèles traditionnels en étant plus efficace, évolutif et flexible. Il permet un chargement en temps quasi réel, une meilleure intégrité des données et une extension facile sans affecter les structures existantes. Le modèle peut également être étendu sans migrer les tables existantes.

Approche de modélisationStructure de donnéesApproche de conception
Modélisation 3NFTableaux en 3NFDe bas en haut
Modélisation des kimbauxSchéma en étoile ou schéma en floconDe haut en bas
Coffre de donnéesHub and SpokeDe bas en haut

Architecture of Data Vault

Data Vault a une architecture hub-and-spoke et se compose essentiellement de trois couches :

Couche intermédiaire: Collecte les données brutes des systèmes sources, tels que CRM ou ERP

Couche d'entrepôt de données: Lorsqu'elle est modélisée en tant que modèle Data Vault, cette couche inclut :

  • Raw Data Vault : stocke les données brutes.
  • Business Data Vault : comprend des données harmonisées et transformées en fonction de règles métier (facultatif).
  • Metrics Vault : stocke les informations d'exécution (facultatif).
  • Coffre-fort opérationnel : stocke les données qui transitent directement des systèmes opérationnels vers l'entrepôt de données (facultatif).

Magasin de données Layer : cette couche modélise les données sous forme de schéma en étoile et/ou d'autres techniques de modélisation. Il fournit des informations pour l'analyse et la création de rapports.

Data-vault-EDW-architecture-3
Source de l'image : Lamia Yessad

Data Vault ne nécessite pas de réarchitecture. De nouvelles fonctions peuvent être construites en parallèle directement en utilisant les concepts et les méthodes de Data Vault, et les composants existants ne sont pas perdus. Les frameworks peuvent faciliter considérablement le travail : ils créent une couche entre l'entrepôt de données et le développeur et réduisent ainsi la complexité de la mise en œuvre. 

Components of Data Vault

Lors de la modélisation, Data Vault divise toutes les informations appartenant à l'objet en trois catégories, contrairement à la modélisation classique de troisième forme normale. Ces informations sont alors stockées strictement séparées les unes des autres. Les domaines fonctionnels peuvent être cartographiés dans Data Vault dans ce que l'on appelle des hubs, des liens et des satellites :

# 1. Moyeux

Les hubs sont au cœur du concept d'entreprise de base, tel que client, vendeur, vente ou produit. La table hub est formée autour de la clé métier (nom ou emplacement du magasin) lorsqu'une nouvelle instance de cette clé métier est introduite pour la première fois dans l'entrepôt de données.

Le hub ne contient aucune information descriptive et aucun FK. Il se compose uniquement de la clé métier, avec une séquence générée par l'entrepôt de clés d'identification ou de hachage, d'horodatage de chargement et de source d'enregistrement.

# 2. Liens

Les liens établissent des relations entre les clés métier. Chaque entrée dans un lien modélise nm relations d'un nombre quelconque de concentrateurs. Il permet au coffre-fort de données de réagir avec souplesse aux modifications de la logique métier des systèmes source, telles que les modifications de la cordialité des relations. Tout comme le hub, le lien ne contient aucune information descriptive. Il se compose des ID de séquence des concentrateurs auxquels il fait référence, d'un ID de séquence généré par l'entrepôt, d'un horodatage de chargement et d'une source d'enregistrement.

# 3. Satellites

Les satellites contiennent les informations descriptives (contexte) d'une clé métier stockée dans un hub ou d'une relation stockée dans un lien. Les satellites fonctionnent « en insertion uniquement », ce qui signifie que l'historique complet des données est stocké dans le satellite. Plusieurs satellites peuvent décrire une seule clé métier (ou relation). Cependant, un satellite ne peut décrire qu'une seule clé (hub ou lien).

Data_Vault_Example
Source de l'image: Pêcheur de carbure 

How to build a Data Vault Model

La construction d'un modèle de Data Vault implique plusieurs étapes, dont chacune est essentielle pour garantir que le modèle est évolutif, flexible et capable de répondre aux besoins de l'entreprise :

# 1. Identifier les entités et les attributs

Identifiez les entités commerciales et leurs attributs correspondants. Cela implique de travailler en étroite collaboration avec les parties prenantes de l'entreprise pour comprendre leurs besoins et les données qu'elles doivent capturer. Une fois ces entités et attributs identifiés, séparez-les en hubs, liens et satellites.

# 2. Définir des relations d'entité et créer des liens

Une fois que vous avez identifié les entités et les attributs, les relations entre les entités sont définies et les liens sont créés pour représenter ces relations. Chaque lien se voit attribuer une clé métier qui identifie la relation entre les entités. Les satellites sont ensuite ajoutés pour capturer les attributs et les relations des entités.

# 3. Établir des règles et des normes

Après avoir créé des liens, un ensemble de règles et de normes de modélisation de coffre-fort de données doit être établi pour garantir que le modèle est flexible et peut gérer les changements au fil du temps. Ces règles et normes doivent être revues et mises à jour régulièrement pour s'assurer qu'elles restent pertinentes et alignées sur les besoins de l'entreprise.

# 4. Remplir le modèle

Une fois le modèle créé, il doit être rempli de données en utilisant une approche de chargement incrémentiel. Cela implique de charger les données dans les hubs, les liaisons et les satellites à l'aide de charges delta. Le delta se charge pour garantir que seules les modifications apportées aux données sont chargées, ce qui réduit le temps et les ressources nécessaires à l'intégration des données.

# 5. Tester et valider le modèle

Enfin, le modèle doit être testé et validé pour s'assurer qu'il répond aux exigences de l'entreprise et qu'il est suffisamment évolutif et flexible pour gérer les changements futurs. Une maintenance et des mises à jour régulières doivent être effectuées pour garantir que le modèle reste aligné sur les besoins de l'entreprise et continue de fournir une vue unifiée des données.

Data Vault Learning Resources

Maîtriser Data Vault peut fournir des compétences et des connaissances précieuses qui sont très recherchées dans les industries actuelles axées sur les données. Voici une liste complète de ressources, y compris des cours et des livres, qui peuvent vous aider à apprendre les subtilités de Data Vault :

# 1. Modélisation d'un entrepôt de données avec Data Vault 2.0

1

Ce cours Udemy est une introduction complète à l'approche de modélisation Data Vault 2.0, à la gestion de projet Agile et à l'intégration du Big Data. Le cours couvre les bases et les principes fondamentaux de Data Vault 2.0, y compris son architecture et ses couches, les coffres-forts commerciaux et d'informations et les techniques de modélisation avancées.

Il vous apprend à concevoir un modèle Data Vault à partir de zéro, à convertir des modèles traditionnels tels que 3NF et des modèles dimensionnels en Data Vault et à comprendre les principes de la modélisation dimensionnelle dans Data Vault. Le cours nécessite une connaissance de base des bases de données et des principes fondamentaux de SQL.

Avec une note élevée de 4.4 sur 5 et plus de 1,700 2.0 avis, ce cours le plus vendu convient à tous ceux qui cherchent à construire une base solide dans Data Vault XNUMX et l'intégration Big Data.

# 2. Modélisation du coffre-fort de données expliquée avec un cas d'utilisation

2-1

Ce cours Udemy vise à vous guider dans la création d'un modèle de coffre-fort de données à l'aide d'un exemple commercial pratique. Il sert de guide du débutant à la modélisation de Data Vault, couvrant des concepts clés tels que les scénarios appropriés pour utiliser les modèles de Data Vault, les limites de la modélisation OLAP conventionnelle et une approche systématique pour construire un modèle de Data Vault. Le cours est accessible aux personnes ayant une connaissance minimale des bases de données.

# 3. Le Data Vault Guru : un guide pragmatique

Le Data Vault Guru de M. Patrick Cuba est un guide complet de la méthodologie du coffre-fort de données, qui offre une opportunité unique de modéliser l'entrepôt de données d'entreprise en utilisant des principes d'automatisation similaires à ceux utilisés dans livraison de logiciel.

Le livre donne un aperçu de l'architecture moderne, puis propose un guide complet sur la manière de fournir un modèle de données flexible qui s'adapte aux changements de l'entreprise, le coffre-fort de données.

De plus, le livre étend la méthodologie du coffre-fort de données en fournissant une correction automatisée de la chronologie, des pistes d'audit, un contrôle des métadonnées et une intégration avec des outils de livraison agiles.

# 4. Construire un entrepôt de données évolutif avec Data Vault 2.0

Ce livre fournit aux lecteurs un guide complet pour créer un entrepôt de données évolutif du début à la fin en utilisant la méthodologie Data Vault 2.0.

Aperçu Produit Note Prix
Construire un entrepôt de données évolutif avec Data Vault 2.0 Construire un entrepôt de données évolutif avec Data Vault 2.0 Aucune évaluation pour le moment $69.95

Ce livre couvre tous les aspects essentiels de la construction d'un entrepôt de données évolutif, y compris la technique de modélisation Data Vault, qui est conçue pour prévenir les défaillances typiques de l'entrepôt de données.

Le livre présente de nombreux exemples pour aider les lecteurs à comprendre clairement les concepts. Avec ses idées pratiques et ses exemples concrets, ce livre est une ressource essentielle pour quiconque s'intéresse à l'entreposage de données.

# 5. L'éléphant dans le réfrigérateur : étapes guidées pour réussir Data Vault

The Elephant in the Fridge de John Giles est un guide pratique qui vise à aider les lecteurs à réussir Data Vault en commençant par l'entreprise et en terminant par l'entreprise.

Le livre se concentre sur l'importance de l'ontologie d'entreprise et de la modélisation des concepts d'entreprise et fournit des conseils étape par étape sur la façon d'appliquer ces concepts pour créer un modèle de données solide.

Grâce à des conseils pratiques et à des exemples de modèles, l'auteur propose une explication claire et simple de sujets complexes, faisant de ce livre un excellent guide pour ceux qui découvrent le Data Vault.

Mot de la fin

Data Vault représente l'avenir de l'entreposage de données, offrant aux entreprises des avantages significatifs en termes d'agilité, d'évolutivité et d'efficacité. Il est particulièrement bien adapté aux entreprises qui ont besoin de charger rapidement de gros volumes de données et à celles qui cherchent à développer leurs applications de business intelligence de manière agile.

De plus, les entreprises qui ont une architecture en silo existante peuvent grandement bénéficier de la mise en œuvre d'un entrepôt de données central en amont à l'aide de Data Vault.

Vous pourriez également être intéressé par lignage de données.

Merci à nos commanditaires
Plus de bonnes lectures sur la gestion des données
Alimentez votre entreprise
Certains des outils et services pour aider votre entreprise à se développer.
  • Invicti utilise Proof-Based Scanning™ pour vérifier automatiquement les vulnérabilités identifiées et générer des résultats exploitables en quelques heures seulement.
    Essayez Invicti
  • Web scraping, proxy résidentiel, proxy manager, web unlocker, moteur de recherche et tout ce dont vous avez besoin pour collecter des données Web.
    Essayez Brightdata
  • Semrush est une solution de marketing numérique tout-en-un avec plus de 50 outils de référencement, de médias sociaux et de marketing de contenu.
    Essayez Semrush
  • Intruder est un scanner de vulnérabilités en ligne qui détecte les failles de cybersécurité de votre infrastructure, afin d'éviter des violations de données coûteuses.
    Essayez Intruder