Geekflare wird von unserem Publikum unterstützt. Wir können Affiliate-Provisionen durch den Kauf von Links auf dieser Website verdienen.
Teilen:

Wie Datentresore die Zukunft des Data Warehousing sind[+5 Lernressourcen]

Wie-Data-Vaults-die-Zukunft-des-Data-Warehousing-sind
Invicti Web Application Security Scanner – die einzige Lösung, die eine automatische Verifizierung von Schwachstellen mit Proof-Based Scanning™ bietet.

Da Unternehmen immer mehr Daten generieren, wird der traditionelle Ansatz des Data Warehousing immer schwieriger und kostspieliger in der Wartung. Der Data Vault, ein relativ neuer Ansatz für Data Warehousing, bietet eine Lösung für dieses Problem, indem er eine skalierbare, flexible und kostengünstige Möglichkeit bietet, große Datenmengen zu verwalten. 

In diesem Beitrag werden wir untersuchen, inwiefern Data Vaults die Zukunft des Data Warehousing darstellen und warum immer mehr Unternehmen diesen Ansatz verfolgen. Wir werden auch Lernressourcen für diejenigen bereitstellen, die tiefer in das Thema eintauchen möchten!

What is Data Vault?

Data Vault ist eine Data-Warehouse-Modellierungstechnik, die sich besonders für agile Data Warehouses eignet. Es bietet ein hohes Maß an Flexibilität für Erweiterungen, eine vollständige einheitenzeitliche Historisierung der Daten und ermöglicht eine starke Parallelisierung der Datenladeprozesse. Dan Linstedt entwickelte die Data Vault-Modellierung in den 1990er Jahren.

Nach der Erstveröffentlichung im Jahr 2000 erlangte sie 2002 durch eine Artikelserie größere Aufmerksamkeit. 2007 gewann Linstedt die Unterstützung von Bill Inmon, der es als die „optimale Wahl“ für seine Data Vault 2.0-Architektur bezeichnete.

Wer sich mit dem Begriff agiles Data Warehouse beschäftigt, landet schnell bei Data Vault. Das Besondere an der Technologie ist, dass sie sich an den Bedürfnissen von Unternehmen orientiert, weil sie flexible und aufwandsarme Anpassungen an ein Data Warehouse ermöglicht.

Data Vault 2.0 betrachtet den gesamten Entwicklungsprozess und die Architektur und besteht aus den Komponenten Methode (Implementierung), Architektur und Modell. Der Vorteil ist, dass dieser Ansatz alle Aspekte von Business Intelligence mit dem zugrunde liegenden Data Warehouse während der Entwicklung berücksichtigt.

Das Data Vault-Modell bietet eine moderne Lösung zur Überwindung der Einschränkungen traditioneller Datenmodellierungsansätze. Mit seiner Skalierbarkeit, Flexibilität und Agilität bietet es eine solide Grundlage für den Aufbau einer Datenplattform, die der Komplexität und Vielfalt moderner Datenumgebungen gerecht wird.

Die Hub-and-Spoke-Architektur von Data Vault und die Trennung von Entitäten und Attributen ermöglichen die Datenintegration und -harmonisierung über mehrere Systeme und Domänen hinweg und erleichtern so die inkrementelle und agile Entwicklung.

Eine entscheidende Rolle des Data Vault beim Aufbau einer Datenplattform besteht darin, eine einzige Quelle der Wahrheit für alle Daten zu etablieren. Die einheitliche Ansicht der Daten und die Unterstützung für die Erfassung und Verfolgung historischer Datenänderungen durch Satellitentabellen ermöglichen Compliance, Audits, regulatorische Anforderungen sowie umfassende Analysen und Berichte.

Die Datenintegrationsfunktionen von Data Vault nahezu in Echtzeit über Delta-Loading erleichtern die Handhabung großer Datenmengen in sich schnell ändernden Umgebungen wie Big Data und IoT-Anwendungen.

Data Vault vs. Traditional Data Warehouse Models

Third-Normal-Form (3NF) ist eines der bekanntesten traditionellen Data-Warehouse-Modelle, das oft in vielen großen Implementierungen bevorzugt wird. Das entspricht übrigens den Vorstellungen von Bill Inmon, einem der „Urväter“ des Data-Warehouse-Konzepts.

Die Inmon-Architektur basiert auf dem relationalen Datenbankmodell und eliminiert Datenredundanz, indem Datenquellen in kleinere Tabellen zerlegt werden, die in Data Marts gespeichert und über Primär- und Fremdschlüssel miteinander verbunden sind. Es stellt sicher, dass die Daten konsistent und genau sind, indem referenzielle Integritätsregeln durchgesetzt werden.

Das Ziel der Normalform war es, ein umfassendes, unternehmensweites Datenmodell für das Core Data Warehouse aufzubauen; es hat jedoch Skalierbarkeits- und Flexibilitätsprobleme aufgrund stark gekoppelter Data Marts, Ladeschwierigkeiten im Fast-Echtzeitmodus, mühsamen Anfragen und Top-Down-Design und -Implementierung.

inmon

Das Kimbal-Modell, das für OLAP (Online Analytical Processing) und Data Marts verwendet wird, ist ein weiteres berühmtes Data-Warehouse-Modell, in dem Faktentabellen aggregierte Daten enthalten und Dimensionstabellen gespeicherte Daten in a beschreiben Sternschema- oder Schneeflockenschema-Design. In dieser Architektur werden Daten in Fakten- und Dimensionstabellen organisiert, die denormalisiert werden, um Abfragen und Analysen zu vereinfachen.

Kimbal basiert auf einem dimensionalen Modell, das für Abfragen und Berichte optimiert ist und sich daher ideal für Business-Intelligence-Anwendungen eignet. Es gab jedoch Probleme mit der Isolierung themenorientierter Informationen, Datenredundanz, inkompatiblen Abfragestrukturen, Skalierbarkeitsschwierigkeiten, der inkonsistenten Granularität von Faktentabellen, Synchronisierungsproblemen und der Notwendigkeit eines Top-Down-Designs mit einer Bottom-Up-Implementierung. 

Kimball

Im Gegensatz dazu ist die Data-Vault-Architektur ein hybrider Ansatz, der Aspekte sowohl der 3NF- als auch der Kimball-Architektur kombiniert. Es ist ein Modell, das auf relationalen Prinzipien, Datennormalisierung und Redundanzmathematik basiert, das Beziehungen zwischen Entitäten unterschiedlich darstellt und Tabellenfelder und Zeitstempel unterschiedlich strukturiert.

In dieser Architektur werden alle Daten in einem Rohdatentresor oder Data Lake gespeichert, während die häufig verwendeten Daten in einem normalisierten Format in einem Geschäftstresor gespeichert werden, der historische und kontextspezifische Daten enthält, die für die Berichterstellung verwendet werden können.

Datentresor

Data Vault geht die Probleme herkömmlicher Modelle an, indem es effizienter, skalierbarer und flexibler ist. Es ermöglicht das Laden in nahezu Echtzeit, eine bessere Datenintegrität und eine einfache Erweiterung, ohne bestehende Strukturen zu beeinträchtigen. Das Modell kann auch erweitert werden, ohne die bestehenden Tabellen zu migrieren.

ModellierungsansatzDatenstrukturDesignansatz
3NF-ModellierungTabellen in 3NFProst
Kimbal-ModellierungSternschema oder SchneeflockenschemaVon oben nach unten
DatentresorHub-and-SpokeProst

Architecture of Data Vault

Data Vault hat eine Hub-and-Spoke-Architektur und besteht im Wesentlichen aus drei Schichten:

Staging-Schicht: Sammelt die Rohdaten aus den Quellsystemen wie CRM oder ERP

Data Warehouse-Schicht: Bei der Modellierung als Data Vault-Modell enthält diese Ebene:

  • Raw Data Vault: speichert die Rohdaten.
  • Business Data Vault: Enthält harmonisierte und transformierte Daten basierend auf Geschäftsregeln (optional).
  • Metrics Vault: speichert Laufzeitinformationen (optional).
  • Operational Vault: speichert die Daten, die direkt aus den Betriebssystemen in das Data Warehouse fließen (optional).

DataMart Layer: Diese Schicht modelliert Daten als Sternschema und/oder andere Modellierungstechniken. Es stellt Informationen für Analysen und Berichte zur Verfügung.

Datentresor-EDW-Architektur-3
Bildquelle: Lamia Yessad

Data Vault erfordert keine Neuarchitektur. Neue Funktionen können direkt mit den Konzepten und Methoden von Data Vault parallel aufgebaut werden, bestehende Komponenten gehen nicht verloren. Frameworks können die Arbeit erheblich erleichtern: Sie schaffen eine Schicht zwischen dem Data Warehouse und dem Entwickler und reduzieren so die Komplexität der Implementierung. 

Components of Data Vault

Bei der Modellierung teilt Data Vault alle zum Objekt gehörenden Informationen in drei Kategorien ein – im Gegensatz zur klassischen dritten Normalform-Modellierung. Diese Informationen werden dann streng voneinander getrennt gespeichert. Die Funktionsbereiche können in Data Vault in sogenannten Hubs, Links und Satellites abgebildet werden:

# 1. Naben

Hubs sind das Herzstück des Kerngeschäftskonzepts, wie z. B. Kunde, Verkäufer, Verkauf oder Produkt. Die Hub-Tabelle wird um den Geschäftsschlüssel (Geschäftsname oder Standort) gebildet, wenn eine neue Instanz dieses Geschäftsschlüssels zum ersten Mal in das Data Warehouse eingeführt wird.

Der Hub enthält keine beschreibenden Informationen und keine FKs. Es besteht nur aus dem Geschäftsschlüssel mit einer vom Warehouse generierten Folge von ID- oder Hash-Schlüsseln, einem Datums-/Zeitstempel des Ladevorgangs und einer Datensatzquelle.

# 2. Links

Verknüpfungen stellen Beziehungen zwischen den Geschäftsschlüsseln her. Jeder Eintrag in einem Link modelliert nm Beziehungen einer beliebigen Anzahl von Hubs. Dadurch kann der Datentresor flexibel auf Änderungen in der Geschäftslogik der Quellsysteme reagieren, beispielsweise Änderungen in der Herzlichkeit von Beziehungen. Der Link enthält ebenso wie der Hub keine beschreibenden Informationen. Sie besteht aus den Sequenz-IDs der Hubs, auf die sie verweist, einer vom Warehouse generierten Sequenz-ID, einem Ladedatum/-zeitstempel und einer Datensatzquelle.

# 3. Satelliten

Satelliten enthalten die beschreibenden Informationen (Kontext) für einen in einem Hub gespeicherten Geschäftsschlüssel oder eine in einem Link gespeicherte Beziehung. Satelliten funktionieren „nur einfügen“, was bedeutet, dass der vollständige Datenverlauf im Satelliten gespeichert wird. Mehrere Satelliten können einen einzelnen Geschäftsschlüssel (oder eine Beziehung) beschreiben. Ein Satellit kann jedoch nur einen Schlüssel (Hub oder Link) beschreiben.

Data_Vault_Beispiel
Bildquelle: Karbidfischer 

How to build a Data Vault Model

Der Aufbau eines Data Vault-Modells umfasst mehrere Schritte, von denen jeder entscheidend ist, um sicherzustellen, dass das Modell skalierbar und flexibel ist und die Anforderungen des Unternehmens erfüllt:

# 1. Identifizieren Sie Entitäten und Attribute

Identifizieren Sie die Geschäftsentitäten und ihre entsprechenden Attribute. Dazu gehört eine enge Zusammenarbeit mit den Interessenvertretern des Unternehmens, um deren Anforderungen und die zu erfassenden Daten zu verstehen. Sobald diese Entitäten und Attribute identifiziert wurden, trennen Sie sie in Hubs, Links und Satelliten.

# 2. Definieren Sie Entitätsbeziehungen und erstellen Sie Links

Nachdem Sie die Entitäten und Attribute identifiziert haben, werden die Beziehungen zwischen den Entitäten definiert und die Verknüpfungen erstellt, um diese Beziehungen darzustellen. Jedem Link wird ein Geschäftsschlüssel zugewiesen, der die Beziehung zwischen den Entitäten identifiziert. Die Satelliten werden dann hinzugefügt, um die Attribute und Beziehungen der Entitäten zu erfassen.

# 3. Regeln und Standards festlegen

Nach dem Erstellen von Verknüpfungen sollten eine Reihe von Regeln und Datentresormodellierungsstandards festgelegt werden, um sicherzustellen, dass das Modell flexibel ist und Änderungen im Laufe der Zeit verarbeiten kann. Diese Regeln und Standards sollten regelmäßig überprüft und aktualisiert werden, um sicherzustellen, dass sie relevant bleiben und an den geschäftlichen Anforderungen ausgerichtet sind.

# 4. Befüllen Sie das Modell

Nachdem das Modell erstellt wurde, sollte es mithilfe eines inkrementellen Ladeansatzes mit Daten gefüllt werden. Es beinhaltet das Laden der Daten in die Hubs, Links und Satelliten unter Verwendung von Delta-Ladevorgängen. Die Delta-Ladevorgänge stellen sicher, dass nur die an den Daten vorgenommenen Änderungen geladen werden, wodurch die für die Datenintegration erforderliche Zeit und Ressourcen reduziert werden.

# 5. Testen und validieren Sie das Modell

Schließlich sollte das Modell getestet und validiert werden, um sicherzustellen, dass es die Geschäftsanforderungen erfüllt und skalierbar und flexibel genug ist, um zukünftige Änderungen zu bewältigen. Regelmäßige Wartung und Aktualisierungen sollten durchgeführt werden, um sicherzustellen, dass das Modell an den Geschäftsanforderungen ausgerichtet bleibt und weiterhin eine einheitliche Sicht auf die Daten bietet.

Data Vault Learning Resources

Die Beherrschung von Data Vault kann wertvolle Fähigkeiten und Kenntnisse vermitteln, die in den heutigen datengesteuerten Branchen sehr gefragt sind. Hier ist eine umfassende Liste von Ressourcen, einschließlich Kursen und Büchern, die beim Erlernen der Feinheiten von Data Vault helfen können:

# 1. Data Warehouse mit Data Vault 2.0 modellieren

1.

Dieser Udemy-Kurs ist eine umfassende Einführung in den Data Vault 2.0-Modellierungsansatz, das agile Projektmanagement und die Big-Data-Integration. Der Kurs behandelt die Grundlagen und Grundlagen von Data Vault 2.0, einschließlich seiner Architektur und Schichten, Geschäfts- und Informationstresore sowie fortgeschrittene Modellierungstechniken.

Es lehrt Sie, wie Sie ein Data Vault-Modell von Grund auf neu entwerfen, traditionelle Modelle wie 3NF und dimensionale Modelle in Data Vault konvertieren und die Prinzipien der dimensionalen Modellierung in Data Vault verstehen. Der Kurs setzt Grundkenntnisse in Datenbanken und SQL-Grundlagen voraus.

Mit einer hohen Bewertung von 4.4 von 5 und über 1,700 Bewertungen ist dieser Bestseller-Kurs für alle geeignet, die eine solide Grundlage in Data Vault 2.0 und Big Data-Integration aufbauen möchten.

# 2. Data Vault-Modellierung anhand von Anwendungsfällen erklärt

2-1

Dieser Udemy-Kurs soll Sie anhand eines praktischen Geschäftsbeispiels beim Aufbau eines Datentresormodells anleiten. Es dient als Leitfaden für Einsteiger in die Datentresormodellierung und behandelt Schlüsselkonzepte wie die geeigneten Szenarien zur Verwendung von Datentresormodellen, die Einschränkungen der herkömmlichen OLAP-Modellierung und einen systematischen Ansatz zum Erstellen eines Datentresormodells. Der Kurs ist für Personen mit minimalen Datenbankkenntnissen zugänglich.

# 3. Der Data Vault Guru: ein pragmatischer Leitfaden

Der Data Vault Guru von Herrn Patrick Cuba ist ein umfassender Leitfaden zur Data-Vault-Methodik, der eine einzigartige Gelegenheit bietet, das Enterprise Data Warehouse unter Verwendung von Automatisierungsprinzipien zu modellieren, die denen ähnlich sind, die in verwendet werden Softwarelieferung.

Das Buch gibt einen Überblick über die moderne Architektur und bietet dann eine gründliche Anleitung zur Bereitstellung eines flexiblen Datenmodells, das sich an Veränderungen im Unternehmen anpasst, den Datentresor.

Darüber hinaus erweitert das Buch die Data-Vault-Methodik, indem es automatisierte Timeline-Korrektur, Audit-Trails, Metadatenkontrolle und Integration mit agilen Bereitstellungstools bereitstellt.

# 4. Aufbau eines skalierbaren Data Warehouse mit Data Vault 2.0

Dieses Buch bietet Lesern eine umfassende Anleitung zum Erstellen eines skalierbaren Data Warehouse von Anfang bis Ende unter Verwendung der Data Vault 2.0-Methodik.

Vorschau Produkt Rating Preis
Aufbau eines skalierbaren Data Warehouse mit Data Vault 2.0 Aufbau eines skalierbaren Data Warehouse mit Data Vault 2.0 Noch keine Bewertungen $ 69.95

Dieses Buch behandelt alle wesentlichen Aspekte des Aufbaus eines skalierbaren Data Warehouse, einschließlich der Data-Vault-Modellierungstechnik, die entwickelt wurde, um typische Data-Warehousing-Ausfälle zu verhindern.

Das Buch enthält zahlreiche Beispiele, die den Lesern helfen, die Konzepte klar zu verstehen. Mit seinen praktischen Einblicken und Beispielen aus der Praxis ist dieses Buch eine unverzichtbare Ressource für alle, die sich für Data Warehousing interessieren.

# 5. Der Elefant im Kühlschrank: Geführte Schritte zum Erfolg von Data Vault

The Elephant in the Fridge von John Giles ist ein praktischer Ratgeber, der den Lesern helfen soll, mit Data Vault erfolgreich zu sein, indem er mit dem Geschäft beginnt und mit dem Geschäft endet.

Das Buch konzentriert sich auf die Bedeutung der Unternehmensontologie und der Modellierung von Geschäftskonzepten und bietet eine schrittweise Anleitung zur Anwendung dieser Konzepte zur Erstellung eines soliden Datenmodells.

Durch praktische Ratschläge und Beispielmuster bietet der Autor eine klare und unkomplizierte Erklärung komplizierter Themen, was das Buch zu einem hervorragenden Leitfaden für diejenigen macht, die neu im Data Vault sind.

Zusammenfassung

Data Vault stellt die Zukunft des Data Warehousing dar und bietet Unternehmen erhebliche Vorteile in Bezug auf Agilität, Skalierbarkeit und Effizienz. Es eignet sich besonders gut für Unternehmen, die große Datenmengen schnell laden müssen, und für diejenigen, die ihre Business-Intelligence-Anwendungen agil entwickeln möchten.

Darüber hinaus können Unternehmen, die über eine bestehende Silo-Architektur verfügen, stark von der Implementierung eines vorgelagerten Core Data Warehouse mit Data Vault profitieren.

Sie könnten auch daran interessiert sein, etwas über die zu erfahren Datenherkunft.

Danke an unsere Sponsoren
Weitere großartige Lektüre zum Thema Datenmanagement
Treiben Sie Ihr Geschäft an
Einige der Tools und Dienste, die Ihr Unternehmen beim Wachstum unterstützen.
  • Invicti verwendet das Proof-Based Scanning™, um die identifizierten Schwachstellen automatisch zu verifizieren und innerhalb weniger Stunden umsetzbare Ergebnisse zu generieren.
    Versuchen Sie es mit Invicti
  • Web-Scraping, Wohn-Proxy, Proxy-Manager, Web-Unlocker, Suchmaschinen-Crawler und alles, was Sie zum Sammeln von Webdaten benötigen.
    Versuchen Sie es mit Brightdata
  • Semrush ist eine All-in-One-Lösung für digitales Marketing mit mehr als 50 Tools in den Bereichen SEO, Social Media und Content-Marketing.
    Versuchen Sie es mit Semrush
  • Intruder ist ein Online-Schwachstellenscanner, der Cyber-Sicherheitslücken in Ihrer Infrastruktur findet, um kostspielige Datenschutzverletzungen zu vermeiden.
    MIT DER INTELLIGENTEN SCHADENKALKULATION VON Intruder