Geekflare wird von unserem Publikum unterstützt. Wir können Affiliate-Provisionen durch den Kauf von Links auf dieser Website verdienen.
Teilen:

Was ist Data Lineage? Beispiel, Techniken und Anwendungsfälle

Was-ist-Data-Lineage
Invicti Web Application Security Scanner – die einzige Lösung, die eine automatische Verifizierung von Schwachstellen mit Proof-Based Scanning™ bietet.

Die Datenherkunft bietet einen Pfad, der zeigt, wo Daten waren und wie sie auf dem Weg transformiert wurden.

Die Datenherkunft war ein wichtiges Konzept in Datenmanagement für viele Jahre. Dennoch hat es in den letzten Jahren mit dem Wachstum von Big Data, Cloud Computing und der zunehmenden Komplexität von Datenpipelines immer mehr an Bedeutung gewonnen.

Das Konzept der Datenherkunft lässt sich bis in die Anfänge des Data Warehousing und der ETL-Prozesse (Extract, Transform, Load) zurückverfolgen. Zu verstehen, wie Daten verändert wurden und woher sie kamen, wurde immer wichtiger, je größer und ausgeklügelter Data Warehouses wurden.

Dies führte zur Entwicklung von Data-Lineage-Tools, die den Datenfluss durch die Pipeline verfolgen und eine visuelle Darstellung des Datenflusses liefern konnten. Lassen Sie uns untersuchen, worum es bei der Datenherkunft geht und warum sie wichtig ist.

What is Data Lineage?

Datenherkunft ist der Prozess der Verfolgung des Ursprungs und der Bewegung von Daten während ihres gesamten Lebenszyklus. Es enthält Informationen darüber, woher die Daten stammen, wo sie waren und wohin sie gehen, sowie alle Änderungen, die auf dem Weg vorgenommen wurden.

Datenlinie-1
Bildnachweis: neue Lösungen

Die Datenherkunft ist ein kritischer Aspekt der Datenverwaltung und aus verschiedenen Gründen wichtig.

  • Verstehen der Historie von Daten, einschließlich der Frage, wie sie im Laufe der Zeit transformiert und verwendet wurden.
  • Aufrechterhaltung der Datenqualität und Sicherstellung der Einhaltung gesetzlicher Vorschriften.
  • Ermöglichung der Auswirkungsanalyse von Änderungen in Daten und Prozessen.
  • Hilft bei Auditing und Governance, fundierte Entscheidungen auf Geschäftsebene basierend auf den Daten zu treffen.
  • Verbessert die allgemeine Effizienz und Effektivität von Datenverwaltungsprozessen.

How does Data Lineage work?

Die Datenherkunft umfasst in der Regel Informationen über den Datenursprung, die Systeme und Prozesse, die zum Transformieren und Verschieben der Daten verwendet werden, und das endgültige Ziel der Daten.

Diese Informationen werden normalerweise grafisch dargestellt, wobei jeder Knoten ein System oder einen Prozess darstellt und jede Kante den Datenfluss zwischen Knoten darstellt.

Metadaten sind eine Schlüsselkomponente der Datenherkunft, da sie Informationen über die Datenbestände und deren Fluss durch die Datenpipeline bereitstellen.

Datenherkunftstools verwenden Metadaten, um eine visuelle Darstellung des Datenflusses zu erstellen, die es Benutzern ermöglicht, zu sehen, wie Daten transformiert und im gesamten Unternehmen verwendet werden. Dies hilft Benutzern zu bestimmen, wie nützlich die Daten sein können, um fundiertere Entscheidungen zu treffen.

Implementation of Data Lineage

Implementierung-von-Data-Lineage

 Die folgenden Schritte sind häufig an der Implementierung der Datenherkunft in einer Organisation beteiligt.

# 1. Definieren Sie die Datenquellen

Identifizieren Sie alle Systeme und Datenbanken, die die Daten enthalten, die Sie nachverfolgen möchten. Dazu gehört die Identifizierung der verschiedenen Datenquellen wie Dateien, APIs und Cloud-Dienste.

# 2. Sammeln Sie Metadaten

Der nächste Schritt besteht darin, Informationen über die Daten zu sammeln, z. B. ihre Struktur, ihr Format und ihren Speicherort. Diese Metadaten werden verwendet, um die Eigenschaften der Daten und ihre Verwendung zu verstehen.

# 3. Datenflüsse erkennen

Zeichnen Sie den Datenfluss von der Quelle bis zum Ziel auf, einschließlich aller Transformationen oder Verarbeitungen, die auf dem Weg erfolgen, was es einfacher macht, zu verstehen, wie Daten geändert und im gesamten Unternehmen angewendet werden.

# 4. Datenzugriff verfolgen

Überwachen und protokollieren Sie, wer auf die Daten zugreift, um Datensicherheit und Compliance zu gewährleisten.

# 5. Abstammung speichern und visualisieren

Speichern Sie die gesammelten Metadaten und Datenflussinformationen in einem zentralen Repository und verwenden Sie Visualisierungstools, um die Herkunft für ein einfaches Verständnis und eine einfache Analyse anzuzeigen.

# 6. Implementieren Sie eine automatisierte Lösung

Die Automatisierung hilft Ihnen sicherzustellen, dass die Datenherkunft erfasst und nachverfolgt wird, und trägt außerdem dazu bei, Fehler zu reduzieren und die Effizienz zu verbessern.

# 7. Überprüfen und aktualisieren

Überprüfen Sie die Herkunftsinformationen regelmäßig, um sicherzustellen, dass sie korrekt und aktuell sind, und aktualisieren Sie sie bei Bedarf.

Es ist wichtig zu beachten, dass jede Organisation spezifische Anforderungen und Einschränkungen haben kann, die zusätzliche Schritte oder Änderungen am Implementierungsprozess erfordern.

Data Lineage Use Cases

Data-Lineage-Use-Cases

Datenmodellierung

Organisationen können mithilfe der Datenherkunft visuelle Darstellungen mehrerer Datenelemente und ihrer Verbindungen generieren. Die Verknüpfungen zwischen Datenkomponenten können modelliert werden, um die im gesamten Datenökosystem vorhandenen Abhängigkeiten aufzuzeigen.

Dies erleichtert Analysten und Datenwissenschaftlern das Verständnis der statistischen Modelle und die Durchführung aufschlussreicher und zeitnaher Analysen. Und hier ist ein ausführlicher Beitrag dazu Datenmodellierung.

Compliance

Es wird verwendet in Compliance Prozesse zur Prüfung, Verbesserung des Risikomanagements und Sicherstellung, dass Daten gemäß den Richtlinien zur Datenverwaltung verarbeitet und gepflegt werden.

Einflussanalyse

Die Durchführung einer detaillierten Folgenabschätzung wird durch die Datenherkunft vereinfacht. Mithilfe von Herkunftsdiagrammen können Sie schnell die vor- und nachgelagerten Auswirkungen einer bestimmten Änderung bestimmen. Sie können tiefer schauen und die Auswirkungen auf der Ebene einer Tabelle oder eines Geschäftsberichts beobachten.

Ursachenanalyse von Datenproblemen

Die Datenherkunft kann verwendet werden, um die Quelle von Datenproblemen schnell zu identifizieren, indem nachverfolgt wird, wie Daten durch Systeme geflossen sind.

Dies kann besonders in komplexen Datenumgebungen nützlich sein, in denen Daten aus mehreren Systemen gesammelt werden und mehrere Prozesse durchlaufen, bevor sie ihr endgültiges Ziel erreichen.

Es kann auch Datenänderungen im Laufe der Zeit verfolgen und Muster oder Anomalien erkennen, die auf ein Problem hinweisen könnten. Dies kann Unternehmen dabei helfen, Datenprobleme in Zukunft zu vermeiden.

Data Lineage Techniques

Data-Lineage-Techniken

Hier sind einige beliebte Techniken zum Durchführen von Data Lineage für wichtige Datasets.

# 1. Musterbasierte Abstammung

Ohne den Code zu verwalten, der zum Generieren oder Ändern der Daten verwendet wird, identifiziert diese Technik Muster in den Daten und wendet sie an, um ihren Ursprung und ihre Geschichte abzuleiten.

Es basiert auf der Analyse von Metadaten für Tabellen und Geschäftsberichte mittels Mustererkennung. Diese Methode kann für jede Datenbanktechnologie verwendet werden. Trotzdem ist es nicht immer genau. Es können Verbindungen zwischen Datensätzen fehlen, wenn die Datenverarbeitung Die Logik ist im Programmiercode verborgen und in menschenlesbaren Metadaten nicht sichtbar.

Eine weitere Einschränkung besteht darin, dass es rechenintensiv sein kann, wenn die Daten skaliert und die Metadaten komplex sind.

Es ist wichtig zu beachten, dass diese Technik in Verbindung mit anderen Herkunftstechniken verwendet werden kann, um eine vollständige Ansicht der Datenherkunft bereitzustellen.

# 2. Abstammung durch Information Tagging

Diese Methode geht davon aus, dass Daten von einer Transformations-Engine markiert oder markiert wurden. Und dann folgt es dem Tag vom Anfang bis zum Ende des Prozesses, um die Abstammung zu entdecken.

Diese Methode ist nur effektiv, wenn Sie über ein konsistentes Transformationstool verfügen, das alle Datenbewegungen steuert und die vom Tool verwendete Tagging-Struktur kennt.

Es beinhaltet das Hinzufügen von Tags oder Markierungen zu den Daten, die dann verwendet werden können, um ihre Herkunft zu verfolgen, während sie sich durch verschiedene Systeme und Prozesse bewegen.

Die Tags können Informationen wie den Namen des Quellsystems, Datum und Uhrzeit der Datenextraktion, das Datenformat und alle Transformationen oder Operationen enthalten, die an den Daten durchgeführt wurden.

# 3. Abstammung durch Parsing

Diese Technik beinhaltet das automatische Lesen der Logik für die Datenverarbeitung. Es führt ein vollständiges End-to-End-Tracing durch Reverse Engineering der Transformationslogik durch, was sowohl für die Identifizierung von Datenabhängigkeiten als auch für die Erkennung nützlich sein kann Datenqualität Probleme.

Die Bereitstellung ist jedoch komplex, da alle verwendeten Programmiersprachen und Tools verstanden werden müssen Datenumwandlung, wie ETL-Logik, XML-basierte Lösungen etc.

Darüber hinaus erfordert diese Technik ein gutes Verständnis dafür, wie die Daten durch die Systeme der Organisation fließen, und hängt von der Verfügbarkeit von Protokollen und der Fähigkeit ab, diese zu analysieren. Es erfordert auch ein Team mit Kenntnissen in Datenverwaltung, Programmierung und Datenanalyse, um effektiv zu sein.

# 4. Eigenständige Abstammung

Unabhängige Abstammung bezieht sich auf die Fähigkeit eines Systems oder Informationsrahmens, die Geschichte seiner Komponenten und Abhängigkeiten unabhängig zu verfolgen, ohne dass externe Aufzeichnungen oder Informationen erforderlich sind.

Es ist ein in sich geschlossener Prozess, bei dem die Informationen zentral gespeichert, verarbeitet und verwaltet werden, um die vollständige Kontrolle über Metadaten zu erhalten.

Diese Methode hat einen Nachteil, da sie nur die Daten berücksichtigt, die in der kontrollierten Umgebung vorhanden sind, und alle äußeren Einflüsse oder Aktionen, die sich auf die Daten auswirken könnten, ignoriert.

Learning Resources

Und hier sind einige der externen Ressourcen, um mehr über die Datenherkunft zu erfahren.

# 1. Data Lineage aus geschäftlicher Sicht

Dieses Buch bietet ein klares Metamodell der Datenherkunft und demonstriert außerdem Best Practices für die Implementierung und deckt wichtige Anwendungsbereiche wie Data Governance, Datenqualität und Compliance ab.

Vorschau Produkt Rating Preis
Data Lineage aus geschäftlicher Sicht Data Lineage aus geschäftlicher Sicht $ 59.25

Insgesamt ist es eine wertvolle Ressource für Geschäftsleute, die die Bedeutung der Datenherkunft verstehen und wissen möchten, wie sie in ihren Unternehmen implementiert werden können.

# 2. Prescriptive Data Lineage Ein vollständiger Leitfaden – Ausgabe 2020

Dieses Buch behandelt das Thema Data Lineage ausführlich und bietet einen umfassenden Leitfaden für die Implementierung in einer Organisation.

Vorschau Produkt Rating Preis
Prescriptive Data Lineage Ein vollständiger Leitfaden – Ausgabe 2020 Prescriptive Data Lineage Ein vollständiger Leitfaden – Ausgabe 2020 Noch keine Bewertungen $ 76.99

Der Inhalt des Buches ist gut organisiert und enthält Beispiele aus der Praxis, um wichtige Prinzipien hervorzuheben.

# 3. Data Lineage Ein vollständiger Leitfaden – Ausgabe 2021

Dieses Buch richtet sich sowohl an technische als auch an Geschäftsexperten, die ein tieferes Verständnis der Datenherkunft und deren effektiver Nutzung in ihren Unternehmen erlangen möchten.

Vorschau Produkt Rating Preis
Data Lineage Ein vollständiger Leitfaden – Ausgabe 2021 Data Lineage Ein vollständiger Leitfaden – Ausgabe 2021 Noch keine Bewertungen $ 7.12

Es bietet die aktuellsten Informationen und Erkenntnisse zum Thema, mit neuen Informationen und Fallstudien, die die neuesten Entwicklungen auf diesem Gebiet widerspiegeln.

Abschließende Überlegungen

Data Lineage ist ein entscheidendes Werkzeug, um die Zuverlässigkeit von Daten sicherzustellen. Dies wird insbesondere in Branchen eingesetzt, in denen wichtige Entscheidungen auf genauen Daten beruhen. Ohne geeignete Technologie und Prozesse kann die Verfolgung von Daten schwierig und ressourcenintensiv sein.

Es ermöglicht Unternehmen, den Datenstrom von beiden Endpunkten zu verfolgen, Datenkonsistenz und -genauigkeit sicherzustellen und letztendlich die Qualität der Entscheidungsfindung zu verbessern.

Ich hoffe, Sie fanden diesen Artikel hilfreich, um etwas über die Datenherkunft und die Techniken zu lernen. Sie könnten auch daran interessiert sein, etwas über die Besten zu erfahren Agentenlose Netzwerküberwachung Werkzeuge.

Danke an unsere Sponsoren
Weitere großartige Lektüre zum Thema Datenmanagement
Treiben Sie Ihr Geschäft an
Einige der Tools und Dienste, die Ihr Unternehmen beim Wachstum unterstützen.
  • Invicti verwendet das Proof-Based Scanning™, um die identifizierten Schwachstellen automatisch zu verifizieren und innerhalb weniger Stunden umsetzbare Ergebnisse zu generieren.
    Versuchen Sie es mit Invicti
  • Web-Scraping, Wohn-Proxy, Proxy-Manager, Web-Unlocker, Suchmaschinen-Crawler und alles, was Sie zum Sammeln von Webdaten benötigen.
    Versuchen Sie es mit Brightdata
  • Semrush ist eine All-in-One-Lösung für digitales Marketing mit mehr als 50 Tools in den Bereichen SEO, Social Media und Content-Marketing.
    Versuchen Sie es mit Semrush
  • Intruder ist ein Online-Schwachstellenscanner, der Cyber-Sicherheitslücken in Ihrer Infrastruktur findet, um kostspielige Datenschutzverletzungen zu vermeiden.
    MIT DER INTELLIGENTEN SCHADENKALKULATION VON Intruder