Amazon Glue gewinnt an Popularität, da viele Unternehmen damit begonnen haben, verwaltete Datenintegrationsdienste zu nutzen.
ETL ist ein Prozess, der Daten von einer Quelldatenbank in ein Data Warehouse überträgt. ETL ist komplex und aufgrund seiner Komplexität für alle Unternehmensdaten schwierig zu implementieren. Amazon vorgestellt AWS-Kleber um dieses Problem anzusprechen.
ETL-Entwickler und Dateningenieure verwenden Glue zum Erstellen, Überwachen und Ausführen ETL zum Arbeitsablauf
What is AWS Glue?
AWS Glue, ein serverloser Datenintegrationsdienst, erleichtert das Auffinden, Vorbereiten, Verschieben und Integrieren von Daten aus mehreren Quellen. Dies ist nützlich für Maschinelles Lernen (ML) und Analytik.
Es reduziert die Zeit, die für die Vorbereitung der Daten für die Analyse erforderlich ist, erheblich. Es findet und listet die Daten automatisch auf, generiert Scala- oder Python-Code, um die Daten von der Quelle zu übertragen, und lädt und transformiert den Job gemäß den zeitgesteuerten Ereignissen.
Dies ermöglicht eine flexible Terminplanung und schafft eine Apache Funken Umgebung, die für das gezielte Laden von Daten skaliert werden kann. Darüber hinaus bietet AWS Glue eine komplexe Datenstromüberwachung und -änderung. AWS Glue ist ein serverloser Service, der die komplizierten Vorgänge der Anwendungsentwicklung vereinfacht.
Es ermöglicht die schnelle Integration mehrerer gültiger Daten. Es zerlegt und autorisiert Daten auch schnell.
What is AWS Glue used for?
Es ist wichtig, die besten Orte für die Verwendung von Amazon Glue zu kennen. Dies sind nur einige Beispiele für die Verwendung von AWS Glue, die Sie in Betracht ziehen sollten.
- Amazon Glue ist ein Tool, mit dem Sie serverlose Abfragen auf der ausführen können Amazon S3 Datenseen.
- Amazon Glue ist ein großartiges Tool, um Ihnen den Einstieg zu erleichtern. Es macht alle Ihre Daten über eine Schnittstelle zugänglich, sodass Sie sie analysieren können, ohne sie verschieben zu müssen.
- Amazon Glue kann verwendet werden, um Ihre Datenbestände zu verstehen. Amazon Glue erleichtert Ihnen die Suche nach verschiedenen AWS-Datensätzen mithilfe des Datenkatalogs. Mit dem Datenkatalog können Sie auch Daten über mehrere AWS-Services hinweg speichern und haben dennoch eine konsistente Ansicht.
- Glue kann beim Erstellen von ereignisgesteuertem ETL hilfreich sein workflows. Sie können Ihre ETL-Operationen von Amazon S3 aus ausführen, indem Sie Ihre Glue-ETL-Aufgaben über einen AWS Lambda-Service aufrufen.
- AWS Glue kann auch zum Bereinigen, Verifizieren, Formatieren und Organisieren von Daten für die Speicherung in a verwendet werden Daten See oder Lager.
Components of AWS Glue
Nachfolgend sind die Hauptkomponenten von AWS Glue aufgeführt:
- Datenkatalog: Dieser Datenkatalog enthält Metadaten und die Datenstruktur.
- Datenbank: Dies ist der Schlüssel für den Zugriff auf und die Erstellung der Datenbank für Quellen und Ziele.
- Table: Erstellen Sie eine oder mehrere Tabellen in der Datenbank, die sowohl vom Ziel als auch von der Quelle verwendet werden können.
- Crawler und Klassifikator: Der Crawler ruft Daten aus der Quelle ab, indem er entweder integrierte oder benutzerdefinierte Klassifizierungen verwendet. Es erstellt/verwendet vordefinierte Metadatentabellen im Datenkatalog.
- Arbeit: Dies ist die Aufgabe der Geschäftslogik, um eine ETL-Aufgabe auszuführen. Diese Geschäftslogik wird intern von Apache Spark unter Verwendung von Python- und Scala-Sprachen geschrieben.
- Trigger: Ein ETL-Trigger ist ein Gerät, das die Ausführung eines ETL-Jobs bei Bedarf oder zu einem bestimmten Zeitpunkt initiiert.
- Endpunkt für die Entwicklung: Dadurch wird eine Umgebung geschaffen, in der das ETL-Jobskript getestet, entwickelt und debuggt wird.
Vorteile von AWS Glue
Dies sind die Vorteile der Verwendung an Ihrem Arbeitsplatz oder innerhalb einer Organisation.
- AWS Glue scannt alle verfügbaren Daten mit einem Crawler.
- Endgültig verarbeitete Daten können an vielen Stellen gespeichert werden (Amazon RDS und Amazon Redshift, Amazon S3, etc.
- Es ist ein Cloud-basierter Dienst. Es besteht keine Notwendigkeit, Geld für Infrastrukturen vor Ort auszugeben.
- Da es sich um ein serverloses ETL handelt, ist es eine kostengünstige Wahl.
- Es ist schnell. Es gibt Ihnen sofort den Python/Scala ETL-Code.
Top Features of AWS Glue
Amazon Glue verfügt über alle Funktionen, die Sie zum Integrieren von Daten benötigen, damit Sie bessere Einblicke erhalten und Ihr Wissen nutzen können, um innerhalb von Minuten statt Monaten neue Fortschritte zu erzielen. Hier sind einige der Funktionen, die Sie kennen sollten.
- Drag & Drop-Oberfläche: Mit einem Drag-and-Drop-Job-Editor können Sie einen ETL-Prozess erstellen. AWS Glue erstellt sofort den Code, der zum Extrahieren, Konvertieren und Hochladen der Daten erforderlich ist.
- Automatische Schemaerkennung: Um Crawler zu erstellen, die eine Verbindung zu verschiedenen Datenquellen herstellen, können Sie den Glue-Dienst verwenden. Es organisiert Daten und extrahiert relevante Informationen. Diese Daten können dann verwendet werden, um ETL-Prozesse durch ETL-Tasks zu überwachen.
- Arbeit planen: Klebstoff kann entweder nach Bedarf oder nach einem festgelegten Zeitplan verwendet werden. Der Scheduler kann verwendet werden, um komplexe ETL-Pipelines zu erstellen und Abhängigkeiten zwischen Aufgaben herzustellen.
- Codegenerierung: Mit Glue Elastic Views können Sie ganz einfach materialisierte Ansichten erstellen, die Daten aus verschiedenen Datenquellen kombinieren und replizieren, ohne proprietären Code schreiben zu müssen.
- Integriertes maschinelles Lernen: Glue verfügt über eine integrierte Funktion für maschinelles Lernen namens „FindMatches“. Es dedupliziert Datensätze, die keine perfekten Kopien voneinander sind.
- Entwicklerendpunkte: Wenn Sie Ihren ETL-Code aktiv entwickeln möchten, bietet Glue Entwicklerendpunkte, mit denen Sie den erstellten Code ändern, debuggen und testen können.
- Kleber DataBrew: Es ist ein Datenvorbereitungstool, das von Datenanalysten und Datenwissenschaftlern verwendet werden kann, um sie beim Bereinigen und Normalisieren von Daten zu unterstützen. Es verwendet die aktive und visuelle Schnittstelle von Glue DataBrew.
How Does AWS Glue Pricing work?
AWS Kleberladungen eine Stundengebühr, die für Crawler (Auffinden der Daten) und ETL-Jobs (Verarbeiten und Laden der Daten) pro Sekunde abgerechnet wird. Für den Zugriff auf und das Speichern von Metadaten im AWS Glue-Datenkatalog wird eine einfache monatliche Gebühr erhoben.
Amazon Glue beginnt bei 0.44 $. Sie können aus vier Plänen wählen:
- ETL-Aufgaben, Entwicklungsendpunkte und andere ETL-Aufgaben sind für 0.44 $ erhältlich
- Crawlers Interactive Sessions sind für 0.44 $ erhältlich
- DataBrew-Jobs beginnen bei 0.48 $
- Monatliche Speicherung und Anfragen an den Data Catalog kosten 1.00 $
AWS bietet keinen kostenlosen Glue-Plan an. Jede Stunde kostet 0.44 $ pro DPU. Im Durchschnitt würde es Sie 21 $ pro Tag kosten. Die Preise können je nach Wohnort variieren.
Steps to Set up AWS Glue
Der Datenkatalog kann verwendet werden, um mehrere AWS-Datensätze schnell zu finden und zu durchsuchen, ohne die Daten verschieben zu müssen. Nachdem die Daten katalogisiert wurden, stehen sie sofort für Abfragen und Suchen mit Amazon Athena und Amazon EMR zur Verfügung.

- Amazon Redshift, Amazon S3, Amazon RDSund Datenbanken auf Amazon EC2 – Entdecken Sie Ihre Daten, speichern Sie Metadaten und verwenden Sie den AWS Glue-Datenkatalog, um sie zu entdecken
- AWS Glue-Datenkatalog – Verwalten Sie Daten mit dem Datenkatalog, der als zentrales Repository für Metadaten fungiert
- AWS Glue ETL – Lesen und schreiben Sie Metadaten in Ihren Datenkatalog
- Amazon Athena und Amazon Redshift, Amazon EMR, Amazon ETL – Holen Sie sich den Datenkatalog für ETL, Analysen und mehr.
- Amazon QuickSight – Führen Sie Berichte mit Amazon QuickSight und anderen aus Business Intelligence Werkzeuge
How to Setup AWS Glue?
Melden Sie sich zunächst bei der AWS Management Console an und öffnen Sie die IAM-Konsole. Klicken Sie auf Rolle erstellen. Dann für Rolle Geben Sie ein, suchen Sie Kleber und wählen Sie aus Berechtigungen.
Ich wähle AWSGlueServiceRole für allgemeine AWS Glue Studio- und AWS Glue-Berechtigungen und die von AWS verwaltete Richtlinie AmazonS3FullAccess für den Zugriff auf Amazon S3-Ressourcen.

Geben Sie einen Rollennamen ein.

Klicken Sie auf Rolle erstellen.

Erstellen Sie einen Amazon S3-Bucket.


Erstellen Sie einen Ordner im S3-Bucket.

Wählen Sie die hochzuladende Datei aus.

Laden Sie abschließend die Datei in den Bucket hoch.

Öffnen Sie als Nächstes AWS Glue über die AWS-Verwaltungskonsole und erstellen Sie eine Datenbank.

Nachdem Sie nun eine Datenbank in AWS Glue haben, erstellen Sie einen Crawler.

Wählen Sie in der Datenquelle den von Ihnen erstellten S3-Bucket aus.

Wählen Sie als Nächstes die IaM-Rolle für AWS Glue aus, die Sie zu Beginn erstellt haben.

Wählen Sie schließlich in der Ausgabe aus gluedb
du hast geschaffen.

Überprüfen Sie alle Einstellungen und erstellen Sie den Crawler.

Sobald der Crawler erstellt ist, wählen Sie ihn aus und klicken Sie auf Ausführen. Nach einiger Zeit erhalten Sie den Status bereit.

Durch Ausführen des Crawlers erhält die Datenbank eine Tabelle mit allen Daten aus der CSV-Datei.

Wenn Sie auf Daten anzeigen klicken, werden Sie zu Amazon Athena (Abfrage-Editor) weitergeleitet. Wenn Sie die Abfrage ausführen, können Sie die Tabellendaten sehen.

Jetzt können Sie diesen AWS Glue-Crawler erfolgreich in jedem ETL-Job verwenden.
What is AWS Glue Databrew?
AWS Glue DataBrew ermöglicht es Benutzern, Daten zu normalisieren und zu bereinigen, ohne Code schreiben zu müssen. DataBrew kann den Zeitaufwand für die Vorbereitung von Daten für maschinelles Lernen und Analysen um bis zu 80 Prozent im Vergleich zu einer kundenspezifisch entwickelten Datenvorbereitung reduzieren.
Es gibt über 250 vorgefertigte Datentransformationen, die verwendet werden können, um Datenvorbereitungsaufgaben wie das Herausfiltern von Anomalien, das Korrigieren ungültiger Werte und das Konvertieren von Daten in Standardformate zu automatisieren.
DataBrew erleichtert Datenwissenschaftlern, Geschäftsanalysten und Ingenieuren die Zusammenarbeit bei der Gewinnung von Erkenntnissen aus Rohdaten. DataBrew ist serverlos, sodass Sie keine Infrastruktur verwalten oder Cluster erstellen müssen, um Rohdaten im Wert von Terabytes zu untersuchen und umzuwandeln.
DataBrew-Funktionen für Unternehmen
Visualisierte Datenaufbereitung
DataBrew ist eine andere Möglichkeit, Daten anzuzeigen, die normalerweise in spaltenorientierten Datenbanken als alphanumerische Zahlen angezeigt werden. DataBrew visualisiert alle geladenen Datenquellen, um Ihnen zu helfen, die Datenbeziehungen und -hierarchie zu verstehen.
Über 250 Datenvorbereitungsautomatisierungen
Von Datenwissenschaftlern wird erwartet, dass sie einer Vielzahl von wiederholbaren, isolierten folgen workflows als Teil ihrer Arbeit. Diese workflows und Prozesse wurden von AWS als sprach- und datenunabhängige Modulmodule modelliert. Diese Bibliothek enthält Aktionen, die von Endbenutzern verwendet werden können.
Datenherkunft
Ähnlich wie Prüfprotokolle, die verwendet werden, um Kundenaktivitäten im IT-Netzwerk eines IT-Netzwerks zu verfolgen, ermöglicht Ihnen die Datenherkunft, die Datentransformationsaktivitäten innerhalb von AWS DataBrew zu verfolgen. Diese Informationen umfassen die Datenquelle, die angewendeten Transformationen und die Datenausgabe, einschließlich des Zielspeicherorts.
Datenzuordnung
Mit Databrew können Sie übereinstimmende Felder in zwei Datenquellen finden. Sobald übereinstimmende Felder identifiziert wurden, können sie in ein Schema geladen werden.
AWS Glue DataBrew: Vorteile
Nachfolgend sind die Funktionen von AWS Glue DataBrew aufgeführt:
- Niedrigere Eintrittsbarriere für die Datenaufbereitung
- Automatisierte Datenprofilerstellung
- Automatisieren Sie mehr als 250 Datenvorbereitungsprozesse
- Intelligente Verordnungsvorschläge
Alternatives to AWS Glue
Airflow

Airflow gehört zum Workflow-Manager-Abschnitt eines Tech-Stacks. Es ist ein Open-Source-Tool, das GitHub-Stars, GitHub-Forks und andere Funktionen unterstützt. Mit Airflow können Sie erstellen workflows unter Verwendung gerichteter azyklischer Diagramme (DAGs). Der Airflow-Scheduler führt Ihre Aufgaben mit einer Reihe von Workern aus und folgt den angegebenen Abhängigkeiten.
Millionen

Matillion ETL, ein ETL/ELT-Tool, wurde explizit für Cloud-Datenbankplattformen wie Amazon Redshift und Google BigQuery entwickelt. Es ist eine moderne browserbasierte Benutzeroberfläche mit leistungsstarken Pushdown-ETL/ELT-Funktionen. Mit einer schnellen Einrichtung können Sie in wenigen Minuten einsatzbereit sein.
Stich
Stich ist ein Open-Source-ETL-Dienst, der mehrere Datenquellen verbindet und Daten an bevorzugte Ziele repliziert. Es ist sehr einfach zu bedienen, da Sie keine Programmierkenntnisse benötigen, um Daten zwischen Quellen und Zielen in Stitch zu verschieben. Es ist einfach zu bedienen, hat eine benutzerfreundliche GUI und ist schnell.
Im Gegensatz zu anderen ETL-Tools können Sie bei Stitch kein vorgefertigtes Dashboard auswählen. Stattdessen müssen Sie Ihre Daten in die offenen Data Warehouses integrieren, die Sie als Ziel auswählen. Es kann schwierig sein, in den Inventaren zu navigieren.
Alteryx

Alteryx ist eine Analytics-Automatisierungsplattform, die bei der Vorbereitung und Zusammenführung der Datenerfassung hilft. Diese Daten können verwendet werden, um Prozesse zu beschleunigen und Geschäftseinblicke zu liefern. Da es sich um ein Drag-and-Drop-Tool handelt, benötigen Sie keinerlei Programmierkenntnisse. Alteryx ist eine großartige Anlaufstelle für Ratschläge und Antworten von Branchenexperten.
Fazit
Das war also alles über AWS Glue, eine Cloud-basierte Lösung, mit der Sie mit ETL-Pipelines arbeiten können. Zusammenfassend besteht der Benutzerinteraktionsprozess von AWS Glue aus drei Phasen. Um einen Datenkatalog zu erstellen, verwenden Sie zunächst Daten-Crawler. Als Nächstes erstellen Sie den für die AWS-Datenpipeline erforderlichen ETL-Code. Abschließend wird dann der ETL-Zeitplan erstellt. Ich hoffe, dieser Blog hat Ihnen einen guten Überblick über Amazon Glue gegeben.
Sie können auch die besten Tipps zum Sichern erkunden AWS S3-Speicher.