In Cloud Computing Letztes Updateated:
Teilen:
Cloudways bietet verwaltetes Cloud-Hosting für Unternehmen jeder Größe zum Hosten einer Website oder komplexer Webanwendungen.

Amazon Glue gewinnt an Popularität, da viele Unternehmen damit begonnen haben, verwaltete Datenintegrationsdienste zu nutzen.

ETL ist ein process das Daten von einer Quelldatenbank an ein Data Warehouse überträgt. ETL ist komplex und für alle Unternehmen schwer zu implementierenrise Daten aufgrund ihrer Komplexität. Amazon vorgestellt AWS-Kleber um dieses Problem anzusprechen.

ETL developers and data engineers use Glue to build, monitor, und Renn ETL zum Arbeitsablauf

Was ist AWS Glue?

AWS-Kleber, ein serverloser Datenintegrationsdienst, erleichtert das Auffinden, Vorbereiten, Verschieben und Integrierenate Daten aus mehreren Quellen. Dies ist nützlich für Maschinelles Lernen (ML) und Analytik.

Es ist dramatischally reduziert den Zeitaufwand für die Vorbereitung der Daten für die Analyse. Es ist automatischally findet und listet die Daten auf, geneates Scala- oder Python-Code, um die Daten von der Quelle zu übertragen und den Job entsprechend den zeitgesteuerten Ereignissen zu laden und umzuwandeln.

Dies ermöglicht eine flexible Planung und Erstellungates an Apache Funken environment that can be scaled for targeted data loading. In addition, AWS Glue provides complex data stream monitoring and alteration. AWS Glue is a serverless service that simplifies application development’s complicated Operationen.

Es ermöglicht die schnelle Integration mehrerer gültiger Daten. Es zerlegt und autorisiert Daten auch schnell.

Wofür wird AWS Glue verwendet?

Es ist wichtig, die besten Orte für die Verwendung von Amazon Glue zu kennen. Dies sind nur einige Beispiele für die Verwendung von AWS Glue, die Sie in Betracht ziehen sollten.

  • Amazon Glue ist ein Tool, mit dem Sie serverlose Abfragen auf der ausführen können Amazon S3 Datenseen.
  • Amazon Glue ist ein großartiges Tool, um Ihnen den Einstieg zu erleichtern. Es macht alle Ihre Daten über eine Schnittstelle zugänglich, sodass Sie sie analysieren können, ohne sie verschieben zu müssen.
  • Amazon Glue kann verwendet werden, um Ihre Datenbestände zu verstehen. Amazon Glue erleichtert Ihnen die Suche nach verschiedenen AWS-Datensätzen mithilfe des Datenkatalogs. Mit dem Datenkatalog können Sie auch Daten über mehrere AWS-Services hinweg speichern und haben dennoch eine konsistente Ansicht.
  • Glue kann beim Erstellen von ereignisgesteuertem ETL hilfreich sein workflows. Sie können Ihre ETL-Operationen von Amazon S3 aus ausführen, indem Sie Ihre Glue-ETL-Aufgaben über einen AWS Lambda-Service aufrufen.
  • AWS Glue kann auch zum Bereinigen, Verifizieren, Formatieren und Organisieren von Daten für die Speicherung in a verwendet werden Daten See oder Lager.

Komponenten von AWS Glue

Nachfolgend sind die Hauptkomponenten von AWS Glue aufgeführt:

  • Datenkatalog: Dieser Datenkatalog enthält Metadaten und die Datenstruktur.
  • Datenbank: Dies ist der Schlüssel für den Zugriff auf und die Erstellung der Datenbank für Quellen und Ziele.
  • Table: Create one or several tables in the database that are usable by both the target and the source.
  • Crawler und Klassifikator: Der Crawler ruft Daten aus der Quelle ab, indem er entweder integrierte oder benutzerdefinierte Klassifizierungen verwendet. Es ist soates/verwendet vordefinierte Metadatentabellen im Datenkatalog.
  • Arbeit: This is the job of business logic to perform an ETL task. This business logic is written internally by Apache Spark using python and scala languages.
  • Trigger: Ein ETL-Trigger ist ein Gerät, das initiiertateist die Ausführung eines ETL-Jobs bei Bedarf oder zu einem bestimmten Zeitpunkt.
  • Endpunkt für die Entwicklung: Diese CreateEs handelt sich um eine Umgebung, in der das ETL-Jobskript getestet, entwickelt und debuggt wird.

Vorteile von AWS Glue

These are the benefits of using it in your workplace or within an organization.

  • AWS Glue scannt alle verfügbaren Daten mit einem Crawler.
  • Ende processEd-Daten können an vielen Orten gespeichert werden (Amazon RDS und Amazon Redshift, Amazon S3 usw.).
  • Es ist ein Cloud-basierter Dienst. Es besteht keine Notwendigkeit, Geld für Infrastrukturen vor Ort auszugeben.
  • Da es sich um ein serverloses ETL handelt, ist es eine kostengünstige Wahl.
  • Es ist schnell. Es sofortatestellt Ihnen einfach den Python/Scala-ETL-Code zur Verfügung.

Top-Features von AWS Glue

Amazon Glue verfügt über alle Funktionen, die Sie zur Integration benötigenate Daten, damit Sie bessere Einblicke erhalten und Ihr Wissen nutzen können, um innerhalb von Minuten statt Monaten neue Fortschritte zu erzielen. Hier sind einige der Funktionen, die Sie kennen sollten.

  • Drag & Drop-Oberfläche: Ein Drag-and-Drop-Auftragseditor ermöglicht Ihnen die Erstellungate ein ETL process. AWS Glue wird sofort verfügbar seinately build the code needed to extract, convert and upload the data.
  • Automatische Schemaerkennung: Create crawlers that connect to different data sources, you can use the Glue service. It organizes data and extracts relevant information. These data can then be used to monitor ETL processes durch ETL-Aufgaben.
  • Arbeit planen: Klebstoff kann entweder nach Bedarf oder nach einem festgelegten Zeitplan verwendet werden. Der Scheduler kann verwendet werden, um komplexe ETL-Pipelines zu erstellen und Abhängigkeiten zwischen Aufgaben herzustellen.
  • Codegenerierung: Mit dem Kleber Elastic Views können Sie ganz einfach Kreierenate materialisierte Ansichten, die kombinieren und replizierenate Daten aus verschiedenen Datenquellen, ohne proprietären Code schreiben zu müssen.
  • Integriertes maschinelles Lernen: Glue verfügt über eine integrierte Funktion für maschinelles Lernen namens „FindMatches“. Es dedupliziertates-Platten, die keine perfekten Kopien voneinander sind.
  • Entwicklerendpunkte: Wenn Sie Ihren ETL-Code aktiv entwickeln möchten, stellt Glue Entwicklerendpunkte bereit, mit denen Sie den erstellten Code ändern, debuggen und testen könnenates.
  • Kleber DataBrew: Es ist ein Datenvorbereitungstool, das von Datenanalysten und Datenwissenschaftlern verwendet werden kann, um sie beim Bereinigen und Normalisieren von Daten zu unterstützen. Es verwendet die aktive und visuelle Schnittstelle von Glue DataBrew.

Wie funktioniert die AWS Glue-Preisgestaltung?

AWS Kleberladungen eine stündliche Gebühr, die pro Sekunde für Crawler (Erkennung der Daten) und ETL-Jobs (process(Einlesen und Laden der Daten). Für den Zugriff auf und die Speicherung von Metadaten im AWS Glue Data Catalog wird eine einfache monatliche Gebühr erhoben.

Amazon Glue beginnt bei 0.44 $. Sie können aus vier Plänen wählen:

  • ETL-Aufgaben, Entwicklungsendpunkte und andere ETL-Aufgaben sind für 0.44 $ erhältlich
  • Crawlers Interactive Sessions sind für 0.44 $ erhältlich
  • DataBrew-Jobs beginnen bei 0.48 $
  • Monatliche Speicherung und Anfragen an den Data Catalog kosten 1.00 $

AWS bietet keinen kostenlosen Glue-Plan an. Jede Stunde kostet 0.44 $ pro DPU. Im Durchschnitt würde es Sie 21 $ pro Tag kosten. Die Preise können je nach Wohnort variieren.

Schritte zum Einrichten von AWS Glue

Mit dem Datenkatalog können Sie schnell mehrere AWS-Datensätze finden und durchsuchen, ohne die Daten verschieben zu müssen. Nachdem die Daten katalogisiert wurden, sind sie sofort verfügbarateVerfügbar für Abfragen und Suchen mit Amazon Athena und Amazon EMR.

  • Amazon Redshift, Amazon S3, Amazon RDS, and Databases on Amazon EC2 – Discover your data, store metadata, and use the AWS Glue Data Catalog to discover them
  • AWS Glue-Datenkatalog – Verwalten Sie Daten mit dem Datenkatalog, der als zentrales Repository für Metadaten fungiert
  • AWS Glue ETL – Lesen und schreiben Sie Metadaten in Ihren Datenkatalog
  • Amazon Athena und Amazon Redshift, Amazon EMR, Amazon ETL – Holen Sie sich den Datenkatalog für ETL, Analysen und mehr.
  • Amazon QuickSight – Führen Sie Berichte mit Amazon QuickSight und anderen aus Business Intelligence Werkzeuge

Wie richte ich AWS Glue ein?

Melden Sie sich zunächst bei der AWS Management Console an und öffnen Sie die IAM-Konsole. Klicken Sie auf Create Rolle. Dann für Rolle Geben Sie ein, suchen Sie Kleber und wählen Sie aus Berechtigungen.

Ich wähle AWSGlueServiceRole für allgemeine AWS Glue Studio- und AWS Glue-Berechtigungen und die von AWS verwaltete Richtlinie AmazonS3FullAccess für den Zugriff auf Amazon S3-Ressourcen.

Geben Sie einen Rollennamen ein.

Klicken Sie auf Create Rolle.

Create ein Amazon S3-Bucket.

Create ein Ordner im S3-Bucket.

Wählen Sie die hochzuladende Datei aus.

Finally, laden Sie die Datei in den Bucket hoch.

Öffnen Sie als Nächstes AWS Glue über die AWS-Verwaltungskonsole und erstellen Sie esate eine Datenbank.

Da Sie nun eine Datenbank in AWS Glue haben, erstellen Sieate ein Crawler.

Wählen Sie in der Datenquelle den S3-Bucket aus, den Sie erstellenated.

Wählen Sie als Nächstes die IaM-Rolle für AWS Glue aus, die Sie erstellenated am Anfang.

FinallyWählen Sie in der Ausgabe aus gluedb Du bist Created.

RevAlle Einstellungen anzeigen und erstellenate der Crawler.

Sobald der Crawler erstellt istated, wählen Sie es aus und klicken Sie auf Ausführen. Nach einiger Zeit erhalten Sie den Status „Ready“.

Durch Ausführen des Crawlers erhält die Datenbank eine Tabelle mit allen Daten aus der CSV-Datei.

Wenn Sie auf Daten anzeigen klicken, werden Sie zu Amazon Athena (Abfrage-Editor) weitergeleitet. Wenn Sie die Abfrage ausführen, können Sie die Tabellendaten sehen.

Jetzt können Sie diesen AWS Glue-Crawler erfolgreich in jedem ETL-Job verwenden.

Was ist AWS Glue Databrew?

AWS Glue Data Brew ermöglicht es Benutzern, Daten zu normalisieren und zu bereinigen, ohne Code schreiben zu müssen. DataBrew kann den Zeitaufwand für die Vorbereitung von Daten für maschinelles Lernen und Analysen um bis zu 80 Prozent im Vergleich zu einer kundenspezifisch entwickelten Datenvorbereitung reduzieren.

Es gibt über 250 vorgefertigte Datentransformationen, die zur Automatisierung verwendet werden könnenate Datenvorbereitungsaufgaben wie das Herausfiltern von Anomalien, das Korrigieren ungültiger Werte und das Konvertieren von Daten in Standardformate.

DataBrew erleichtert Datenwissenschaftlern, Geschäftsanalysten und Ingenieuren die Zusammenarbeitate on extracting insights from raw data. DataBrew is serverless, so you don’t need to manage infrastructure or create Cluster zur Erkundung und Umwandlung von Rohdaten im Terabyte-Bereich.

DataBrew-Funktionen für Unternehmenrises

Visualisierte Datenaufbereitung

DataBrew ist eine andere Möglichkeit, typische Daten anzuzeigenally werden in spaltenbasierten Datenbanken als alphanumerische Zahlen angezeigt. DataBrew visualisiert alle geladenen Datenquellen, um Ihnen das Verständnis der Datenbeziehungen und -hierarchie zu erleichtern.

Über 250 Datenvorbereitungsautomatisierungen

Von Datenwissenschaftlern wird erwartet, dass sie einer Vielzahl wiederholbarer, isolierter Methoden folgenated workflows als Teil ihrer Arbeit. Diese workflows und processEs wurden von AWS als sprach- und datenagnostische Modulmodule modelliert. Diese Bibliothek enthält Aktionen, die von Endbenutzern verwendet werden können.

Datenherkunft

Ähnlich wie Prüfprotokolle, die verwendet werden, um Kundenaktivitäten im IT-Netzwerk eines IT-Netzwerks zu verfolgen, ermöglicht Ihnen die Datenherkunft, die Datentransformationsaktivitäten innerhalb von AWS DataBrew zu verfolgen. Diese Informationen umfassen die Datenquelle, die angewendeten Transformationen und die Datenausgabe, einschließlich des Zielspeicherorts.

Datenzuordnung

Mit Databrew können Sie übereinstimmende Felder in zwei Datenquellen finden. Sobald übereinstimmende Felder identifiziert wurden, können sie in ein Schema geladen werden.

AWS Glue DataBrew: Vorteile

Nachfolgend sind die Funktionen von AWS Glue DataBrew aufgeführt:

  • Niedrigere Eintrittsbarriere für die Datenaufbereitung
  • mit dem Autoated Data Profidie Generation
  • mit dem Autoate Über 250 Datenvorbereitung processes
  • Intelligente Verordnungsvorschläge

Alternativen zu AWS Glue

Airflow

Airflow gehört zum Workflow-Manager-Bereich eines Tech-Stacks. Es handelt sich um ein Open-Source-Tool, das GitHub-Stars, GitHub-Forks und andere Funktionen unterstützt. Der Luftstrom ermöglicht Ihnen Creationate workflows unter Verwendung gerichteter azyklischer Diagramme (DAGs). Der Airflow-Scheduler führt Ihre Aufgaben mit einer Reihe von Workern aus und folgt den angegebenen Abhängigkeiten.

Millionen

Matillion ETL, an ETL/ELT tool, was designed explicitly for cloud databases platforms such as Amazon Redshift and Google BigQuery. It’s a modern browser-based UI with powerful push-down ETL/ELT capabilities. You can be up and running in minutes with a quick setup.

Stich

Stich ist ein Open-Source-ETL-Dienst, der mehrere Datenquellen und Replikate verbindetates-Daten an bevorzugte Ziele. Die Verwendung ist sehr einfach, da Sie keine Programmierkenntnisse benötigen, um Daten zwischen Quellen und Zielen in Stitch zu verschieben. Es ist einfach zu bedienen, verfügt über eine benutzerfreundliche Benutzeroberfläche und ist schnell.

Im Gegensatz zu anderen ETL-Tools können Sie bei Stitch kein vorgefertigtes Dashboard auswählen. Stattdessen müssen Sie integrierenate Ihre Daten in die offenen Data Warehouses, die Sie als Ziel auswählen. Die Navigation kann schwierig seinate die Vorräte.

Alteryx

Alteryx is an analytics automation platform that assists with data collection preparation and blending. This data can be used to speed up processes und bieten Geschäftseinblicke. Da es sich um ein Drag-and-Drop-Tool handelt, sind keine Programmierkenntnisse erforderlich. Alteryx ist eine großartige Anlaufstelle für Ratschläge und Antworten von Branchenexperten.

Schlussfolgerung

Das war also alles über AWS Glue, eine cloudbasierte Lösung, die Ihnen die Arbeit mit ETL-Pipelines ermöglicht. Zusammenfassend: die AWS Glue-Benutzerinteraktion process ist komprised aus drei Phasen. Create Um einen Datenkatalog zu erstellen, verwenden Sie zunächst Datencrawler. Als nächstes erstellen Sieate der für die AWS-Datenpipeline erforderliche ETL-Code. Flosseally, der ETL-Zeitplan ist dann createD. Ich hoffe, dieser Blog hat Ihnen einen guten Überblick über Amazon Glue gegeben.

Sie können auch die besten Tipps zum Sichern erkunden AWS S3-Speicher.

Teilen:
  • Avi
    Autor
    Avi ist ein Technik-Enthusiast mit Fachkenntnissen in Trendtechnologien wie DevOps, Cloud Computing, Big Data und vielen mehr. Er ist Leidenschaftate über das Erlernen modernster Technologien und das Teilen seines Wissens mit anderen durch…

Danke an unsere Sponsoren

Weitere großartige Lektüren zum Thema Cloud Computing

Treiben Sie Ihr Geschäft an

Einige der Tools und Services, die Ihrem Unternehmen helfen grow.