English English French French Spanish Spanish German German
Geekflare est soutenu par notre public. Nous pouvons gagner des commissions d'affiliation en achetant des liens sur ce site.
Partager sur:

Ce que vous ne saviez pas sur AWS Glue

AWS-Glue
Scanner de sécurité des applications Web Invicti – la seule solution qui offre une vérification automatique des vulnérabilités avec Proof-Based Scanning™.

Amazon Glue gagne en popularité car de nombreuses entreprises ont commencé à utiliser des services d'intégration de données gérées.

ETL est un processus qui transfère des données d'une base de données source vers un entrepôt de données. L'ETL est complexe et difficile à mettre en œuvre pour toutes les données d'entreprise en raison de sa complexité. Amazon a présenté Colle AWS Pour résoudre ce problème.

Les développeurs ETL et les ingénieurs de données utilisent Glue pour créer, surveiller et exécuter ETL workflows.

What is AWS Glue?

AWS Glue, un service d'intégration de données sans serveur, facilite la recherche, la préparation, le déplacement et l'intégration de données provenant de plusieurs sources. Ceci est utile pour machine learning (ML) et analytique.

Cela réduit considérablement le temps nécessaire à la préparation des données pour l'analyse. Il trouve et répertorie automatiquement les données, génère du code Scala ou Python pour transmettre les données depuis la source, et charge et transforme le travail en fonction des événements chronométrés.

Cela permet une planification flexible et crée un Apache Spark environnement qui peut être mis à l'échelle pour un chargement de données ciblé. De plus, AWS Glue fournit une surveillance et une modification complexes des flux de données. AWS Glue est un service sans serveur qui simplifie les opérations complexes de développement d'applications.

Il permet l'intégration rapide de plusieurs données valides. Il décompose et autorise également les données rapidement.

What is AWS Glue used for?

Il est important de connaître les meilleurs endroits pour utiliser Amazon Glue. Ce ne sont là que quelques exemples d'utilisations d'AWS Glue que vous devriez envisager.

  • Amazon Glue est un outil qui vous permet d'exécuter des requêtes sans serveur sur le Amazon S3 lacs de données.
  • Amazon Glue est un excellent outil pour vous aider à démarrer. Il rend toutes vos données accessibles sur une seule interface, vous permettant de les analyser sans avoir à les déplacer.
  • Amazon Glue peut être utilisé pour comprendre vos actifs de données. Amazon Glue vous permet de rechercher facilement différents ensembles de données AWS à l'aide du catalogue de données. Vous pouvez également enregistrer des données sur plusieurs services AWS à l'aide du catalogue de données tout en conservant une vue cohérente.
  • Glue peut être utile lors de la création d'ETL événementiel workflows. Vous pouvez exécuter vos opérations ETL à partir d'Amazon S3 en appelant vos tâches ETL Glue via un service AWS Lambda.
  • AWS Glue peut également être utilisé pour nettoyer, vérifier, formater et organiser les données en vue de leur stockage dans un lac de données ou entrepôt.

Components of AWS Glue

Vous trouverez ci-dessous les principaux composants d'AWS Glue :

  • Catalogue de données : Ce catalogue de données contient les métadonnées et la structure des données.
  • Base de données: C'est la clé pour accéder et créer la base de données pour les sources et les cibles.
  • Tableau: Créez une ou plusieurs tables dans la base de données utilisables à la fois par la cible et la source.
  • Crawler et classificateur : Le robot récupère les données de la source à l'aide de classifications intégrées ou personnalisées. Il crée/utilise des tables de métadonnées prédéfinies dans le catalogue de données.
  • Job: C'est le travail de la logique métier pour effectuer une tâche ETL. Cette logique métier est écrite en interne par Apache Spark à l'aide des langages python et scala.
  • Trigger: Un déclencheur ETL est un dispositif qui lance l'exécution d'une tâche ETL à la demande ou à un moment donné.
  • Point final pour le développement : Cela crée un environnement dans lequel le script de travail ETL est testé, développé et débogué.

Avantages d'AWS Glue

Ce sont les avantages de l'utiliser sur votre lieu de travail ou au sein d'une organisation.

  • AWS Glue analyse toutes les données disponibles avec un analyseur.
  • Les données traitées finales peuvent être stockées dans de nombreux endroits (Amazon RDS et Amazon Redshift, Amazon S3, etc.
  • Il s'agit d'un service basé sur le cloud. Il n'est pas nécessaire de dépenser de l'argent pour des infrastructures sur site.
  • Parce qu'il s'agit d'un ETL sans serveur, c'est un choix rentable.
  • C'est rapide. Il vous donne immédiatement le code ETL Python/Scala.

Top Features of AWS Glue

Amazon Glue possède toutes les fonctionnalités dont vous avez besoin pour intégrer des données afin que vous puissiez obtenir de meilleures informations et utiliser vos connaissances pour faire de nouvelles avancées en quelques minutes au lieu de plusieurs mois. Voici quelques-unes des fonctionnalités que vous devez connaître.

  • Interface glisser-déposer: Un éditeur de travail par glisser-déposer vous permet de créer un processus ETL. AWS Glue créera immédiatement le code nécessaire pour extraire, convertir et télécharger les données.
  • Découverte automatique du schéma : Pour créer des robots d'exploration qui se connectent à différentes sources de données, vous pouvez utiliser le service Glue. Il organise les données et extrait les informations pertinentes. Ces données peuvent ensuite être utilisées pour surveiller les processus ETL par des tâches ETL.
  • Planification des tâches : La colle peut être utilisée à la demande ou selon un horaire programmé. Le planificateur peut être utilisé pour créer des pipelines ETL complexes, établissant des dépendances entre les tâches.
  • Génération de code : Glue Elastic Views vous permet de créer facilement des vues matérialisées qui combinent et répliquent des données provenant de différentes sources de données sans avoir à écrire de code propriétaire.
  • Apprentissage automatique intégré : Glue est livré avec une fonctionnalité intégrée d'apprentissage automatique appelée "FindMatches". Il dédoublonne les enregistrements qui ne sont pas des copies parfaites les uns des autres.
  • Points de terminaison du développeur: Si vous souhaitez développer activement votre code ETL, Glue fournit des points de terminaison de développeur qui vous permettent de modifier, de déboguer et de tester le code qu'il crée.
  • Colle DataBrew : Il s'agit d'un outil de préparation des données qui peut être utilisé par les analystes de données et les scientifiques des données pour les aider à nettoyer et à normaliser les données. Il utilise l'interface active et visuelle de Glue DataBrew.

How Does AWS Glue Pricing work?

AWS Frais de colle un tarif horaire, qui est facturé à la seconde pour les crawlers (découverte des données) et les jobs ETL (traitement et chargement des données). Des frais mensuels simples sont facturés pour l'accès et le stockage des métadonnées dans le catalogue de données AWS Glue.

Amazon Glue commence à 0.44 $. Vous pouvez choisir parmi quatre forfaits :

  • Les tâches ETL, les points de terminaison de développement et d'autres tâches ETL sont disponibles à 0.44 $
  • Les sessions interactives des robots d'exploration sont disponibles à 0.44 $
  • Les travaux DataBrew commencent à 0.48 $
  • Le stockage mensuel et les demandes au catalogue de données coûtent 1.00 $

AWS ne propose pas de forfait Glue gratuit. Chaque heure coûtera 0.44 $ par DPU. En moyenne, cela vous coûterait 21 $ par jour. Les prix peuvent varier selon l'endroit où vous habitez.

Steps to Set up AWS Glue

Le catalogue de données peut être utilisé pour trouver et rechercher rapidement plusieurs ensembles de données AWS sans avoir à déplacer les données. Une fois les données cataloguées, elles sont immédiatement disponibles pour des requêtes et des recherches à l'aide d'Amazon Athena et d'Amazon EMR.

aws-colle
Réf : https://aws.amazon.com/glue/
  • Amazon Redshift, Amazon S3, Amazon RDSet Bases de données sur Amazon EC2 – Découvrez vos données, stockez les métadonnées et utilisez le catalogue de données AWS Glue pour les découvrir
  • Catalogue de données AWS Glue – Gérez les données avec le catalogue de données agissant comme un référentiel central pour les métadonnées
  • AWS Glue ETL – Lire et écrire des métadonnées dans votre catalogue de données
  • Amazon Athena et Amazon Redshift, Amazon EMR, Amazon ETL – Obtenez le catalogue de données pour l'ETL, l'analyse et plus encore.

How to Setup AWS Glue?

Tout d'abord, connectez-vous à AWS Management Console et ouvrez la console IAM. Cliquez sur Créer un rôle. Puis pour rôle tapez, recherchez Colle et sélectionnez Permissions.

je choisis AWSGlueServiceRoleAWSGlueServiceRoleAWSGlueServiceRoleAWSGlueServiceRoleAWSGlueServiceRole pour les autorisations générales AWS Glue Studio et AWS Glue et la stratégie gérée par AWS AmazonS3FullAccess pour l'accès aux ressources Amazon S3.

Entrez un nom de rôle.

Capture d'écran-2022-10-16-at-23.20.48

Cliquez sur Créer un rôle.

Capture d'écran-2022-10-16-at-23.21.14

Créez un compartiment Amazon S3.

Capture d'écran-2022-10-16-at-23.33.42
Capture d'écran-2022-10-16-at-23.34.36

Créez un dossier dans le compartiment S3.

Capture d'écran-2022-10-16-at-23.36.32

Choisissez le fichier à télécharger.

Capture d'écran-2022-10-16-at-23.37.06

Enfin, chargez le fichier dans le bucket.

Capture d'écran-2022-10-16-at-23.37.28

Ensuite, ouvrez AWS Glue à partir de la console de gestion AWS et créez une base de données.

Capture d'écran-2022-10-16-at-23.40.45

Maintenant que vous disposez d'une base de données dans AWS Glue, créez un analyseur.

Capture d'écran-2022-10-16-at-23.41.22

Dans la source de données, sélectionnez le compartiment S3 que vous avez créé.

Capture d'écran-2022-10-16-at-23.46.24

Ensuite, sélectionnez le rôle IaM pour AWS Glue que vous avez créé au début.

Capture d'écran-2022-10-16-at-23.46.50

Enfin, dans la sortie, sélectionnez gluedb vous avez créé.

Capture d'écran-2022-10-16-at-23.47.06

Passez en revue tous les paramètres et créez le robot d'exploration.

Capture d'écran-2022-10-16-at-23.49.23

Une fois le crawler créé, sélectionnez-le et cliquez sur Exécuter. Après un certain temps, vous obtiendrez le statut prêt.

Capture d'écran-2022-10-16-at-23.50.22

En exécutant le crawler, la base de données obtiendra un tableau avec toutes les données du fichier CSV.

Capture d'écran-2022-10-17-at-00.37.24

Lorsque vous cliquez sur afficher les données, vous serez redirigé vers Amazon Athena (éditeur de requête). Lorsque vous exécutez la requête, vous pouvez voir les données de la table.

Capture d'écran-2022-10-17-at-00.39.45

Vous pouvez désormais utiliser avec succès ce robot d'exploration AWS Glue dans n'importe quelle tâche ETL.

What is AWS Glue Databrew?

AWS Glue DataBrew permet aux utilisateurs de normaliser et de nettoyer les données sans écrire de code. DataBrew peut réduire jusqu'à 80 % le temps nécessaire à la préparation des données pour l'apprentissage automatique et l'analyse par rapport à la préparation des données développées sur mesure.

Il existe plus de 250 transformations de données prédéfinies qui peuvent être utilisées pour automatiser les tâches de préparation des données telles que le filtrage des anomalies, la correction des valeurs non valides et la conversion des données dans des formats standard.

DataBrew permet aux scientifiques des données, aux analystes commerciaux et aux ingénieurs de collaborer plus facilement pour extraire des informations à partir de données brutes. DataBrew est sans serveur, vous n'avez donc pas besoin de gérer l'infrastructure ou de créer des clusters pour explorer et transformer des téraoctets de données brutes.

Fonctionnalités DataBrew pour les entreprises

Préparation des données visualisées

DataBrew est une manière différente d'afficher les données qui sont généralement affichées dans les bases de données en colonnes sous forme de nombres alphanumériques. DataBrew visualise toutes les sources de données chargées pour vous aider à comprendre les relations et la hiérarchie des données.

Plus de 250 automatisations de préparation de données

Les scientifiques des données sont censés suivre une variété de tests reproductibles et isolés. workflows dans le cadre de leur travail. Ces workflows et les processus ont été modélisés par AWS en tant que modules de modules indépendants du langage et des données. Cette bibliothèque comprend des actions qui peuvent être utilisées par les utilisateurs finaux.

Lignée de données

Semblable aux journaux d'audit utilisés pour suivre l'activité des clients dans le réseau informatique d'un réseau informatique, le lignage des données vous permet de suivre les activités de transformation des données dans AWS DataBrew. Ces informations incluent la source de données, les transformations appliquées et la sortie de données, y compris l'emplacement cible.

Cartographie des données

Databrew vous permet de trouver des champs correspondants dans deux sources de données. Une fois les champs correspondants identifiés, ils peuvent être chargés dans un schéma.

AWS Glue DataBrew : avantages

Voici les fonctionnalités d'AWS Glue DataBrew :

  • Réduire la barrière à l'entrée pour la préparation des données
  • Génération automatisée de profils de données
  • Automatisez plus de 250 processus de préparation de données
  • Suggestions prescriptives intelligentes

Alternatives to AWS Glue

Débit d'air

Débit d'air

Débit d'air appartient à la section Workflow Manager d'une pile technologique. C'est un outil open source qui prend en charge les étoiles GitHub, les fourches GitHub et d'autres fonctionnalités. Airflow vous permet de créer workflows à l'aide de diagrammes acycliques dirigés (DAG). Le planificateur de flux d'air exécute vos tâches à l'aide d'un tableau de travailleurs et en suivant les dépendances spécifiées.

Million

Million

Matillion ETL, un outil ETL/ELT, a été conçu explicitement pour les plates-formes de bases de données cloud telles qu'Amazon Redshift et Google BigQuery. Il s'agit d'une interface utilisateur moderne basée sur un navigateur avec de puissantes capacités ETL/ELT push-down. Vous pouvez être opérationnel en quelques minutes avec une configuration rapide.

point

point est un service ETL open source qui connecte plusieurs sources de données et réplique les données vers les destinations préférées. Il est très facile à utiliser, car vous n'avez besoin d'aucune connaissance en codage pour déplacer des données entre les sources et les destinations dans Stitch. Il est facile à utiliser, possède une interface graphique conviviale et est rapide.

Stitch ne vous permet pas de choisir un tableau de bord prédéfini, contrairement aux autres outils ETL. Au lieu de cela, vous devez intégrer vos données dans les entrepôts de données ouverts que vous sélectionnez comme destination. Il peut être difficile de naviguer dans les inventaires.

Alteryx

Alteryx

Alteryx est une plate-forme d'automatisation analytique qui aide à la préparation et au mélange de la collecte de données. Ces données peuvent être utilisées pour accélérer les processus et fournir des informations commerciales. Comme il s'agit d'un outil de glisser-déposer, vous n'avez besoin d'aucune connaissance en programmation. Alteryx est un endroit idéal pour obtenir des conseils et des réponses de professionnels de l'industrie.

Conclusion

Donc, tout était à propos d'AWS Glue, qui est une solution basée sur le cloud qui vous permet de travailler avec des pipelines ETL. Pour résumer, le processus d'interaction utilisateur AWS Glue comprend trois phases. Pour créer un catalogue de données, vous devez d'abord utiliser des crawlers de données. Ensuite, vous créez le code ETL requis par le pipeline de données AWS. Enfin, le calendrier ETL est ensuite créé. J'espère que ce blog vous a donné un bon aperçu d'Amazon Glue.

Vous pouvez également explorer les meilleurs conseils pour sécuriser Stockage AWS S3.

Merci à nos commanditaires
Plus de bonnes lectures sur le Cloud Computing
Alimentez votre entreprise
Certains des outils et services pour aider votre entreprise à se développer.
  • Invicti utilise Proof-Based Scanning™ pour vérifier automatiquement les vulnérabilités identifiées et générer des résultats exploitables en quelques heures seulement.
    Essayez Invicti
  • Web scraping, proxy résidentiel, proxy manager, web unlocker, moteur de recherche et tout ce dont vous avez besoin pour collecter des données Web.
    Essayez Brightdata
  • Semrush est une solution de marketing numérique tout-en-un avec plus de 50 outils de référencement, de médias sociaux et de marketing de contenu.
    Essayez Semrush
  • Intruder est un scanner de vulnérabilités en ligne qui détecte les failles de cybersécurité de votre infrastructure, afin d'éviter des violations de données coûteuses.
    Essayez Intruder