Geekflare recibe el apoyo de nuestra audiencia. Podemos ganar comisiones de afiliación de los enlaces de compra en este sitio.
En Computación en nube Última actualización: 24 de septiembre de 2023
Compartir en:
Escáner de seguridad de aplicaciones web Invicti - la única solución que ofrece verificación automática de vulnerabilidades con Proof-Based Scanning™.

Amazon Glue está ganando popularidad porque muchas empresas han comenzado a utilizar servicios de integración de datos administrados.

ETL es un proceso que transfiere datos de una base de datos de origen a un almacén de datos. ETL es complejo y difícil de implementar para todos los datos empresariales debido a su complejidad. Amazon introdujo Pegamento AWS para abordar este problema.

Los desarrolladores de ETL y los ingenieros de datos utilizan Glue para crear, monitorizar y ejecutar flujos de trabajo de ETL.

¿Qué es el pegamento AWS?

AWS Glue, un servicio de integración de datos sin servidor, facilita la búsqueda, preparación, traslado e integración de datos de múltiples fuentes. Esto es útil para el aprendizaje automático (ML) y el análisis.

Reduzca drásticamente el tiempo necesario para preparar los datos para el análisis. Encuentra y enumera automáticamente los datos, genera código Scala o Python para transmitir los datos desde la fuente, y carga y transforma el trabajo según los eventos programados.

Esto permite una programación flexible y crea un entorno Apache Spark que puede escalarse para la carga de datos específicos. Además, AWS Glue proporciona una compleja monitorización y alteración del flujo de datos. AWS Glue es un servicio sin servidor que simplifica las operaciones complicadas del desarrollo de aplicaciones.

Permite la integración rápida de múltiples datos válidos. También descompone y autoriza los datos rápidamente.

¿Para qué se utiliza AWS Glue?

Es importante conocer los mejores lugares para utilizar Amazon Glue. Estos son solo algunos ejemplos de los usos de AWS Glue que debería tener en cuenta.

  • Amazon Glue es una herramienta que le permite ejecutar consultas sin servidor en los lagos de datos de Amazon S3.
  • Amazon Glue es una gran herramienta para empezar. Hace que todos sus datos sean accesibles en una interfaz, lo que le permite analizarlos sin tener que moverlos.
  • Amazon Glue puede utilizarse para comprender sus activos de datos. Amazon Glue le facilita la búsqueda en diferentes conjuntos de datos de AWS mediante el Catálogo de datos. También puede guardar datos en varios servicios de AWS mediante el Catálogo de datos sin perder de vista la coherencia.
  • Glue puede ser útil al crear flujos de trabajo ETL basados en eventos. Puede ejecutar sus operaciones ETL desde Amazon S3 llamando a sus tareas ETL de Glue a través de un servicio AWS Lambda.
  • AWS Glue también puede utilizarse para limpiar, verificar, formar y organizar datos para su almacenamiento en un lago de datos o almacén.

Componentes de AWS Glue

A continuación se indican los componentes principales de AWS Glue:

  • Catálogo de datos: Este catálogo de datos contiene metadatos y la estructura de los datos.
  • Base de datos: Esta es la clave para acceder y crear la base de datos para fuentes y objetivos.
  • Tabla: Cree una o varias tablas en la base de datos que sean utilizables tanto por el objetivo como por la fuente.
  • Crawler y clasificador: El rastreador recupera los datos de la fuente utilizando clasificaciones incorporadas o personalizadas. Crea/utiliza tablas de metadatos predefinidas en el catálogo de datos.
  • Trabajo: Es el trabajo de la lógica empresarial para realizar una tarea ETL. Esta lógica de negocio está escrita internamente por Apache Spark utilizando los lenguajes python y scala.
  • Disparador: Un disparador ETL es un dispositivo que inicia la ejecución de un trabajo ETL bajo demanda o en un momento determinado.
  • Punto final para el desarrollo: Esto crea un entorno en el que se prueba, desarrolla y depura el script del trabajo ETL.

Beneficios de AWS Glue

Estos son los beneficios de utilizarlo en su lugar de trabajo o dentro de una organización.

  • AWS Glue escanea todos los datos disponibles con un rastreador.
  • Los datos finales procesados pueden almacenarse en muchos lugares (Amazon RDS y Amazon Redshift, Amazon S3, etc.).
  • Se trata de un servicio basado en la nube. No es necesario gastar dinero en infraestructuras in situ.
  • Al tratarse de un ETL sin servidor, es una opción rentable.
  • Es rápido. Le proporciona inmediatamente el código ETL Python/Scala.

Características principales de AWS Glue

Amazon Glue tiene todas las características que necesita para integrar datos de manera que pueda obtener mejores perspectivas y utilizar sus conocimientos para realizar nuevos avances en cuestión de minutos en lugar de meses. Estas son algunas de las características que debe conocer.

  • Interfaz de arrastrar y soltar: Un editor de trabajos de arrastrar y soltar le permite crear un proceso ETL. AWS Glue creará inmediatamente el código necesario para extraer, convertir y cargar los datos.
  • Descubrimiento automático de esquemas: Para crear rastreadores que se conecten a diferentes fuentes de datos, puede utilizar el servicio Glue. Éste organiza los datos y extrae la información relevante. Estos datos pueden utilizarse después para supervisar los procesos ETL mediante tareas ETL.
  • Programación de tareas: La cola puede utilizarse a la carta o según un calendario programado. El programador puede utilizarse para construir complejas canalizaciones ETL, estableciendo dependencias entre las tareas.
  • Generación de código: Glue Elastic Views permite crear fácilmente vistas materializadas que combinan y replican datos de diferentes fuentes de datos sin tener que escribir ningún código propio.
  • Aprendizaje automático incorporado: Glue incorpora una función de aprendizaje automático llamada "FindMatches". Desduplica los registros que no son copias perfectas unos de otros.
  • Puntos finales para desarrolladores: Si desea desarrollar activamente su código ETL, Glue proporciona puntos finales de desarrollador que le permiten modificar, depurar y probar el código que crea.
  • PegamentoDataBrew : Es una herramienta de preparación de datos que pueden utilizar los analistas y científicos de datos para ayudarles a limpiar y normalizar los datos. Utiliza la interfaz activa y visual de Glue DataBrew.

¿Cómo funciona el precio de AWS Glue?

Pegamento AWS cobra una tarifa por hora, que se factura por segundo para los rastreadores (que descubren los datos) y los trabajos ETL (que procesan y cargan los datos). Se cobra una tarifa mensual sencilla por el acceso y el almacenamiento de metadatos en el catálogo de datos de AWS Glue.

Amazon Glue comienza en 0,44 dólares. Puede elegir entre cuatro planos:

  • Tareas ETL, puntos finales de desarrollo y otras tareas ETL están disponibles a 0,44 dólares
  • Las sesiones interactivas de rastreo están disponibles a 0,44 dólares
  • Las tareas DataBrew empiezan en 0,48
  • El almacenamiento mensual y las solicitudes al Catálogo de datos cuestan 1 USD

AWS no ofrece un plan Glue gratuito. Cada hora le costará 0,44 $ por DPU. De media, le costaría 21 $ al día. Los precios pueden variar en función de su lugar de residencia.

Pasos para configurar AWS Glue

El catálogo de datos puede utilizarse para encontrar y buscar rápidamente varios conjuntos de datos de AWS sin tener que mover los datos. Una vez catalogados los datos, están disponibles inmediatamente para su consulta y búsqueda mediante Amazon Athena y Amazon EMR.

pegamento aws
Referencia: https://aws.amazon.com/glue/
  • Amazon Redshift, Amazon S3, Amazon RDS y bases de datos en Amazon EC2 - Descubra sus datos, almacene metadatos y utilice el catálogo de datos de AWS Glue para descubrirlos
  • Catálogo de datos de AWS Glue - Gestione datos con el catálogo de datos actuando como repositorio central de metadatos
  • AWS Glue ETL - Lea y escriba metadatos en su catálogo de datos
  • Amazon Atenea y Amazon Redshift, Amazon EMR, Amazon ETL - Obtenga el catálogo de datos para ETL, análisis y mucho más.
  • Amazon QuickSight - Ejecute informes con Amazon QuickSight, y otras herramientas de inteligencia empresarial

¿Cómo configurar AWS Glue?

En primer lugar, inicie sesión en la consola de administración de AWS y abra la consola IAM. Haga clic en Crear rol. Luego para el tipo de rol, busque Pegamento, y seleccione Permisos.

Estoy eligiendo AWSGlueServiceRole para los permisos generales de AWS Glue Studio y AWS Glue y la política gestionada por AWS AmazonS3FullAccess para el acceso a los recursos de Amazon S3.

Introduzca un nombre de rol.

Screenshot-2022-10-16-at-23.20.48

Haga clic en Crear rol.

Screenshot-2022-10-16-at-23.21.14

Cree un bucket de Amazon S3.

Screenshot-2022-10-16-at-23.33.42
Screenshot-2022-10-16-at-23.34.36

Cree una carpeta dentro del cubo S3.

Screenshot-2022-10-16-at-23.36.32

Elija el archivo que desea subir.

Screenshot-2022-10-16-at-23.37.06

Por último, cargue el archivo en el cubo.

Screenshot-2022-10-16-at-23.37.28

A continuación, abra AWS Glue desde la consola de administración de AWS y cree una base de datos.

Screenshot-2022-10-16-at-23.40.45

Ahora que tiene una base de datos en AWS Glue, cree un rastreador.

Screenshot-2022-10-16-at-23.41.22

En la fuente de datos, seleccione el bucket S3 que ha creado.

Screenshot-2022-10-16-at-23.46.24

A continuación, seleccione el rol IaM para AWS Glue que creó al principio.

Screenshot-2022-10-16-at-23.46.50

Por último, en la salida, seleccione gluedb que creó.

Screenshot-2022-10-16-at-23.47.06

Revise todos los ajustes y cree el rastreador.

Screenshot-2022-10-16-at-23.49.23

Una vez creado el crawler, selecciónelo y haga clic en Ejecutar. Al cabo de un rato, obtendrá el estado listo.

Screenshot-2022-10-16-at-23.50.22

Al ejecutar el crawler, la base de datos obtendrá una tabla con todos los datos del archivo CSV.

Screenshot-2022-10-17-at-00.37.24

Al hacer clic en ver datos, accederá a Amazon Athena (editor de consultas). Cuando ejecute la consulta, podrá ver los datos de la tabla.

Screenshot-2022-10-17-at-00.39.45

Ahora puede utilizar con éxito este rastreador de AWS Glue en cualquier trabajo ETL.

¿Qué es AWS Glue Databrew?

Pegamento AWSDataBrew permite a los usuarios normalizar y limpiar los datos sin escribir ningún código. DataBrew puede reducir el tiempo necesario para preparar los datos para el aprendizaje automático y el análisis hasta en un 80 por ciento en comparación con la preparación de datos desarrollada a medida.

Existen más de 250 transformaciones de datos preelaboradas que pueden utilizarse para automatizar tareas de preparación de datos como filtrar anomalías, corregir valores no válidos y convertir datos a formatos estándar.

DataBrew facilita la colaboración entre los científicos de datos, los analistas de negocio y los ingenieros para extraer información de los datos en bruto. DataBrew funciona sin servidor, por lo que no necesita gestionar infraestructuras ni crear clústeres para explorar y transformar terabytes de datos en bruto.

Características de DataBrew para empresas

Preparación visualizada de datos

DataBrew es una forma diferente de ver los datos que normalmente se visualizan en bases de datos columnares como números alfanuméricos. DataBrew visualiza todas las fuentes de datos cargadas para ayudarle a comprender las relaciones y la jerarquía de los datos.

250 Automatizaciones de preparación de datos

Se espera que los científicos de datos sigan una serie de flujos de trabajo repetibles y aislados como parte de su trabajo. Estos flujos de trabajo y procesos han sido modelados por AWS como módulos independientes del lenguaje y de los datos. Esta biblioteca incluye acciones que pueden ser utilizadas por los usuarios finales.

Linaje de datos

De forma similar a los registros de auditoría que se utilizan para realizar un seguimiento de la actividad de los clientes en la red de TI de una red de TI, el linaje de datos le permite realizar un seguimiento de las actividades de transformación de datos dentro de AWS DataBrew. Esta información incluye la fuente de datos, las transformaciones aplicadas y la salida de datos, incluida la ubicación de destino.

Mapeo de datos

Databrew le permite encontrar campos coincidentes en dos fuentes de datos. Una vez identificados los campos coincidentes, pueden cargarse en un esquema.

AWS Glue DataBrew: Ventajas

A continuación se detallan las características de AWS Glue DataBrew:

  • Menor barrera de entrada para la preparación de datos
  • Generación automatizada de perfiles de datos
  • Automatización de 250 procesos de preparación de datos
  • Sugerencias prescriptivas inteligentes

Alternativas a Pegamento AWS

Flujo de aire

Flujo de aire

Flujo de aire pertenece a la sección de gestores de flujos de trabajo de una pila tecnológica. Es una herramienta de código abierto que admite estrellas de GitHub, bifurcaciones de GitHub y otras características. Airflow le permite crear flujos de trabajo utilizando diagramas acíclicos dirigidos (DAG). El programador de Airflow ejecuta sus tareas utilizando un conjunto de trabajadores y siguiendo las dependencias especificadas.

Matillion

Matillion

Matillion ETL, una herramienta ETL/ELT, fue diseñada explícitamente para plataformas de bases de datos en la nube como Amazon Redshift y Google BigQuery. Es una moderna interfaz de usuario basada en navegador con potentes capacidades ETL/ELT push-down. Usted puede estar en funcionamiento en cuestión de minutos con una configuración rápida.

Puntada

Puntada es un servicio ETL de código abierto que conecta múltiples fuentes de datos y replica los datos a los destinos preferidos. Es muy fácil de usar, ya que no necesita conocimientos de codificación para mover datos entre fuentes y destinos en Stitch. Es fácil de usar, tiene una interfaz gráfica de usuario amigable y es rápida.

Stitch no le permite elegir un cuadro de mando prefabricado, a diferencia de otras herramientas ETL. En su lugar, debe integrar sus datos en los almacenes de datos abiertos que seleccione como destino. Puede resultar difícil navegar por los inventarios.

Alteryx

Alteryx

Alteryx es una plataforma de automatización de análisis que ayuda a preparar y mezclar la recopilación de datos. Estos datos pueden utilizarse para acelerar los procesos y proporcionar una visión empresarial. Al tratarse de una herramienta de arrastrar y soltar, no se necesitan conocimientos de programación. Alteryx es un gran lugar al que acudir en busca de consejos y respuestas de profesionales del sector.

Conclusión

Así pues, esto ha sido todo sobre AWS Glue, que es una solución basada en la nube que le permite trabajar con canalizaciones ETL. En resumen, el proceso de interacción con el usuario de AWS Glue consta de tres fases. Para crear un catálogo de datos, primero se utilizan rastreadores de datos. A continuación, se crea el código ETL requerido por la canalización de datos de AWS. Por último, se crea la programación ETL. Espero que este blog le haya proporcionado una buena visión general de Amazon Glue.

También puede explorar los mejores consejos para asegurar el almacenamiento en AWS S3.

  • Avi
    Autor
    Avi es un entusiasta de la tecnología con experiencia en tecnologías de tendencia como DevOps, Cloud Computing, Big Data y muchas más. Le apasiona aprender tecnologías de vanguardia y compartir sus conocimientos con los demás a través de... Seguir leyendo
Gracias a nuestros patrocinadores
Más lecturas sobre computación en nube
Potencia tu negocio
Algunas de las herramientas y servicios que le ayudarán a hacer crecer su negocio.
  • Invicti utiliza el Proof-Based Scanning™ para verificar automáticamente las vulnerabilidades identificadas y generar resultados procesables en tan solo unas horas.
    Pruebe Invicti
  • Web scraping, proxy residencial, gestor de proxy, desbloqueador web, rastreador de motores de búsqueda, y todo lo que necesita para recopilar datos web.
    Pruebe Brightdata
  • Monday.com es un sistema operativo de trabajo todo en uno que te ayuda a gestionar proyectos, tareas, trabajo, ventas, CRM, operaciones, flujos de trabajo y mucho más.
    Prueba Monday
  • Intruder es un escáner de vulnerabilidades en línea que encuentra puntos débiles de ciberseguridad en su infraestructura, para evitar costosas violaciones de datos.
    Prueba Intruder