In Computación en la nube (Cloud Computing) y Desarrollo Última actualizaciónated:
Comparte en:
Software de Jira es la herramienta de gestión de proyectos número uno utilizada por equipos ágiles para planificar, rastrear, lanzar y respaldar software excelente.

AWS Athena es un servicio de consulta flexible y rentable para los datos almacenados en AWS S3.

AWS es uno de los mayores proveedores de nube del mundo. Ofrece una multitud de servicios para almacenamiento en la nube y necesidades computacionales. AWS S3 es uno de los servicios más populares en el AWS platformulario. Ofrece una durabilidad y disponibilidad de datos sin igual, además de ser una de las opciones de almacenamiento más económicas en la nube.

Dada su multitud de características y teorías.ally almacenamiento infinito, es posible tener terabytes o petabytes de datos en depósitos S3. Analizar dichos datos es casi imposible si abriéramos todos y cada uno de los archivos y leyéramos petabytes de datos manualmente.ally. Aquí es donde entra en juego el servicio AWS Athena.

En palabras simples, Atenea de AWS se utiliza como un servicio de análisis de datos simplemente accediendo a los datos disponibles en el depósito S3 mediante consultas SQL. Entonces, si comprende incluso los conceptos básicos de SQL, puede comenzar a trabajar en el análisis de datos S3 con AWS Athena.

Entendamos esto con un breve ejemplo. Supongamos que ha configurado uno de sus cubos como cubo de registro de acceso para todos los balanceadores que tiene en varias cuentas de su organización. ¿Cómo consultaría años de datos de registro y obtendría información importante y significativa de estos archivos de registro? La respuesta es AWS Athena.

Características de AWS Athena

  • Herramienta basada en SQL: AWS Athena es un servicio basado en SQL muy fácil de usar. Simplemente dirija a Athena a uno de sus cubos, defina el esquema de sus datos y luego comience a usar las consultas SQL en su cubo.
  • Sin servidor: No es necesario mantener una infraestructura para ejecutar AWS Athena. Athena no tiene servidor y está optimizado para utilizar múltiples recursos informáticos de forma automática.ally según sus requisitos.
  • Rápido y optimizado: Athena se ha optimizado para usar una cantidad eficiente de recursos para entregar los resultados de su consulta lo antes posible. Funciona muy bien con análisis pequeños y complejos de los datos de S3.
  • Económico: Athena es un servicio de pago por uso. Esto significa que no hay un costo base por usar AWS Athena; solo paga por las consultas que ejecuta en el Servicio Athena.
  • Durabilidad y Disponibilidad de los datos: Dado que Athena se basa en los datos de sus depósitos S3, puede estar seguro de que los datos están altamente disponibles y son duraderos.
  • Soporte: Athena admite varios formatos de archivo, como JSON, CSV, Avro, ORC y más.
  • Seguridad: Athena utiliza funciones de seguridad como IAM, políticas de depósito y ACL, que lo hacen altamente seguro.
  • Back-end de Atenea: Athena utiliza el código abierto presto como back-end. Presto es un motor SQL distribuido para consultar y analizar grandes cargas de trabajo de datos. 

Precios y optimización de AWS Athena

Al usar AWS Athena, se le cobrará una tarifa de 5 $ por terabyte escaneado al usar AWS Athena. Este precio puede variar ligeramente para algunas de las regiones de AWS.

  • Consultas eficientes: Si está familiarizado con SQL, debe saber que puede haber más de una forma de obtener ciertos resultados de los datos usando SQL. Para optimizar Athena, puede usar consultas eficientes que deberían tomar menos tiempo para ejecutar sus consultas.
  • Transformación de datos: Si desea optimizar aún más sus consultas, puede comprimir, particionar o convertir sus datos en un conjunto de datos más pequeño, reduciendo aún más el tiempo de ejecución de su consulta. Al utilizar la transformación de datos, puede optimizar su consulta hasta en un 90 %.
  • Unirse a mesas virtuales: Unir tablas es una característica muy importante de SQL. Si bien puede parecer una operación simple, puede ser una operación muy compleja. Se recomienda mantener las tablas más grandes a la izquierda y las tablas con menos datos a la derecha.

Diferencia entre AWS Athena y Redshift Spectrum

Redshift Spectrum es otro servicio que se puede utilizar para ejecutar consultas en depósitos de AWS S3. Tanto Redshift Spectrum como Athena no tienen servidor, pueden ejecutar consultas complejas en S3 y tienen un precio del 5 % por terrabyte de datos. processEd, entonces ¿cuál es la diferencia?

Rendimiento

AWS Athena utiliza recursos computacionales de un conjunto de recursos proporcionados por AWS. Por el contrario, el espectro Redshift utiliza los recursos asignadosated según el tamaño del grupo Redshift. Esto le permite tener más control sobre los recursos que utiliza el servicio Redshift Spectrum y, si desea mejorar el rendimiento, siempre puede aumentar el tamaño de su clúster de Redshift.

Cargando los datos para processIng.

Ambos servicios usan tablas virtuales para ejecutar consultas SQL en sus datos. Las tablas virtuales se crean utilizando el catálogo de datos de Glue para la gestión de esquemas. Athena puede usar directamente los datos del esquema del catálogo de datos de Glue, mientras que al usar Redshift Spectrum, deberá configurar tablas externas del esquema del catálogo de datos de Glue.

Estas son las principales diferencias entre los dos servicios, así que al elegir entre el espectro Redshift y Athena. Debe usar Redshift Spectrum si desea consultar datos en S3 junto con los datos almacenados en el almacén de datos de Redshift o si está dispuesto a pagar costos más altos para mejorar el rendimiento de sus consultas en S3. Athena puede ser útil cuando todos sus datos están solo en los depósitos S3.

Diferencia entre AWS Athena y S3 Select

S3 select es otro servicio sin servidor de AWS para consultar datos en S3 usando SQL. Sin embargo, la principal diferencia entre S3 Select y Athena es que solo puede usar las consultas SQL SELECT cuando usa S3 Select, mientras que Athena se puede usar para todo tipo de consultas SQL. Otra limitación de S3 select es que solo puede realizar la operación SELECT en un objeto a la vez.

Por lo tanto, si su requisito es solo extraer datos o un subconjunto de datos de un objeto S3, debe usar S3 Select. Para consultas y operaciones complejas como JOIN o para process los datos en un depósito S3 completo, debe utilizar AWS Athena.

Ventajas de usar AWS Athena

  • atenea eliminaateEs la necesidad de desarrollar una herramienta de análisis de datos compleja y costosa para sus datos.
  • Athena no tiene servidor, lo que lo convierte en un servicio bastante fácil de usar. No es necesario que usted mantenga la infraestructura.
  • AWS ha optimizado Athena para poder recuperar los resultados de la consulta segundos después de ejecutar la consulta de Athena.
  • Dado que Athena no tiene servidor, no es necesario pagar por el servicio de Athena. Solo paga por las consultas que elija ejecutar. Incluso si cancelaras una consulta, solo se te cobraría por los datos processed y no toda la consulta.
  • Atenea puede ser integrated con otros servicios de AWS fácilmente. Una de las integraciones más importantes y valiosas de AWS Athena es con el servicio AWS Glue. AWS Glue es un ETL servicio que se puede utilizar para transformar los datos en una forma más eficiente y legible, que luego se puede analizar con AWS Athena.
  • Athena le permite ejecutar múltiples consultas simultáneamenteneoUsualmente

Limitaciones de AWS Athena

  • Tamaño de fila: El tamaño de fila en una tabla virtual de AWS Athena no debe exceder 32 Megabytes. Este límite se puede aumentar en casos muy limitados para archivos CSV y JSON hasta 100 Megabytes, pero se recomienda encarecidamente limitar el tamaño de fila a 32 Megabytes para evitar errores no deseados.
  • Archivos ocultos: Los archivos con nombres que comienzan con un guión bajo (_) o un punto (.) son treated oculto por el Servicio Athena. Esto se puede utilizar como una característica para evitar processing archivos no deseados.
  • Atenea es incapaz process datos en el Glaciar S3 o Arco Profundo del Glaciar S3hive. Estas clases de almacenamiento son solo para opciones de archivado de datos y tienen un tiempo de recuperación de minutos a horas, por lo que se entiende si AWS Athena no puede recuperar datos de estas clases.
  • Atenas no admite procedimientos almacenados.
  • Atenas versión 1 no admite consultas parametrizadas. Esto es compatible con la versión 2 de Athena.
  • Statementos como MERGE, UPDATE, CREATE TABLA COMO, DESCRIBE INPUT y DESCRIBE OUTPUT no son compatibles.

Para Concluir

En este artículo, analizamos la herramienta de análisis de datos de AWS, AWS Athena, sus características, ventajas y algunas limitaciones. Athena es una de las herramientas más poderosas para processing y análisis de datos en depósitos S3. Incluso las limitaciones del servicio son bastante simples y pueden solucionarse si es necesario.

También puede ver algunas de las mejores prácticas para almacenamiento seguro de AWS S3.

Comparte en:
  • naman yash
    Autor
    Naman Yash es un profesional de ingeniería de software con más de 2 años de experiencia en ingeniería de nube en JP Morgan Chase. Actualmente, Naman trabaja como ingeniero de software y contenido independiente. writer. Tiene múltiples certificaciones de AWS y Terraform...

Gracias a nuestros patrocinadores

Más lecturas excelentes sobre computación en la nube

Impulse su negocio

Algunas de las herramientas y servicios para ayudar a su negocio grow.
  • La herramienta de conversión de texto a voz que utiliza IA para generarate Voces realistas parecidas a las humanas.

    Intente Murf AI
  • Web scraping, proxy residencial, administrador de proxy, desbloqueador web, rastreador de motores de búsqueda y todo lo que necesita para recopilar datos web.

    Prueba Brightdata
  • Monday.com es un sistema operativo de trabajo todo en uno para ayudarlo a administrar proyectos, tareas, trabajo, ventas, CRM, operaciones, workflows, y más.

    Intente Monday
  • Intruder es un escáner de vulnerabilidades en línea que encuentra debilidades de ciberseguridad en su infraestructura, para evitar costosas filtraciones de datos.

    Intente Intruder