Geekflare recibe el apoyo de nuestra audiencia. Podemos ganar comisiones de afiliación de los enlaces de compra en este sitio.
En AI Última actualización: 15 de septiembre de 2023
Compartir en:
Escáner de seguridad de aplicaciones web Invicti - la única solución que ofrece verificación automática de vulnerabilidades con Proof-Based Scanning™.

Una guía detallada sobre el raspado de páginas web con ChatGPT Code Interpreter y sus plugins.

Si lo tuyo no es crear algo novedoso, lo más probable es que necesites información previa para empezar. O puede que quieras echar un vistazo a la competencia para obtener información valiosa. Además, puede haber innumerables razones para que alguien se interese por el contenido de un sitio web concreto.

El web scraping es el proceso que sirve para estos casos de uso.

Y hay varias formas de hacerlo. Hay herramientas pesadas a las que puede suscribirse para el scraping profesional de grandes sitios web. Otra posibilidad es que necesites una configuración específica para el procesamiento in situ.

En cualquier caso, este método es caro, lento y tedioso para los principiantes, sobre todo si se trata de raspar unas pocas páginas web.

Visión general de ChatGPT para Web Scraping

Se supone que no debo presentarte ChatGPT. ¿No?

En resumen, ChatGPT es una IA generativa que responde como los humanos. Dispones de una interfaz de chat para pedirle que realice diversas tareas, como indagar sobre acontecimientos históricos, escribir ensayos, resumir, traducir, codificar, etc.

ChatGPT responde en texto. Sin embargo, hay Plugins de ChatGPT que mejoran sus capacidades de muchas maneras. Y nosotros utilizaremos uno de esos plugins. Además, utilizaremos su Intérprete de Código para el scraping de sitios web con estructuras complicadas o con protocolos anti-scraping activos.

Por favor, ten en cuenta que ChatGPT tiene versiones gratuitas y de pago. Pero necesitarás la suscripción de pago (actualmente, $20 al mes) para usar el plugin de raspado web o su motor Code Interpreter.

En secciones posteriores, ilustraré el proceso paso a paso.

Descargo de responsabilidad: Antes de proceder, confirme que el sitio web en cuestión permite el scraping de sus contenidos. Si no es así, puedes ponerte en contacto con su administrador y ver si te lo permite para evitar problemas legales.

Web Scraping con el plugin ChatGPT

Conéctese a su Cuenta OpenAIPase el ratón por encima de GPT-4 (su versión de pago actual) y haga clic en Plugins.

plugin chatgpt

A continuación, haga clic en No hay plugins habilitadosdesplácese hacia abajo y haga clic en Tienda de complementos.

tienda de complementos

Tenga en cuenta que en lugar de No hay plugins habilitados, tendrá un icono de plugin si hay alguno activo. En ese caso, tienes que hacer clic en ese icono para abrir el desplegable y hacer clic en la tienda de plugins de la parte inferior.

Se abrirá la tienda de plugins. Busque Rascador y pulsa Instale.

rascador

Seleccione este plugin en la interfaz ChatGPT.

rascador activar

Una vez seleccionado esto, hay que solicitar ChatGPT, mencionando la URL del asunto y el contenido para el scraping.

He hecho esto para algunos sitios web. Mira esto.

Desguace de una publicación

Somos una publicación centrada en la tecnología, y he elegido nuestra página de inicio, geekflare.com/ para esta ilustración.

Este es el tema:

check this webpage: https://geekflare.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.
geekflare scrape

También se puede volver a preguntar para convertir los datos a formato CSV, pegarlos en un archivo de texto con extensión .csv y abrirlo en una aplicación de hoja de cálculo como MS Excel.

Cómo raspar una página web de ofertas o cupones

En Sección de ofertas de Geekflare es donde hemos seleccionado algunas ofertas sobre proyectos de alta tecnología. ¿Qué le parece buscar todas las ofertas en formato tabular?

Prepare a list of deals from this webpage: https://geekflare.com/deals/. present the result in a tabular format.
ofertas geekflare

Raspado Wikipedia

Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page
raspado de wikipedia

Tiendas de comercio electrónico

Por último, he probado a buscar los portátiles en Amazon.com aplicando algunos filtros y enviando la URL a ChatGPT. Esto es lo que obtuve:

bloqueador de raspado de amazon

El problema es que éste no es un caso aislado. Encontrarás muchos casos en los que los sitios web tienen medidas anti-scraping. En esta situación, tendrás que encontrar una alternativa para obtener los datos si suscribirte a los raspadores estándar de la industria no es una opción.

En las secciones siguientes se expone una de estas soluciones.

Web Scraping con el intérprete de código ChatGPT

Code Interpreter es un motor de ChatGPT lanzado recientemente para atender tareas relacionadas con la programación. Mientras que el motor por defecto se basa en gran medida en las respuestas de texto, Código Interprete puede ayudar a visualizar resultados, analizar, depurar y ejecutar código, integrarse con binarios de software y hacer muchas más cosas relacionadas con la programación.

intérprete de códigos chatgpt

En este proceso, descargaremos la fuente HTMLy cargarlo en ChatGPT Code Interpreter, y proceder con el scraping.

He tomado esta página para la extracción:

ejemplo de página amazon

Empezaremos guardando la página web como HTML. Para ello, vaya a la página web y pulse Ctrl+S.

guardar html

Ahora tenemos el archivo para raspar. Vamos a averiguar el prompt.

consulte

Además del mensaje de texto, puedes ver que le he dado elementos de muestra para acelerar el scraping. Dado que las estructuras de las páginas web de Amazon son complejas, sin estos ejemplos, el intento de raspado podría fallar o no dar ningún resultado.

Y conseguir estos elementos es bastante fácil. Haga clic con el botón derecho del ratón en cualquier lugar de la página web en cuestión y haga clic en Inspeccione del pop-over.

inspeccionar elemento

En primer lugar, haga clic en el icono superior (marcado como 1). Esto resaltará los detalles mientras selecciona elementos de la página. A continuación, seleccione el elemento contenedor para cualquier producto específico.

seleccionar el elemento

Asegúrese de seleccionar el contenedor más interior. Puedes pasar el ratón por encima y seguirá resaltándose. En el momento en que aparezca el último caparazón que cubre ese bloque, puede hacer clic y pasar al lado derecho para copiar el elemento div class.

Del mismo modo, seleccione las muestras para otros elementos.

subir-html

Finalmente, cargue el HTML y el prompt similar a este:

check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"

Esto llevará algún tiempo mientras ChatGPT Code Interpreter hace su trabajo. Tendrá unos pocos detalles, mientras que todo estará en el archivo CSV incrustado.

web scraping chatgpt

Puede observar que la tabla tiene algunas entradas que no están presentes en la página web original, sobre todo al principio. En estos casos, es necesario volver a comprobar y limpiar los datos para evitar redundancias.

Si hay alguna, puede volver a preguntar a ChatGPT para obtener una limpia CSV.

Reflexiones finales

ChatGPT hace muchas cosas, y el raspado web básico es una de ellas. De acuerdo, puede que no sea adecuado para alguien que esté raspando cientos de páginas. Aún así, te ayudará a empezar en la dirección correcta y es ideal para una sesión corta de scraping.

En esta guía, hemos utilizado uno de sus plugins de scraping y Code Interpreter. Mientras que los plugins funcionan en muchos sitios web estándar, el segundo método es para estructuras de páginas web personalizadas o si la página tiene elementos dinámicos (desplazamiento infinito, leer más, etc.).

Y para reiterar, revise los términos del sitio web en cuestión antes de realizar el scraping.

PD: Eche un vistazo a estos soluciones de raspado en la nube y nuestra propia API de raspado de Geekflare.

  • Hitesh Sant
    Autor
    Hitesh trabaja como redactor sénior en Geekflare y se interesa por la ciberseguridad, la productividad, los juegos y el marketing. Además, tiene un máster en ingeniería del transporte. Su tiempo libre consiste sobre todo en jugar con su hijo, leer o tumbarse... Seguir leyendo
Gracias a nuestros patrocinadores
Más lecturas sobre IA
Potencia tu negocio
Algunas de las herramientas y servicios que le ayudarán a hacer crecer su negocio.
  • Invicti utiliza el Proof-Based Scanning™ para verificar automáticamente las vulnerabilidades identificadas y generar resultados procesables en tan solo unas horas.
    Pruebe Invicti
  • Web scraping, proxy residencial, gestor de proxy, desbloqueador web, rastreador de motores de búsqueda, y todo lo que necesita para recopilar datos web.
    Pruebe Brightdata
  • Monday.com es un sistema operativo de trabajo todo en uno que te ayuda a gestionar proyectos, tareas, trabajo, ventas, CRM, operaciones, flujos de trabajo y mucho más.
    Prueba Monday
  • Intruder es un escáner de vulnerabilidades en línea que encuentra puntos débiles de ciberseguridad en su infraestructura, para evitar costosas violaciones de datos.
    Prueba Intruder