Una guía detallada sobre el raspado de páginas web con ChatGPT Code Interpreter y sus plugins.
Si lo tuyo no es crear algo novedoso, lo más probable es que necesites información previa para empezar. O puede que quieras echar un vistazo a la competencia para obtener información valiosa. Además, puede haber innumerables razones para que alguien se interese por el contenido de un sitio web concreto.
El web scraping es el proceso que sirve para estos casos de uso.
Y hay varias formas de hacerlo. Hay herramientas pesadas a las que puede suscribirse para el scraping profesional de grandes sitios web. Otra posibilidad es que necesites una configuración específica para el procesamiento in situ.
En cualquier caso, este método es caro, lento y tedioso para los principiantes, sobre todo si se trata de raspar unas pocas páginas web.
Visión general de ChatGPT para Web Scraping
Se supone que no debo presentarte ChatGPT. ¿No?
En resumen, ChatGPT es una IA generativa que responde como los humanos. Dispones de una interfaz de chat para pedirle que realice diversas tareas, como indagar sobre acontecimientos históricos, escribir ensayos, resumir, traducir, codificar, etc.
ChatGPT responde en texto. Sin embargo, hay Plugins de ChatGPT que mejoran sus capacidades de muchas maneras. Y nosotros utilizaremos uno de esos plugins. Además, utilizaremos su Intérprete de Código para el scraping de sitios web con estructuras complicadas o con protocolos anti-scraping activos.
Por favor, ten en cuenta que ChatGPT tiene versiones gratuitas y de pago. Pero necesitarás la suscripción de pago (actualmente, $20 al mes) para usar el plugin de raspado web o su motor Code Interpreter.
En secciones posteriores, ilustraré el proceso paso a paso.
Descargo de responsabilidad: Antes de proceder, confirme que el sitio web en cuestión permite el scraping de sus contenidos. Si no es así, puedes ponerte en contacto con su administrador y ver si te lo permite para evitar problemas legales.
Web Scraping con el plugin ChatGPT
Conéctese a su Cuenta OpenAIPase el ratón por encima de GPT-4 (su versión de pago actual) y haga clic en Plugins.

A continuación, haga clic en No hay plugins habilitadosdesplácese hacia abajo y haga clic en Tienda de complementos.

Tenga en cuenta que en lugar de No hay plugins habilitados, tendrá un icono de plugin si hay alguno activo. En ese caso, tienes que hacer clic en ese icono para abrir el desplegable y hacer clic en la tienda de plugins de la parte inferior.
Se abrirá la tienda de plugins. Busque Rascador y pulsa Instale.

Seleccione este plugin en la interfaz ChatGPT.

Una vez seleccionado esto, hay que solicitar ChatGPT, mencionando la URL del asunto y el contenido para el scraping.
He hecho esto para algunos sitios web. Mira esto.
Desguace de una publicación
Somos una publicación centrada en la tecnología, y he elegido nuestra página de inicio, geekflare.com/ para esta ilustración.
Este es el tema:
check this webpage: https://geekflare.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.

También se puede volver a preguntar para convertir los datos a formato CSV, pegarlos en un archivo de texto con extensión .csv y abrirlo en una aplicación de hoja de cálculo como MS Excel.
Cómo raspar una página web de ofertas o cupones
En Sección de ofertas de Geekflare es donde hemos seleccionado algunas ofertas sobre proyectos de alta tecnología. ¿Qué le parece buscar todas las ofertas en formato tabular?
Prepare a list of deals from this webpage: https://geekflare.com/deals/. present the result in a tabular format.

Raspado Wikipedia
Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page

Tiendas de comercio electrónico
Por último, he probado a buscar los portátiles en Amazon.com aplicando algunos filtros y enviando la URL a ChatGPT. Esto es lo que obtuve:

El problema es que éste no es un caso aislado. Encontrarás muchos casos en los que los sitios web tienen medidas anti-scraping. En esta situación, tendrás que encontrar una alternativa para obtener los datos si suscribirte a los raspadores estándar de la industria no es una opción.
En las secciones siguientes se expone una de estas soluciones.
Web Scraping con el intérprete de código ChatGPT
Code Interpreter es un motor de ChatGPT lanzado recientemente para atender tareas relacionadas con la programación. Mientras que el motor por defecto se basa en gran medida en las respuestas de texto, Código Interprete puede ayudar a visualizar resultados, analizar, depurar y ejecutar código, integrarse con binarios de software y hacer muchas más cosas relacionadas con la programación.

En este proceso, descargaremos la fuente HTMLy cargarlo en ChatGPT Code Interpreter, y proceder con el scraping.
He tomado esta página para la extracción:

Empezaremos guardando la página web como HTML. Para ello, vaya a la página web y pulse Ctrl+S
.

Ahora tenemos el archivo para raspar. Vamos a averiguar el prompt.

Además del mensaje de texto, puedes ver que le he dado elementos de muestra para acelerar el scraping. Dado que las estructuras de las páginas web de Amazon son complejas, sin estos ejemplos, el intento de raspado podría fallar o no dar ningún resultado.
Y conseguir estos elementos es bastante fácil. Haga clic con el botón derecho del ratón en cualquier lugar de la página web en cuestión y haga clic en Inspeccione del pop-over.

En primer lugar, haga clic en el icono superior (marcado como 1). Esto resaltará los detalles mientras selecciona elementos de la página. A continuación, seleccione el elemento contenedor para cualquier producto específico.

Asegúrese de seleccionar el contenedor más interior. Puedes pasar el ratón por encima y seguirá resaltándose. En el momento en que aparezca el último caparazón que cubre ese bloque, puede hacer clic y pasar al lado derecho para copiar el elemento div class
.
Del mismo modo, seleccione las muestras para otros elementos.

Finalmente, cargue el HTML y el prompt similar a este:
check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.
div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"
Esto llevará algún tiempo mientras ChatGPT Code Interpreter hace su trabajo. Tendrá unos pocos detalles, mientras que todo estará en el archivo CSV incrustado.

Puede observar que la tabla tiene algunas entradas que no están presentes en la página web original, sobre todo al principio. En estos casos, es necesario volver a comprobar y limpiar los datos para evitar redundancias.
Si hay alguna, puede volver a preguntar a ChatGPT para obtener una limpia CSV.
Reflexiones finales
ChatGPT hace muchas cosas, y el raspado web básico es una de ellas. De acuerdo, puede que no sea adecuado para alguien que esté raspando cientos de páginas. Aún así, te ayudará a empezar en la dirección correcta y es ideal para una sesión corta de scraping.
En esta guía, hemos utilizado uno de sus plugins de scraping y Code Interpreter. Mientras que los plugins funcionan en muchos sitios web estándar, el segundo método es para estructuras de páginas web personalizadas o si la página tiene elementos dinámicos (desplazamiento infinito, leer más, etc.).
Y para reiterar, revise los términos del sitio web en cuestión antes de realizar el scraping.
PD: Eche un vistazo a estos soluciones de raspado en la nube y nuestra propia API de raspado de Geekflare.
-
Hitesh trabaja como redactor sénior en Geekflare y se interesa por la ciberseguridad, la productividad, los juegos y el marketing. Además, tiene un máster en ingeniería del transporte. Su tiempo libre consiste sobre todo en jugar con su hijo, leer o tumbarse... Seguir leyendo