La extracción de datos es el proceso de recopilación de datos específicos de páginas web. Los usuarios pueden extraer texto, imágenes, vídeos, reseñas, productos, etc. Puede extraer datos para realizar estudios de mercado, análisis de sentimientos, análisis de la competencia y datos agregados.
Si se trata de una pequeña cantidad de datos, puede extraerlos manualmente copiando y pegando la información específica de las páginas web en una hoja de cálculo o en el formato de documento que desee. Por ejemplo, si, como cliente, está buscando reseñas en línea que le ayuden a tomar una decisión de compra, puede desechar los datos manualmente.
En cambio, si se trata de grandes conjuntos de datos, necesitará una técnica automatizada de extracción de datos. Puede crear una solución interna de extracción de datos o utilizar la API Proxy o la Raspado de API para este tipo de tareas.
Sin embargo, estas técnicas pueden ser menos eficaces, ya que algunos de los sitios a los que se dirige pueden estar protegidos por captchas. También es posible que tenga que gestionar bots y proxies. Estas tareas pueden quitarle mucho tiempo y limitar la naturaleza del contenido que puede extraer.

Puede superar todos estos retos gracias al Raspado Navegador de Bright Data. Este navegador todo en uno ayuda a recopilar datos de sitios web que son difíciles de raspar. Es un navegador que utiliza una interfaz gráfica de usuario (GUI) y está controlado por Puppeteer o Playwright API, lo que lo hace indetectable para los bots.
Scraping Browser lleva incorporadas funciones de desbloqueo que gestionan automáticamente todos los bloques en su nombre. El navegador se abre en los servidores de Bright Data, lo que significa que no necesita una costosa infraestructura interna para raspar datos para sus proyectos a gran escala.
Características de Bright Data Scraping Browser
- Desbloqueo automático de sitios web: No tiene que estar actualizando el navegador, ya que éste se ajusta automáticamente para gestionar la resolución de CAPTCHA, los nuevos bloques, las huellas digitales y los reintentos. Scraping Browser imita a un usuario real.
- Una gran red de proxies: Puede dirigirse a cualquier país que desee, ya que Scraping Browser cuenta con más de 72 millones de IP. Puede dirigirse a ciudades o incluso a compañías aéreas y beneficiarse de la mejor tecnología de su clase.
- Escalable: Puede abrir miles de sesiones simultáneamente, ya que este navegador utiliza la infraestructura de Datos brillantes para gestionar todas las solicitudes.
- Compatible con Titiritero y Dramaturgo: Este navegador le permite realizar llamadas a la API y obtener cualquier número de sesiones del navegador utilizando Puppeteer (Python) o Playwright (Node.js).
- Ahorra tiempo y recursos: En lugar de configurar proxies, el Scraping Browser se encarga de todo en segundo plano. Tampoco tendrá que configurar una infraestructura propia, ya que esta herramienta se encarga de todo en segundo plano.
Cómo configurar Scraping Browser
- Diríjase al sitio web de Bright Data y haga clic en Raspado Browser en la pestaña "Scraping Solutions".
- Cree una cuenta. Verá dos opciones; "Iniciar prueba gratuita" e "Iniciar gratis con Google". Escojamos por ahora "Iniciar prueba gratuita" y pasemos al siguiente paso. Puede crear la cuenta manualmente o utilizar su cuenta de Google.

- Una vez creada su cuenta, el panel de control le presentará varias opciones. Seleccione "Proxies e infraestructura de raspado".

- En la nueva ventana que se abre, seleccione Scraping Browser y haga clic en "Empezar".

- Guarde y active sus configuraciones.

- Active su prueba gratuita. La primera opción le da un crédito de 5 dólares que puede utilizar para el uso de su proxy. Haga clic en la primera opción para probar este producto. Sin embargo, si usted es un usuario intensivo, puede hacer clic en la segunda opción que le da $50 gratis si carga su cuenta con $50 o más.

- Introduzca sus datos de facturación. No se preocupe, ya que la plataforma no le cobrará nada. La información de facturación sólo verifica que usted es un nuevo usuario y que no busca regalos creando varias cuentas.

- Cree un nuevo proxy. Una vez que haya guardado sus datos de facturación, podrá crear un nuevo proxy. Haga clic en el icono "añadir" y seleccione Navegador de raspado como "Tipo de proxy". Haga clic en "Añadir proxy" y pase al siguiente paso.

- Cree una nueva "zona". Aparecerá una ventana emergente preguntándole si desea crear una nueva Zona; haga clic en "Sí" y continúe.

- Haga clic en "Comprobar código y ejemplos de integración". Ahora obtendrá ejemplos de integración de Proxy que puede utilizar para scrapear datos de su sitio web de destino. Puede utilizar Node.js o Python para extraer datos de su sitio web de destino.

Cómo extraer datos de un sitio web
Ahora tiene todo lo que necesita para extraer datos de un sitio web. Utilizaremos nuestro sitio web, geekflare.com, para demostrar cómo funciona Scraping Browser. Para esta demostración, utilizaremos node.js. Puede seguirnos si tiene node.js instalado.
Siga estos pasos;
- Cree un nuevo proyecto en su máquina local. Navegue hasta la carpeta y cree un archivo, nombrándolo script.js. Ejecutamos el código de raspado localmente y mostramos los resultados en nuestro terminal.
- Abra el proyecto en su editor de código favorito. Yo estoy utilizando VsCode.
- Instale el titiritero. Utilice este comando para;
npm i puppeteer-core
- Añada este código al archivo
script.js
;
const puppeteer = require('puppeteer-core');
// debería parecerse a 'brd-customer-<ID DE CUENTA>-zone-<NOMBRE DE ZONA>:<PASSWORD>'
const auth='USERNAME:PASSWORD';
async function run(){
let browser;
try {
browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});
const page = await browser.newPage();
page.setDefaultNavigationTimeout(2*60*1000);
await page.goto('https://example.com');
const html = await page.evaluate(() => document.documentElement.outerHTML);
console.log(html);
}
catch(e) {
console.error('run failed', e);
}
finally {
await browser?.close();
}
}
if (require.main==module)
run();
- Cambie el contenido en
const auth='USERNAME:PASSWORD';
con los detalles de su cuenta. Compruebe su Nombre de usuario, Nombre de zona y Contraseña en la pestaña "Parámetros de acceso". - Introduzca su URL de destino. En mi caso, quiero extraer los datos de todos los autores de geekflare.com, que se encuentran en https://geekflare.com/authors.
Cambiaré mi código de la línea 10 para que sea el siguiente
await page.goto(<a href="https://geekflare.com/es/authors/" target="_blank" rel="noopener">'https://geekflare.com/authors/'</a>);
Mi código final ahora será
const puppeteer = require('puppeteer-core');
// debería parecerse a 'brd-cliente-<ID DE CUENTA>-zona-<NOMBRE DE ZONA>:<PASSWORD>'
const auth='brd-cliente-hl_bc09fed0-zona-zona2:ug9e03kjkw2c';
async function run(){
let browser;
try {
browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222`});
const page = await browser.newPage();
page.setDefaultNavigationTimeout(2*60*1000);
await page.goto('https://geekflare.com/authors/');
const html = await page.evaluate(() => document.documentElement.outerHTML);
console.log(html);
}
catch(e) {
console.error('run failed', e);
}
finally {
await browser?.close();
}
}
if (require.main==module)
run();
- Ejecute su código utilizando este comando
node script.js
Tendrá algo como esto en su terminal
Cómo exportar los datos
Puede utilizar varios enfoques para exportar los datos, dependiendo de cómo pretenda utilizarlos. Hoy, podemos exportar los datos a un archivo html cambiando el script para crear un nuevo archivo llamado data.html en lugar de imprimirlo en la consola.
Puede cambiar el contenido de su código de la siguiente manera;
const puppeteer = require('puppeteer-core');
const fs = require('fs');
// debería parecerse a 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
const auth = 'brd-cliente-hl_bc09fed0-zona-zona2:ug9e03kjkw2c';
async function run() {
let browser;
try {
browser = await puppeteer.connect({ browserWSEndpoint: `wss://${auth}@zproxy.lum-superproxy.io:9222` });
const page = await browser.newPage();
page.setDefaultNavigationTimeout(2 * 60 * 1000);
await page.goto('https://geekflare.com/authors/');
const html = await page.evaluate(() => document.documentElement.outerHTML);
// Escribe el contenido HTML en un archivo
fs.writeFileSync('data.html', html);
console.log('Exportación de datos completada.');
} catch (e) {
console.error('run failed', e);
} finally {
await browser?.close();
}
}
if (require.main == module) {
run();
}
Ahora puede ejecutar el código utilizando este comando
node script.js
Como puede ver en la siguiente captura de pantalla, el terminal muestra un mensaje que dice "exportación de datos completada".

Si comprobamos la carpeta de nuestro proyecto, ahora podemos ver un archivo llamado data.
html con miles de líneas de código.

¿Qué se puede extraer con Scraping Browser?
Sólo he arañado la superficie de cómo extraer datos utilizando el Scraping browser. Incluso puedo acotar y raspar sólo los nombres de los autores y sus descripciones utilizando esta herramienta.
Si desea utilizar el Scraping Browser, identifique los conjuntos de datos que desea extraer y modifique el código en consecuencia. Puede extraer texto, imágenes, vídeos, metadatos y enlaces, en función del sitio web al que se dirija y de la estructura del archivo HTML.
Preguntas frecuentes
El web scraping es un tema controvertido, ya que un grupo dice que es inmoral mientras que otros opinan que está bien. La legalidad del web scraping dependerá de la naturaleza del contenido que se esté raspando y de la política de la página web de destino.
En general, el scraping de datos con información personal, como direcciones y detalles financieros, se considera ilegal. Antes de hacer scraping de datos, compruebe si la página web de destino tiene alguna directriz al respecto. Asegúrese siempre de no scrapear aquellos datos que no estén disponibles públicamente.
No. Scraping Browser es un servicio de pago. Si se registra para una prueba gratuita, la herramienta le da un crédito de 5 $. Los paquetes de pago empiezan a partir de 15 $/GB 0,1 $/h. También puede optar por la opción de pago por uso que parte de 20 $/GB $0,1/h.
Scraping Browser es un navegador con cabeza, lo que significa que tiene una interfaz gráfica de usuario (GUI). En cambio, los navegadores sin cabeza no tienen interfaz gráfica. Los navegadores sin cabeza, como Selenium, se utilizan para automatizar el raspado web, pero a veces están limitados, ya que tienen que lidiar con CAPTCHAs y la detección de bots.
Conclusión
Como puede ver, Raspado Browser simplifica la extracción de datos de páginas web. Scraping Browser es fácil de usar en comparación con herramientas como Selenium. Incluso los no desarrolladores pueden utilizar este navegador con una interfaz de usuario impresionante y una buena documentación. La herramienta cuenta con capacidades de desbloqueo no disponibles en otras herramientas de scraping, lo que la hace eficaz para todos aquellos que quieran automatizar este tipo de procesos.
También puede explorar cómo evitar que los plugins ChatGPT raspen el contenido de su sitio web.