Eine detaillierte Anleitung zum Web Scraping mit ChatGPT Code Interpreter und seinen Plugins.
Wenn Sie keine Lust haben, etwas Neues zu kreieren, brauchen Sie wahrscheinlich ein paar Vorabinformationen, um anzufangen. Oder Sie möchten sich bei der Konkurrenz umsehen, um wertvollen Input zu erhalten. Außerdem kann es unzählige Gründe geben, warum sich jemand für den Inhalt einer bestimmten Website interessiert.
Web Scraping ist der Prozess, der solche Anwendungsfälle bedient.
Und es gibt einige Möglichkeiten, dies zu tun. Es gibt schwergewichtige Tools, die Sie für professionelles Scraping von großen Websites abonnieren können. Oder Sie benötigen eine spezielle Einrichtung für die Verarbeitung vor Ort.
In jedem Fall ist der Ansatz teuer, zeitaufwändig und für Anfänger mühsam, vor allem wenn es um das Scraping einiger weniger Webseiten geht.
Überblick über ChatGPT für Web Scraping
Ich sollte Ihnen ChatGPT eigentlich nicht vorstellen. Muss ich das?
Kurz gesagt, ChatGPT ist eine generative KI, die wie ein Mensch reagiert. Sie erhalten eine Chat-Oberfläche, über die Sie sie bitten können, verschiedene Aufgaben zu erledigen, z. B. sich über historische Ereignisse zu informieren, Aufsätze zu schreiben, Zusammenfassungen zu erstellen, zu übersetzen, zu codieren usw.
ChatGPT antwortet in Textform. Es gibt jedoch ChatGPT-Plugins, die seine Fähigkeiten in vielerlei Hinsicht erweitern. Und wir werden ein solches Plugin verwenden. Außerdem verwenden wir den Code Interpreter für das Scraping von Websites mit komplizierten Strukturen oder mit aktiven Anti-Scraping-Protokollen.
Bitte beachten Sie, dass es von ChatGPT kostenlose und kostenpflichtige Versionen gibt. Für die Nutzung des Web Scraper Plugins oder der Code Interpreter Engine benötigen Sie jedoch ein kostenpflichtiges Abonnement (derzeit $20 pro Monat).
In den weiteren Abschnitten werde ich Ihnen den Vorgang Schritt für Schritt erläutern.
Haftungsausschluss: Bevor Sie fortfahren, vergewissern Sie sich bitte, dass die betreffende Website das Scrapen ihrer Inhalte erlaubt. Sollte dies nicht der Fall sein, können Sie sich an den Administrator wenden und fragen, ob er es Ihnen erlaubt, um rechtliche Probleme zu vermeiden.
Web Scraping mit dem ChatGPT Plugin
Loggen Sie sich in Ihr OpenAI-Konto ein, fahren Sie mit dem Mauszeiger über GPT-4 (die aktuelle kostenpflichtige Version) und klicken Sie auf Plugins.
Klicken Sie dann auf Keine Plugins aktiviert, scrollen Sie nach unten und klicken Sie auf Plugin Store.
Bitte beachten Sie, dass anstelle von Keine Plugins aktiviert ein Plugin-Symbol angezeigt wird, wenn eines aktiv ist. In diesem Fall müssen Sie auf dieses Symbol klicken, um das Dropdown-Menü zu öffnen, und unten auf den Plugin-Store klicken.
Dadurch wird der Plugin-Store geöffnet. Suchen Sie nach Scraper und klicken Sie auf Installieren.
Wählen Sie dieses Plugin in der ChatGPT-Oberfläche aus.
Sobald es ausgewählt ist, müssen Sie ChatGPT auffordern, die Betreff-URL und den zu scrappenden Inhalt zu nennen.
Ich habe dies für einige Websites getan. Sehen Sie sich das an.
Scraping einer Veröffentlichung
Wir sind eine technisch orientierte Publikation und ich habe unsere Homepage, geekflare.com/de/, für diese Illustration ausgewählt.
Hier ist die Aufforderung:
überprüfen Sie diese Webseite: https://geekflare.com/de/ und bereiten Sie eine Tabelle vor, die den Titel des Artikels, den Autor, das Veröffentlichungsdatum und den Auszug für die 10 wichtigsten Artikel enthält.
Sie können die Daten auch in das CSV-Format konvertieren, sie in eine Textdatei mit der Erweiterung .csv einfügen und sie in einer Tabellenkalkulation wie MS Excel öffnen.
Scraping einer Deal- oder Coupon-Webseite
Im Geekflare-Deals-Bereich haben wir einige Angebote für Top-Tech-Projekte ausgewählt. Wie wäre es, wenn Sie jeden Deal in einem Tabellenformat abrufen?
Bereiten Sie eine Liste der Angebote von dieser Webseite vor: https://geekflare.com/de/deals/. Präsentieren Sie das Ergebnis in einem Tabellenformat.
Scraping von Wikipedia
Fassen Sie die neuesten Nachrichten aus dem Abschnitt "In den Nachrichten" dieser Wikipedia-Seite in einem Tabellenformat zusammen: https://en.wikipedia.org/wiki/Main_Page
Scraping von E-Commerce-Shops
Schließlich habe ich versucht, Amazon.com für die Laptops zu scrapen, indem ich ein paar Filter anwandte und die URL in ChatGPT einspeiste. Das war das Ergebnis:
Das Problem ist, dass dies kein Einzelfall ist. Sie werden viele solcher Fälle finden, in denen die Websites Anti-Scraping-Maßnahmen haben. In einer solchen Situation müssen Sie eine Alternative finden, um an die Daten zu gelangen, wenn ein Abonnement bei branchenüblichen Scrapern nicht in Frage kommt.
In den folgenden Abschnitten finden Sie eine solche Lösung.
Web Scraping mit ChatGPT Code Interpreter
Code Interpreter ist eine neu eingeführte ChatGPT-Engine, die sich um programmierbezogene Aufgaben kümmert. Während sich die Standard-Engine stark auf Textantworten stützt, kann Code Interpreter dabei helfen, Ausgaben zu visualisieren, Code zu parsen, zu debuggen und auszuführen, Software-Binärdateien zu integrieren und viele weitere programmierbezogene Dinge zu tun.
In diesem Prozess werden wir den HTML-Quelltext herunterladen, ihn in ChatGPT Code Interpreter hochladen und mit dem Scraping fortfahren.
Ich habe diese Seite zum Extrahieren genommen:
Wir beginnen damit, die Webseite als HTML zu speichern. Rufen Sie dazu die Webseite auf und drücken Sie Strg S
.
Jetzt haben wir die Datei für das Scraping. Lassen Sie uns die Eingabeaufforderung herausfinden.
Wie Sie sehen können, habe ich zusätzlich zur Textaufforderung Beispielelemente angegeben, um das Scraping zu beschleunigen. Da die Webseitenstrukturen von Amazon komplex sind, könnte der Scraping-Versuch ohne diese Beispiele fehlschlagen oder zu nichts führen.
Und diese Elemente zu erhalten ist ziemlich einfach. Klicken Sie mit der rechten Maustaste auf eine beliebige Stelle der betreffenden Webseite und klicken Sie im Popup-Fenster auf Inspizieren.
Klicken Sie zunächst auf das oberste Symbol (markiert als 1). Dadurch werden die Details hervorgehoben, während Sie Elemente auf der Seite auswählen. Als nächstes wählen Sie das Container-Element für ein bestimmtes Produkt aus.
Achten Sie bitte darauf, dass Sie den innersten Container auswählen. Wenn Sie mit dem Mauszeiger darüber fahren, wird er weiterhin hervorgehoben. Sobald Sie die letzte Hülle dieses Blocks sehen, können Sie darauf klicken und zur rechten Seite gehen, um die div-Klasse
des Elements zu kopieren.
Wählen Sie auf ähnliche Weise die Muster für andere Elemente aus.
Laden Sie schließlich den HTML-Code hoch und geben Sie eine Eingabeaufforderung wie die folgende ein:
sehen Sie sich diese Webseite an und extrahieren Sie die Laptoptitel, den Preis und die Bewertungen. Präsentieren Sie das Ergebnis in tabellarischer Form innerhalb dieser Chat-Oberfläche und geben Sie die Ergebnisse auch in einer CSV-Datei zum Download frei.
div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
beispiel-Titel-Element: span class="a-size-medium a-color-base a-text-normal"
beispiel Preis-Element: span class="a-preis-gesamt"
beispiel für ein Bewertungselement: span class="a-size-base puis-bold-weight-text"
Dies wird einige Zeit dauern, während ChatGPT Code Interpreter seine Arbeit macht. Sie werden nur wenige Details haben, während alles andere in der eingebetteten CSV-Datei zu finden sein wird.
Sie werden feststellen, dass die Tabelle einige Einträge enthält, die auf der Original-Webseite nicht vorhanden sind, insbesondere am Anfang. In solchen Fällen müssen Sie die Daten auf Redundanzen hin überprüfen und bereinigen.
Falls es welche gibt, können Sie ChatGPT erneut aufrufen, um eine saubere CSV-Datei zu erhalten.
Abschließende Überlegungen
ChatGPT kann viele Dinge, und grundlegendes Web Scraping ist eines davon. Zugegeben, es ist vielleicht nicht für jemanden geeignet, der Hunderte von Seiten auslesen möchte. Dennoch bietet es Ihnen einen guten Einstieg und ist ideal für eine kurze Scraping-Sitzung.
In diesem Leitfaden haben wir eines seiner Scraping-Plugins und Code Interpreter verwendet. Während die Plugins bei vielen Standard-Websites funktionieren, ist die zweite Methode für benutzerdefinierte Webseitenstrukturen oder wenn die Seite dynamische Elemente enthält (endloses Scrollen, Weiterlesen usw.).
Und um es noch einmal zu wiederholen: Informieren Sie sich vor dem Scraping über die Bedingungen der jeweiligen Website.
PS: Sehen Sie sich diese Cloud Scraping-Lösungen und unsere eigene Geekflare Scraping-API an.