ChatGPT-4 vs. ChatGPT-3.5 Standard vs. ChatGPT-3.5 Legacy: Getestete Unterschiede

Es wird erwartet, dass ChatGPT 4.0 große Wellen im Chatbot-Universum schlagen wird. Aber ist er wirklich besser als sein Vorgänger? Finden wir es heraus.

ChatGPT war nur die Spitze des aufkommenden Automatisierungseisbergs, denn Google, Microsoft und viele andere KI-erfahrene Unternehmen werden folgen.

Für den Anfang haben wir ein paar Chatbots wie ChatGPT gefunden, von denen viele nicht zu Big Tech gehören.

Aber nennen Sie es die Macht des Marketings; ChatGPT ist immer noch der amtierende König aller KI-Bots. Er kann viele Dinge tun, darunter Mathematik, Poesie und Blogposts, und wird sogar zum Einreichen von Klagen verwendet.

DoNotPay is working on using GPT-4 to generate "one click lawsuits" to sue robocallers for $1,500. Imagine receiving a call, clicking a button, call is transcribed and 1,000 word lawsuit is generated. GPT-3.5 was not good enough, but GPT-4 handles the job extremely well: pic.twitter.com/gplf79kaqG
— Joshua Browder (@jbrowder1) March 14, 2023

Viele Fachleute machen sich Sorgen, dass ihre Fähigkeiten in naher Zukunft nutzlos werden könnten.

Ich habe jedoch einen Beitrag auf Linkedin gelesen, in dem es hieß:

KI wird Sie nicht ersetzen, aber ein Mensch, der KI nutzt, kann es.

Drücken wir also die Daumen und informieren wir uns über das neueste ChatGPT-Update und sehen wir, wie es sich von seinen Vorgängerversionen unterscheidet.

ChatGPT: Legacy, Standard und das Update

Es gibt also drei Versionen, die den zahlenden Nutzern zur Verfügung stehen: Legacy (3.5), Default (3.5) und das aktuelle ChatGPT Update (4).

Wir werden uns zwar ein wenig mit ihren Fähigkeiten befassen, aber hier ist, was OpenAI zu den Unterschieden zu sagen hat:

Während kostenlose Nutzer also nur Legacy 3.5 zum Spielen haben, bietet das Premium-Abonnement alle drei an, um zu versuchen, was die Nutzer für das Beste halten.

Zusammenfassend lässt sich sagen, dass es bei den kostenpflichtigen Plänen darum geht, genauere Ergebnisse mit einer angemessenen Geschwindigkeit zu erhalten. Die Unterschiede werden jedoch nur deutlich, wenn die Eingabeaufforderungen kompliziert sind und Kreativität erfordern.

Parameter	ChatGPT 4	ChatGPT 3.5
Bar Exam Score	Obere 10%	Untere 10%
AI2 Reasoning Herausforderung (ARC)	96.3%	85.2%
Python Coding Ergebnis	67%	48.1%
Visuelle Interpretation	Ja	Nein
Kontext	Über 25k Wörter	Weniger

Quelle: OpenAI

Außerdem kann ChatGPT 4 visuelle Eingaben akzeptieren.

Nun, genug von den Lehrbuchdefinitionen. Machen wir uns die Hände schmutzig und bewerten diese Kandidaten auf dem Schlachtfeld des wirklichen Lebens.

Weitere Abschnitte sind voll von Bildern, die unklar erscheinen könnten. Klicken Sie in einem solchen Fall mit der rechten Maustaste auf ein Bild und wählen Sie In einem neuen Tab öffnen, um es richtig anzuzeigen.

Mathematik

Als Diplom-Ingenieur kann ich nicht umhin, ihnen einige grundlegende Probleme zu stellen. Beginnen wir ganz einfach mit algebraischen Gleichungen.

Stufe I

Viele von uns kennen diese Gleichungen ax2 bx c=0, bei denen wir X lösen müssen. Hier habe ich diese einfache Aufforderung gegeben: Lösen Sie x: ^x2 x – 6 = 0

Zwar gaben alle die gleiche Wurzel an (X= -3,2), aber Legacy und das Update waren sich ähnlicher, da sie die Formel direkt verwendeten (wie jeder Schüler), um das Ergebnis herauszufinden.

In Standard 3.5 wurden jedoch zwei Methoden erklärt, darunter die Faktorisierung, die normalerweise jeder geübte Schüler bei solch banalen Gleichungen anwendet.

Stufe II

Als nächstes fordere ich das Programm auf, eine etwas komplexere kubische Gleichung zu lösen: x^3 -12x^2 48x – 64 = 0.

Das hat wirklich bewiesen, warum ChatGPT 4 das “Update” ist.

Hier sind die Antworten:

Bei all dem Hype konnten ChatGPT Legacy und Default eine allgemeine kubische Gleichung nicht lösen. Legacy schnitt jedoch etwas besser ab und fand zwei Wurzeln richtig, während Default bei allen versagte.

Update war der klare Sieger in der zweiten Phase und löste die Gleichung perfekt, indem es alle drei Wurzeln mit einer schönen Erklärung fand.

Logisches Denken

Wir können mit Sicherheit davon ausgehen, dass die meisten elementaren mathematischen Probleme Lösungen im Wörterbuch haben. Wenn Sie das Theorem oder die Formel kennen, geben Sie die Werte ein und erhalten die Ergebnisse.

Und da ChatGPT eine KI ist, kann es solche Abfragen schnell erledigen. Logisches Denken ist jedoch ein anderes Gebiet, bei dem die Wahrscheinlichkeit groß ist, dass die KI versagt.

Stufe I

Ich habe ihnen den Klassiker gegeben:

A ist älter als B.
C ist älter als A.
B ist älter als C.
Ist die dritte Aussage wahr oder falsch, wenn die ersten beiden Aussagen wahr sind?

Und alle ChatGPT-Versionen lagen richtig, indem sie die dritte Aussage für falsch erklärten.

Als nächstes habe ich Namen anstelle des Alphabets verwendet, und die Ergebnisse könnten Sie überraschen:

Default 3.5 blieb also weiterhin unterdurchschnittlich und kam mit dieser bescheidenen Variante durcheinander. Dennoch schnitten Legacy und Update optimal ab.

Stufe II

Sie haben vielleicht schon bemerkt, dass der Zweck dieser Phase I und Phase II darin besteht, den Punkt des Unterschieds zu finden, an dem die Komplexität einer bestimmten Eingabeaufforderung das Update von den anderen beiden abhebt.

In diesem Fall war die Aufforderung ein einfaches logisches Rätsel:

Eines Morgens, nach Sonnenaufgang, stand Rohit vor einem Pfahl. Der Schatten des Mastes fiel genau auf seine rechte Seite. In welche Richtung hat er geschaut?
a. Norden
b. West
c. Süden
d. Osten

Diese Frage brachte Legacy dazu, eine ungenaue Antwort zu geben, während Default mit vagen Erklärungen antwortete, die zu einer falschen Schlussfolgerung führten.

Nur das Update glänzte mit der richtigen Antwort, mit leicht verständlichen Aussagen.

Briefe

Das Einreichen von Klagen kann schwierig sein, aber manchmal kommt es gar nicht so weit, wenn Sie eine eindrucksvolle erste Mitteilung verfassen können.

Hier habe ich mich an diese Aufforderung gehalten: Schreiben Sie einen Brief an Tim Cook, damit er mir Apple aushändigt, weil er auf einen meiner Tweets nicht geantwortet hat.

Witzig, ja! Aber schauen wir mal, was die KI daraus machen kann.

Der Legacy 3.5 hat die Aufforderung sofort wie ein Robo-Sklave übernommen und einen Brief verfasst, der mich zu einem ausgezeichneten Gegenstand des Spotts machen könnte, wenn er jemals sein Ziel erreichen würde.

Die Voreinstellung war auch nicht gut. Aber er hat mich einfach abgeschaltet, wie es ein mürrischer alter Mann mit einem Fünfjährigen tun würde.

Die Argumente waren zwar treffsicher, aber damit war der Spaß auf der Stelle vorbei und ich lernte kaum etwas.

Die Aufgabe war zwar einfach genug, aber sie erforderte etwas Nachdenken und Kreativität. Und hier kam der große Bruder, das Update, ins Spiel:

Erstens war sie nahezu perfekt formuliert. Zweitens ersparte es mir eine Google-Suche nach der Adresse des Apple-Hauptsitzes (obwohl man solche Einträge überprüfen sollte).

Drittens war es schön geschrieben, mit einem offiziellen Ton und einer humorvollen Note. Außerdem war die Absicht schon in der Betreffzeile klar.

Und dennoch vermittelte der Brief das Gefühl eines verärgerten Apple-Fans.

Damit ist ChatGPT 4 (auch bekannt als das Update) seinen alten Cousins meilenweit voraus. Er ist erschreckend intelligent und hat einige Anzeichen von gesundem Menschenverstand, so dass er mehr ist als ein langweiliger Chatbot.

Poesie

Bei der Einführung von ChatGPT dachte ich, dass Poesie seine Schwachstelle sein könnte.

Schließlich braucht es Emotionen, Kreativität und viel Mühe, damit ein Mensch etwas erschafft, das seine Leser wirklich anspricht.

Einfach ausgedrückt: Poesie ist Kunst vom Feinsten, und insgeheim wünschte ich mir, dass die KI versagt. Aber das war, bevor mein Kollege uns alle im Slack-Kanal von Geekflare mit einer ChatGPT-Kreation aus der Zeit vor dem 4.0-Update hart getroffen hat.

Stufe I

Hier ist die Aufforderung, die ich unseren Kandidaten gegeben habe: “Drücken Sie auf poetische Weise aus, warum es für die Dominos-Pizzakette von Vorteil sein kann, neben ihrer aktuellen Speisekarte auch Burger zu servieren oder nicht. Halten Sie es unter 100 Wörtern.”

Können Sie den Unterschied erkennen?

Die Version von Default war ultrakurz, nur 32 Wörter, und konnte die verfügbare Bandbreite nicht ausnutzen, um ihre Kreativität zu zeigen.

The Legacy hat zwar die meisten Wörter unter den dreien verwendet, kommt aber zu dem Schluss, dass das Unterfangen, nebenher Pizzen zu servieren, nicht riskant ist und so oder so zum Erfolg führen wird, was nicht ganz stimmt.

Die Poesie des Updates bestand aus nur 53 Wörtern und verschwendete damit fast die Hälfte der zugewiesenen Wortzahl. Dennoch war er sich über die Vorteile und potenziellen Fallstricke im Klaren und konnte zu keinem Ergebnis kommen, was, so denke ich, humaner ist als der Rest.

Phase II

Als nächstes bat ich sie alle, “einem Fünfjährigen die Poesie zu erklären”

Interessanterweise konnte Legacy den Kontext nicht aus dem Gespräch entnehmen und erklärte “Poesie” wörtlich. Default nahm den Kontext auf und fasste ihn in einem Absatz zusammen, was immer noch anständig ist.

ChatGPT 4 setzt den Trend fort und vereinfacht seine Kreativität, ohne dabei den poetischen Charakter zu verlieren.

ChatGPT Premium vs. ChatGPT Free

Da Free kostenlos ist, mangelt es ihm an Geschwindigkeit und Genauigkeit. Es ist kein Vergleich zu ChatGPT 4, aber es ist auch nicht völlig nutzlos.

Um den Vergleich auf einer ebenen Basis durchzuführen, habe ich ihm die gleichen Prompts zugeworfen, mit denen wir Legacy, Default und Update getestet haben.

🔵 Mathematik: Es löste die quadratischen Gleichungen, gab aber die falschen Antworten für die kubischen. (wie Legacy und Default)

🔵 Logical Reasoning: Hat die erste Stufe mit Alphabeten und Namen bestanden, ist aber bei der zweiten durchgefallen (wie Legacy).

🔵 Briefe: Hat den Brief nicht geschrieben und hielt die Aufforderung für unethisch und unangemessen. (wie der Standard)

🔵 Poesie: Hat ein Gedicht in 30 Wörtern verfasst und es anständig erklärt. (ähnlich wie bei der Standardversion).

Wir können also feststellen, dass auch die kostenlose Version nicht schlecht ist. Sie ist sogar gleichwertig mit Default 3.5 und in einigen Aspekten sogar besser.

Lesen Sie auch: Leistungsstarke Prompts zur Verbesserung Ihrer ChatGPT-Erfahrung

Der Weg in die Zukunft

Die Gerüchte, dass KI in Zukunft Arbeitsplätze ersetzen wird, sind nicht völlig falsch.

Zuerst hat die Automatisierung dies in der Fertigungsindustrie getan, und jetzt breitet sie ihre Flügel überall sonst aus.

Ich persönlich bin beim Lösen von kubischen Gleichungen, beim Verfassen von Gedichten oder beim Schreiben von Briefen viel schneller als sie. Aber die Tatsache, dass sie selten NEIN zu einer Aufforderung sagt und kaum aus ihren Fehlern lernt, lässt sie weit hinter uns Menschen zurückfallen.

Um es noch einmal zu sagen: KI wird uns nicht ersetzen, aber jemand, der KI einsetzt, kann es.

Hier bei Geekflare nutzt unser Marketingteam ChatGPT auf interessante Weise. Zum Beispiel haben wir vor kurzem den Meilenstein von 100 Millionen Aufrufen erreicht und unser CEO hatte die Idee, dies mit einem Werbegeschenk an das Publikum zurückzugeben.

Und ich vermute, die Marketingleute brauchten einen Titel, um die Aufmerksamkeit der Leser zu wecken. Sie gaben also eine Aufforderung vor und baten ChatGPT, ein paar Variationen vorzuschlagen, wie diese:

Außerdem verwenden wir es zur Zusammenfassung von Inhalten, zur Grammatikprüfung, zum Vorschlagen von Titeln für neue Artikel und so weiter.

Es gibt also viele Möglichkeiten, die Vorteile von KI zu nutzen und Stereotypen zu überwinden, die KI als nutzlosen Schrott bezeichnen.

Das Einzige, woran Sie denken sollten, ist, dass es jemanden (einen Menschen) geben muss, der die Arbeit der KI beurteilt, da sie (grob) ungenau und irreführend sein kann.

Das Update hat es wirklich in sich!

In meiner kurzen Begegnung fühlte sich ChatGPT 4 kreativer, verständnisvoller und realistischer an. Trotzdem ist es eine Maschine und kann getrost falsche Antworten geben.

Aber es ist erstaunlich, wie sehr OpenAI dieses Projekt in nur wenigen Monaten aufgerüstet hat.

Und ich kann es kaum erwarten, die Magie zu sehen, mit der uns das nächste Update verwirren wird!

PS: Nicht nur ein Chat-Fenster; nutzen Sie seine Macht mit diesen besten ChatGPT Chrome-Erweiterungen. Und haben Sie schon einmal daran gedacht, ChatGPT mit Siri zu integrieren?

Hitesh Sant
Beitragender
- LinkedIn
Hitesh Sant ist Senior Technical Writer bei Geekflare und berichtet über Cybersicherheit, Betriebssysteme, generative KI und Kryptowährungen. Bei seinen Artikeln profitiert er von seiner praktischen Erfahrung mit heißer SaaS-Software und den neuesten Technologien, mit dem Ziel, komplexe technologische Konzepte für Endverbraucher zu entmystifizieren.