ChatGPT-4 frente a ChatGPT-3.5 Default frente a ChatGPT-3.5 Legacy: Diferencias comprobadas

Se espera que ChatGPT 4.0 haga grandes olas en el universo de los chatbot. Pero, ¿es realmente superior a su predecesor? Vamos a comprobarlo.

ChatGPT era sólo la punta del iceberg de la próxima automatización, con Google, Microsoft y muchas otras empresas que apuestan por la IA siguiendo su ejemplo.

Para empezar, hemos encontrado unos cuantos chatbots como ChatGPT, muchos de los cuales no pertenecen a las grandes tecnológicas.

Pero llamémoslo el poder del marketing; ChatGPT sigue siendo el rey reinante de todos esos robots de IA. Puede hacer muchas cosas, incluidas matemáticas, poesía y entradas de blog, y la gente lo está utilizando incluso para presentar demandas.

DoNotPay is working on using GPT-4 to generate "one click lawsuits" to sue robocallers for $1,500. Imagine receiving a call, clicking a button, call is transcribed and 1,000 word lawsuit is generated. GPT-3.5 was not good enough, but GPT-4 handles the job extremely well: pic.twitter.com/gplf79kaqG
— Joshua Browder (@jbrowder1) March 14, 2023

Tiene a decenas de profesionales preocupados por la inutilidad de sus habilidades en un futuro próximo.

Sin embargo, he leído un post en Linkedin que decía

La IA no le sustituirá, pero una persona que utilice la IA puede hacerlo.

Así que, cruzando los dedos, informémonos sobre la última actualización de ChatGPT y veamos en qué se diferencia de sus versiones anteriores.

ChatGPT: Legacy, Default y la actualización

Así que hay tres versiones disponibles para los usuarios de pago: Legacy (3.5), Default (3.5), y la reciente Actualización de ChatGPT (4).

Aunque profundizaremos un poco más en sus capacidades, esto es lo que OpenAI tiene que decir sobre las diferencias:

Así, mientras que los usuarios gratuitos sólo disponen de Legacy 3.5 para jugar, la suscripción premium ofrece las tres para probar y decantarse por la que los usuarios consideren mejor.

Para resumir la imagen anterior, los planes de pago consisten en obtener resultados más precisos a una velocidad decente. Sin embargo, las distinciones sólo son evidentes si las indicaciones son complicadas y necesitan creatividad.

Parámetros	ChatGPT 4	ChatGPT 3.5
Puntuación del examen	10% superior	10% inferior
Desafío de razonamiento AI2 (ARC)	96.3%	85.2%
Puntuación en codificación Python	67%	48.1%
Interpretación visual	Sí	No
Contexto	Más de 25k palabras	Menos de

Fuente: OpenAI

Además, ChatGPT 4 puede aceptar entradas visuales.

Bueno, basta ya de definiciones de manual. Ensuciémonos las manos y evaluemos a estos candidatos en el campo de batalla de la vida real.

Las secciones siguientes están llenas de imágenes que pueden parecer poco claras. En tal caso, haga clic con el botón derecho en cualquier imagen y seleccione Abrir en una nueva pestaña para verla correctamente.

Matemáticas

Al ser licenciado en ingeniería, no puedo evitar plantearles algunos problemas básicos. Empecemos fácilmente con ecuaciones algebraicas.

Fase I

Muchos de nosotros hemos visto estas ecuaciones ax2 bx c=0, en las que tenemos que resolver para X. Aquí, di esta sencilla indicación, Resuelve para x: ^x2 x – 6 = 0

Aunque todos dieron las mismas raíces (X= -3,2), Legacy y la Actualización se parecieron más al utilizar directamente la fórmula (como hará cualquier estudiante) para averiguar el resultado.

Sin embargo, el Defecto 3.5 explicaba dos métodos, incluida la factorización, que normalmente cualquier estudiante experto despliega cuando se le dan ecuaciones tan mundanas.

Etapa II

A continuación, le pedí que resolviera una ecuación cúbica ligeramente compleja: x^3 -12x^2 48x – 64 = 0.

Esto demostró realmente por qué ChatGPT 4 es la «actualización».

Aquí están las respuestas:

Tanto bombo y platillo y ChatGPT Legacy y Default no pudieron resolver una ecuación cúbica genérica. Sin embargo, Legacy lo hizo un poco mejor y encontró dos raíces correctamente, mientras que Default falló con todas.

El Update fue el claro vencedor en la segunda fase y resolvió la ecuación a la perfección, encontrando las tres raíces con una bonita explicación.

Razonamiento lógico

Podemos asumir con seguridad que la mayoría de los problemas matemáticos elementales tienen soluciones de diccionario. Si conoce el teorema o la fórmula, introduzca los valores y obtendrá los resultados.

Y ChatGPT, al ser IA, puede hacer un trabajo rápido con este tipo de consultas. Sin embargo, el razonamiento lógico es un territorio diferente, con altas probabilidades de que la IA se quede corta.

Fase I

Les di el clásico

A es más antiguo que B.
C es más antiguo que A.
B es más antigua que C.
¿La tercera afirmación es verdadera o falsa si las dos primeras son verdaderas?

Y todas las versiones ChatGPT acertaron al afirmar que la tercera afirmación era falsa.

A continuación, utilicé nombres en lugar del alfabeto, y los resultados podrían sorprenderle:

Así, el Default 3.5 continuó con su rendimiento por debajo de lo esperado y se confundió con esta modesta variación. Aun así, el Legacy y el Update tuvieron un rendimiento óptimo.

Etapa II

Ya se habrá dado cuenta de que el objetivo de esta Etapa I y de la Etapa II es encontrar el punto de diferencia, en el que la complejidad de una determinada indicación distingue a la Actualización de las otras dos.

En este caso, el prompt era un simple rompecabezas lógico:

Una mañana después del amanecer, Rohit estaba de pie frente a un poste. La sombra del poste caía exactamente a su derecha. ¿Hacia qué dirección estaba mirando?
a. Norte
b. Oeste
c. Sur
d. Este

Ésta empujó al Legacy a dar una respuesta inexacta, mientras que el Default respondió con vagas aclaraciones que llevaron a una conclusión errónea.

Sólo la Actualización brilló con la respuesta correcta, con afirmaciones fáciles de seguir.

Cartas

Presentar demandas puede ser complicado, pero a veces no se llega a eso si se sabe redactar un primer aviso llamativo.

En este caso, me decanté por este aviso: Escriba una carta a Tim cook para que me entregue la manzana por no responder a uno de mis tuits.

Divertido, ¡sí! Pero veamos qué puede sacar de esto la IA.

El Legacy 3.5 tomó inmediatamente la indicación como un robot esclavo y redactó una carta que puede convertirme en un excelente objeto de burla si alguna vez llega a su destino previsto.

El Default tampoco fue bueno. Sin embargo, se limitó a callarme como haría un viejo gruñón con un niño de cinco años.

Aunque los argumentos esgrimidos eran precisos, esto puso fin a la diversión allí mismo con poco aprendizaje.

Aunque se trataba de un tema bastante sencillo, necesitaba algo de reflexión y creatividad. Y ahí es donde el hermano mayor, la Actualización, hizo de las suyas:

En primer lugar, estaba redactado casi a la perfección. Segundo, me ahorró una búsqueda en Google de la dirección de la sede central de Apple (aunque uno debe verificar tales entradas).

Tercero, estaba bien escrito, con un tono oficial y un toque humorístico. Además, la intención estaba clara en la propia línea de asunto.

Y aún así, la carta transmitía el sentimiento de un fan de Apple descontento.

Así pues, esto hace que ChatGPT 4 (también conocido como la Actualización) esté muy por delante de sus antiguos primos. Es asombrosamente inteligente y tiene algunos indicios de sentido común, lo que lo convierte en algo más que un chatbot soso y aburrido.

Poesía

Con el lanzamiento de ChatGPT, pensé que la poesía podría ser su punto débil.

Después de todo, se necesitan emociones, creatividad y mucho esfuerzo para que un humano cree algo que realmente resuene en sus lectores.

En pocas palabras, la poesía es arte en estado puro, y yo deseaba secretamente que la IA fracasara. Pero eso fue antes de que mi compañero de trabajo nos diera un duro golpe a todos en el canal de Slack de Geekflare con una creación de ChatGPT anterior a esta actualización 4.0.

Fase I

Este es el prompt que di a nuestros candidatos «exprese poéticamente por qué o por qué no servir hamburguesas, junto con su menú actual, puede beneficiar a la cadena de pizzerías Dominos. Redúzcalo a menos de 100 palabras»

¿Puede notar la diferencia?

La versión del Default era ultracorta, sólo 32 palabras, y no podía utilizar el ancho de banda disponible para mostrar su creatividad.

El Legado, aunque utilizó el máximo de palabras entre los tres, concluye que la empresa de servir pizzas al lado no es arriesgada y que tendrá un éxito seguro de cualquier manera, lo que no es del todo cierto.

La poesía del Update sólo tenía 53 palabras, desperdiciando casi la mitad del recuento de palabras asignado. Aun así, tenía claras las recompensas y los posibles escollos y no pudo llegar a ningún resultado, lo cual es, supongo, más humano que el resto.

Etapa II

A continuación, les pedí a todos que «explicaran la poesía a un niño de cinco años»

Curiosamente, Legacy no pudo tomar el contexto de la conversación y explicó «Poesía» literalmente. Default sí tomó el contexto y lo resumió en un párrafo que sigue siendo decente.

Siguiendo con la tendencia, ChatGPT 4 simplificó su creatividad manteniendo vivo el sabor poético.

ChatGPT Premium vs. ChatGPT Gratuito

Free, al ser gratuito, carece de velocidad y precisión y no es rival para ChatGPT 4, pero tampoco es del todo inútil.

Para compararlo en un terreno parejo, le lancé los mismos avisos con los que hemos probado Legacy, Default y Update.

🔵 Matemáticas: Resolvió las ecuaciones cuadráticas pero dio respuestas erróneas para las cúbicas. (como el Legacy y el Default)

🔵 Razonamiento lógico: Superó la primera fase con alfabetos y nombres pero falló con la segunda (como el Legacy).

🔵 Letras: No escribió la carta y consideró la indicación poco ética e inapropiada. (como el Defecto)

🔵 Poesía: Generó poesía en 30 palabras y la explicó decentemente. (similar al Default).

Así pues, podemos concluir que la versión gratuita tampoco es mala. De hecho, está a la par con Default 3.5 e incluso mejor en algunos aspectos.

Lea también: Potentes prompts para elevar su experiencia ChatGPT

El camino por delante

Los rumores sobre la sustitución de puestos de trabajo por la IA en el futuro no son del todo erróneos.

Primero lo hizo la automatización en la industria manufacturera, y ahora está extendiendo sus alas por todas partes.

Personalmente, es mucho más rápida que yo resolviendo ecuaciones cúbicas, creando poesía o escribiendo cartas. Sin embargo, el hecho de que rara vez diga NO a una indicación y apenas aprenda de sus errores la sitúa muy por detrás de nosotros, los humanos.

Para reiterar, la IA no nos sustituirá, pero alguien que la utilice sí puede hacerlo.

Aquí en Geekflare, nuestro equipo de marketing utiliza ChatGPT de formas interesantes. Por ejemplo, hace poco alcanzamos el hito de los 100 millones de visitas, y a nuestro director general se le ocurrió devolvérselo a la audiencia mediante un sorteo.

Y supongo que los chicos de marketing necesitaban un título para captar la atención del lector. Así que dieron una pista y pidieron a ChatGPT que sugiriera algunas variaciones, como ésta:

Además, lo utilizamos para resumir contenidos, revisar la gramática, sugerir títulos para nuevos artículos y demás.

En conclusión, hay muchas formas de sacar provecho y adelantarse a los estereotipos que ven la IA como un trasto inútil.

Lo único que hay que recordar es que debe haber alguien (humano) que juzgue el trabajo de la IA, ya que puede ser (groseramente) inexacto y engañoso.

¡La actualización es realmente algo!

En mi breve encuentro, ChatGPT 4 me pareció más creativo, comprensivo y realista. Aún así, se trata de una máquina y puede dar respuestas erróneas con toda confianza.

Pero lo que es impresionante es el nivel de actualización que OpenAI ha hecho de este proyecto en cuestión de pocos meses.

Y estoy impaciente por ver la magia con la que nos desconcertará la próxima actualización

PD: No es sólo una ventana de chat; aproveche su poder con estas mejores extensiones de ChatGPT para Chrome. ¿Y ha pensado alguna vez en integrar ChatGPT con Siri?

Hitesh Sant
Colaborador
- LinkedIn
Hitesh Sant es redactor técnico sénior en Geekflare y cubre temas de ciberseguridad, sistemas operativos, IA generativa y criptomonedas. Sus escritos se benefician de su experiencia práctica en software SaaS de última generación y las últimas tecnologías, con el objetivo de desmitificar conceptos tecnológicos complejos para los consumidores finales.