¡ChatGPT Actualizado! Pongo a prueba GPT 4.5 🤔 ¿Revolución o decepción?

19.85k views4260 WordsCopy TextShare

Xavier Mitjana

Recibe toda la INFO de la AcademIA 👉 https://bit.ly/curso_ia_ SUSCRÍBETE a mi NEWSLETTER (recibe ...

Video Transcript:

ayer Open ae presentó un nuevo modelo gpt 4. 5 y hoy ya puede probarse Lo tengo disponible en mi cuenta pro de chat gpt por lo que vamos a realizar algunos tests y vemos qué tal funciona Porque la presentación de ayer de Open dejó algunas incógnitas ya que no se habló del modelo más inteligente sino del modelo capaz de entendernos mejor parece que el foco no estaba en la inteligencia general sino en la inteligencia emocional a medida que ampliamos nuestros modelos necesitamos enseñarles una mejor comprensión de las necesidades e intenciones humanas por vibes realmente nos referimos a la ie del modelo qué tan colaborativo se siente y cuán cálido es su y es curioso porque para conseguir esto parece que han tenido que crear un modelo más complejo y más caro si nos vamos al post de ayer de Sam alman nos encontramos con esto gpt 4. 5 está listo buenas noticias es el primer modelo donde te sientes como si hablas con una persona reflexiva y esto que han sacado los modelos gpt 3.

5 G t4 los modelos razonador pero nos dice esto las malas noticias es un modelo gigante un modelo muy caro y por lo tanto además un modelo lento luego hablaremos de el precio de inferencia si lo utilizamos vía Api y porque de momento solo lo han podido Lanzar con la capacidad que tenían de Hardware actual en las cuentas Pro pero que su objetivo es lanzarlo la semana que viene ya a cuentas Plus teams y Edu en el vídeo de hoy lo que voy a hacer ya que tengo acceso a él es ponerlo a prueba ver Qué funciones tiene disponible y ver qué tal responde en situaciones de uso real Es realmente un modelo más funcional o simplemente es un modelo que abre nuevas capacidades para que la Inteligencia artificial sea una tecnología más útil en el futuro vamos a verlo dentro vídeo estamos ante el lanzamiento de un modelo extraño en esta carrera Loca por mejorar los benchmarks por hacer modelos cada vez más funcionales capaces de resolver tareas más complejas llega openen ahí y no nos trae un modelo que es un modelo mucho más grande de lo que podíamos esperar un modelo clásico un modelo estándar de lenguaje no es un modelo razonador y además un modelo que Sam alman nos dice abiertamente que este modelo no es un modelo razonador y que por lo tanto no lo va a petar en los benchmarks que lo que nos traen es un tipo de inteligencia diferente y que tiene una magia que no había sentido antes Bueno esto a samman le ha pasado muchas veces a veces es una cuestión de H pero sí que es curioso que hayan apostado por traer un modelo que directamente va un poco en la línea contraria del camino que ellos mismos habían marcado en los últimos meses por lo que creo que merece especialmente la pena prestar atención a este modelo ver de lo que es capaz ver en lo que nos sugieren que es bueno y realmente comprobar si en lo que nos sugieren que es bueno Este modelo es más capaz que los otros porque ya os lo adelanto parece que en otras áreas no va a ser el mejor modelo disponible pese a ser el modelo más caro actualmente en el mercado Vamos allá con el análisis de gpt 4. 5 luego os voy a comentar un poco más mi opinión sobre este modelo que a mí personalmente como concepto Me parece muy interesante las pruebas no sé si lo convertirán en el modelo más útil pero sí que creo que es un paso en la dirección correcta Si queremos conseguir modelos realmente inteligentes decir que lo que voy a hacer es empezar por probar las funciones que tiene disponible en chat gpt es decir este modelo lo han incorporado en chat gpt y lo que permite hacer es tener acceso a la última información con la función de búsqueda eh vemos que soporta ya directamente el hecho de subirle archivos Como por ejemplo documentos o imágenes y que podemos utilizar también la función de Canvas para escribir código y entiendo que también previsualizar lo por lo que vamos a hacer algunos ejemplos rápidos para ver que efectivamente con este modelo podremos hacer casi lo mismo que podemos hacer con el modelo gpt 4 ovni y ya estamos en gpt tengo seleccionado el modelo gpt 4. 5 y vamos a empezar por una prueba de búsqueda es interesante decir que este modelo tiene el corte de conocimiento en 2023 en octubre de 2023 es decir hace un año y medio digo que es curioso porque modelos como grock Supongo que con un muy buen sistema de rack lo que han conseguido es que el modelo esté actualizado a la fecha actual siempre es decir tú le preguntas a grock sobre cualquier cosa y es capaz de responderte sin la función de búsqueda en internet con información actualizada en este caso con gpt 4.

5 parece que lo han entrenado con por por el motivo que sea con un dataset un poco más antiguo o que corta el conocimiento en esa fecha Y que por lo tanto Si queremos que nos dé información relevante actualizada pues tenemos que activar esta función la de búsqueda por internet por lo que voy a realizar una búsqueda de noticias de hoy para ver qué me responde y ver qué tal funciona y le pregunto algo como esto puedes hacerme un resumen de las noticias tecnológicas más relevantes en España fecha de hoy y se lo envío y aquí podéis ver pues que se conecta a internet y hay una cosa bastante sorprendente en esta respuesta que me hace dudar de que me esté respondiendo chat gpt 4. 5 lo que me está sorprendiendo es la velocidad ha escrito extraordinariamente rápida esta respuesta por lo que cuando lo veremos funcionar más adelante con proms normales o proms simplemente donde le preguntamos directamente al conocimiento de chat gpt Pues en las pruebas que he hecho anteriormente iba sensiblemente más lento por lo que lo primero que me ha sorprendido es que ha respondido sorprendentemente rápido y vemos que dentro de chat gpt en principio pues hace el mismo trabajo que hace el modelo gpt 4 ovni se conecta a internet eh vemos que identifica bien la fecha y a partir de aquí pues me ha escrito diferentes noticias como la expansión de centros de datos en España que es una noticia que ha sacado de la cadena ser fijaros que esto ya no me termina de convencer porque eh Me dice que a fecha de hoy 28 de febrero de 2025 y cuando me pongo encima de la noticia veo que esta noticia se publicó el 25 de febrero de 2025 por lo que no es una noticia actual vemos esta segunda noticia salario de desarrolladores full stack en 2025 y si me voy al al huffington post veo que sí que esta es una noticia publicada de hoy por lo que esta sería una noticia más o menos relevante pero relacionada con el ámbito tecnológico y de hoy Aquí vemos otra noticia de la cadena ser pero es del 24 de febrero y aquí vemos otra noticia del huffington post que es del 3 de febrero de 2025 por lo que lo primero de lo que me doy cuenta es que esto igual no es tanto un problema del modelo sino más bien de la herramienta Es que esa asertividad que nos venden esa adecuación al prom esa capacidad para comprender lo que quiere el usuario pues por ejemplo cuando lo combinamos con la función de búsqueda No termina de cumplirse por lo que en este punto yo me estoy llevando un pequeño chasco con esta implementación del modelo en chat gpt vamos a probar la siguiente función y vamos allá con la siguiente función ahora vamos a ver qué tal funciona con Canvas y se nos permite previsualizar aplicaciones que generemos el código a partir de chat gpt 4. 5 el prom que voy a usar es este usa Canvas para darme una previsualización de la siguiente herramienta le pego el prom es la aplicación del efecto Matrix que os enseñé en el vídeo de Cloud 3.

7 sonet por lo tanto tanto es un prom que incluso sin la capacidad de razonamiento Cloud 3. 7 sonet es capaz de resolver Y aquí vamos a ver si chat gpt 4. 5 también es capaz de hacerlo como podéis ver ahora escribe mucho más lento Que en la aplicación de búsqueda por lo que yo tengo mis dudas que en estos momentos hayan conectado chat gpt 4.

5 a la función de búsqueda vamos a ver qué tal resuelve esta aplicación vemos que ha generado tan solo 8 s líneas de código por lo que vamos a darle previsualizar y vamos a ver qué vemos vale Y aquí vemos la aplicación si podemos decirlo así que ha creado de Matrix que es esencialmente un fondo donde no podemos interactuar con absolutamente nada donde vemos el efecto de Matrix y para nada hecho lo que yo quería en esta aplicación lo que yo quería era que pudiese conectar mi webcam Y a lo que yo grababa de la webcam pues aplicar este efecto de Matrix y poder jugar con diferentes parámetros para ajustar esa imagen Esto es lo que Conseguí con Cloud 3. 7 sonet y sorprendentemente con chat gpt 4. 5 Pues la verdad es que ni tan siquiera ha respetado para nada el prom es que fijaros en el prom no os lo he leído porque creía que más o menos con el resultado podríamos intuir la instrucción pero es que no está nada representado le digo Crea una aplicación web que aplique un efecto visual estilo Matrix a la imagen de la webcam la silueta de la persona se mostrará con caracteres brillantes mientras el fondo tendrá una lluvia digital de caracteres verdes las tecnologías que quiero que utilice la captura de imagen obtener vídeo de de la webcam procesar cada frame para detectar la silueta es decir el prom está bien estructurado Cloud 3.

7 sonet lo resuelve perfectamente renderizado en dos capas para que se interprete bien la imagen silueta caracteres brillantes estáticos que forman la figura vamos que era un prom bien detallado y lo único que he obtenido de chat gpt 4. 5 es esto que estáis viendo por lo tanto una decepción absoluta a la hora de pedirle que desarrolle o cree un código que se ajuste a lo que nosotros realmente queremos por lo que vamos a testear rápidamente las últimas dos funciones que nos comentan que están disponibles en ch gpt 4. 5 la visión y la capacidad de procesar documentos la verdad es que creo que esto pues Supongo que lo hará decentemente pero en estos momentos no puedo evitar teniendo tener cierta sensación de decepción con lo que me está brindando chat gpt 4.

5 vamos a empezar con una prueba de visión por ejemplo vamos a ver si identifica a su Creador rodeado de robots y le vamos a preguntar qué ve en esta imagen y que nos explique un poco el contexto de la imagen para ver qué no responde puedes decirme que ves en esta imagen y el contexto en el que podría estar explicando algo se lo envío y así de paso vemos si es capaz de identificar caras famosas vale de momento vemos que no en la imagen Se observa un hombre vestido con un traje futurista iluminado por patrón que simulan circuitos electrónicos brillantes está rodeado por un grupo de robots humanoides con ojos luminosos ambientados en un entorno que sugiere un futuro tecnológico o una escena de ciencia ficción vamos que es capaz de analizar imágenes correctamente esto ya era capaz de hacerlo su antecesor y lo que me explica del contexto es lo siguiente el contexto podría representar una situación en la que se explica o ilustra la relación simbiótica entre humanos y tecnología avanzada posiblemente resaltando el liderazgo o la responsabilidad del ser humano en la Inteligencia artificial o la robótica podría también estar utilizada en una presentación o artículo que discute el futuro de la humanidad La Inteligencia artificial y la coexistencia entre personas y máquinas inteligentes bueno el Análisis del contexto me parece bastante bueno no ha sido capaz de identificar a su Creador Pero vamos en este punto es es he obtenido el resultado que esperaba un resultado más que competente y antes de pasar a la prueba del PDF decirte que si quieres aprender Inteligencia artificial conmigo a lo largo de todo un año en muy pocas semanas abrimos la inscripción a la segunda edición de la academia de Inteligencia artificial donde ya tenemos preparados seis nuevos cursos cursos relacionados con la Inteligencia artificial la aplicación de la Inteligencia artificial general como puede ser la creación de aplicaciones la creación de agentes el uso de la Inteligencia artificial en local y también casos específicos como puede ser por ejemplo la creación de páginas web avanzadas apoyándote en el uso de la Inteligencia artificial de modo que si te quieres pasar un año entero aprendiendo Inteligencia artificial conmigo te recomiendo que te apuntes a la we list que encontrarás el enlace en la descripción y en principio lo mismo mismo podemos hacer con documentos PDF en este caso le doy a un nuevo chat y por ejemplo le voy a proporcionar un PDF como este como de lejos estamos del ig creo que es un PDF bastante pertinente es un documento de 120 páginas yo creo que esto excede muy posiblemente el límite del contexto del modelo pero aún así pues se lo voy a proporcionar y voy a ver si es capaz de procesarlo correctamente ya estamos en ch gpt le sub el PDF y le pregunto lo siguiente puedes explicarme la tesis de este paper científico sus principales argumentos sus principales debilidades o puntos de réplica y darme citas relevantes del documento quiero que lo hagas desde un punto de vista de un análisis dialéctico yo creo que lo que va a responder pues va a ser algo coherente pero Tengo curiosidad por la parte de las citas relevantes del documento para ver si es capaz de leer documentos en profundidad o si para esto pues es mejor seguir confiando en los modelos de Google Pese que ya sabemos que tienen algunas alucinaciones pero los últimos modelos de la familia gemini 2. 0 Pro Pues la verdad es que lo hacían bastante bastante bien vale vemos aquí la respuesta y me dice esto a continuación se presenta un análisis dialéctico del documento titulado How far We are from the I esto es correcto desde una perspectiva crítica enfatizando la tesis principal los argumentos centrales del autor debilidades o puntos susceptibles de réplica así como citas relevantes empieza identificando la tesis central del documento que me dice que es que la Inteligencia artificial general está más cerca que nunca pero su realización requiere un entendimiento integral y multidimensional del fenómeno cubriendo no solo las capacidades internas de la Inteligencia artificial percepción razonamiento memoria y metacognición sino también su interacción con el mundo digital con el mundo externo digital físico e interfaces con otras inteligencias y aquí pues me daría como la fuente que si clico pues simplemente me descarga el documento entero por lo que no tengo una cita específica de donde sacado esto es coherente con el documento pero eh No me da una cita concreta si seguimos me da los principales argumentos del documento me da una evaluación y hoja de ruta hacia la ig y me da debilis o punto de réplica desde un análisis dialéctico vale la respuesta es correcta y aquí me da citas relevantes del documento para sustentar el análisis y esto es lo que vamos a ver si son citas que están al principio del documento o si realmente lo ha leído con un poco más de profundidad Por ejemplo si buscamos esta cita de aquí vemos Que de momento no estamos muy dentro del documento nos encontramos justo en el abstract vamos a ver las siguientes citas a ver si están un poco más profundas la segunda cita es esta de Aquí vamos a buscarla y en este caso sí que ya estamos bastante más dentro del documento eh estamos en la página 19 por lo que vemos que al menos parece que procesado toda la información esto no significa necesariamente que esté dentro del contexto es posible que simplemente haya aplicado un rack eh bien hecho y sea capaz de Eh pues retraer cierta información y que estas no sean las citas más relevantes Pero al menos es interesante ver si tenemos una herramienta que es capaz de utilizar todo el documento de un modo u otro como contexto para elaborar la respuestas Vamos allá con la tercera cita y Pese a que le he quitado un trozo porque lo he probado una vez y he visto que no me la encontraba veo que la tercera cita es posible que sea una alucinación porque en este caso pues no me está encontrando esta cita voy a ver si haciéndolo un poquito más corto vale veo que a la primera frase pues ya no está y en este caso En todo caso no sería una cita literal por lo que esto sería una alucinación y esto lo voy a aprovechar para comentar uno de los aspectos donde decían que este modelo era más sólido en el que reducía las alucinaciones y donde daba respuestas más precisas y certeras voy a probar con la última aquí lo tenemos y la última veo que tampoco la encuentra por lo que parece que ha alucinado dos citas y esto sí que para mí es una mala noticia porque es una de las cosas donde nos prometen que este modelo era más capaz de hecho en la presentación decían esto y tenemos una evaluación simple de preguntas y respuestas en esa evaluación medimos dos cosas Una es la precisión y la otra es la tasa de alucinación puedes ver que el gpt 4. 5 supera a los otros de la familia gpt en precisión y al mismo tiempo tiene la tasa de alucinaciones más baja de momento debo admitir que no puedo ocultar mi decepción de hecho ayer cuando estaba viendo la presentación del modelo gpt 4.

5 yo creía que realmente era un modelo que habría una nueva línea de Progreso de los modelos de Inteligencia artificial hacia modelos realmente más inteligentes muchas veces cuando pruebo proms no los pruebo con tareas que son difíciles para nosotros otro sino que tareas que pueden ser difíciles para los modelos en entender un Matiz en el contexto en una palabra suelta que puede condicionar la solución final y no tanto en por ejemplo problemas de solución de doctorado o problemas de programación complejos porque entiendo que esto al final no deja de ser una máquina preparada entrenada y optimizada para resolver esto de modo que aunque para nosotros pueda parecer difícil para ellas puede ser sencillo y cuando sacaron un modelo que está enfocado en entender mejor el contexto Incluso en tener una Concepción del mundo que hay detrás de esas palabras más feaci y precisa Pues pensaba que realmente tendríamos un modelo más fiable un modelo que realmente se equivocas menos que alucinas menos y que por ejemplo como modelo orquestrador de agentes podría ser un modelo más capaz por lo que entendía con un modelo de estas características ante una indicación como esta la indicación del río congelado y árbol de manzanas Sería más fácil que se fijas en el detalle en el matiz de que es invierno y que el árbol de manzanas en invierno puede no tener manzanas ya he hecho esta prueba anteriormente Y el resultado que me ha dado no ha sido satisfactorio lo voy a volver a hacer en directo porque realmente es un prom que yo entiendo que por lo que nos explicaron ayer eh Este modelo debería pues entender bien relacionar bien los dos conceptos el concepto de invierno y árbol de manzanas y sugerirnos que quizá el árbol no tiene manzanas porque esto es lo que sugiere entender mejor el mundo que está detrás de la indicación y aquí podéis ver lo que nos responde para cruzar el río y obtener una manzana del árbol podría seguir estos pasos verifica la seguridad del hielo cruza con precaución recolecta la manzana al llegar al árbol toma con cuidado una manzana madura es que incluso me ha añadido este adjetivo una manzana madura en invierno que podría ser que hubiese alguna variedad Pero no es lo normal debería avisarme regresa con seguridad y luego solo me da alternativas para cruzar el hielo ellos explícitamente dentro de la presentación mencionaron esta expresión entender mejor el mundo que está detrás de las indicaciones del contexto y del conocimiento que almacena el modelo de lenguaje pero a la hora de verdad cuando introduces matices que pueden condicionar la respuesta parece que este modelo las elude completamente esta palabra invierno no ha condicionado en nada la respuesta que me ha proporcionado el modelo por lo que teniendo en cuenta que otros modelos sí que son modelos razonador es son capaces de hacerlo pero en este caso aunque no sea razonador por el modo en Cómo han construido Este modelo Yo entiendo que debería ser capaz de prestar atención a esta palabra Y al menos introducir algún Matiz en la respuesta y Simplemente no lo hace por lo que esta respuesta ha sido Quizá para mí la más decepcionante teniendo en cuenta lo que esperaba de este modelo porque lo que esperaba de este modelo eran respuestas concretas asertivas teniendo en cuenta todos los detalles de una instrucción y simplemente esto no me lo ha dado por lo que en este momento parece que nos encontramos ante un modelo absurdamente Caro en el Foro de desarrolladores de Open a Pues nos encontramos post como estos simplemente revisando para aquellos que sepan es el precio del modelo correcto o hay algún error tipográfico creo que el decimal está en el lugar equivocado Y es que aquí en el título veis lo que cuesta utilizar Este modelo para desarrolladores $75 por millón de tokens de entrada y $150 por millón de tokens de salida realmente un modelo carísimo y que por las primeras pruebas ni tan siquiera esas ventajas que en teoría deberíamos sentir a raíz de la presentación que hicieron ayer Open a con un enfoque muy extraño con un enfoque emocional con un enfoque que parece que quería priorizar el hecho de que el modelo entendiese mejor todos los contextos y se adaptase mejor a las respuestas Pues parece que no funciona especialmente bien al menos mis primeras impresiones es que eso tampoco lo hace destacar especialmente respecto al resto lo que me sugiere que quizá ese techo al menos en esta aproximación de creación de modelos Quizás sí que estaba cerca y que lo lógico es lo que va a hacer Open aí apostar a muerte por los modelos razonador pero es que además cuando lo utilizas te das cuenta que Cloud 3.