¡NUEVO OPENAI o3! - INCREÍBLES RESULTADOS ¿Es esta la primera AGI?
168.63k views4378 WordsCopy TextShare
Dot CSV Lab
Hoy vamos a analizar el nuevo modelo o3, el regalo navideño que nos ha dejado OpenAI .
🔴 Mi canal ...
Video Transcript:
Bueno chicos vídeo importantísimo perdonadme que estoy en mitad de un aeropuerto estoy resfriado Pero tenía que hacer este vídeo porque ha pasado algo muy importante como siempre los grandes anuncios de Inteligencia artificial Open Ai en concreto me pilla siempre volando eh tengo por delante un vuelo de 11 horas eh de vuelta de San Francisco a Madrid y ha pasado uno de los anuncios que creo que es de lo más relevante que ha ocurrido este año y que podría Bueno pues cambia mucho las cosas de Cara a futuro vamos a desglosarlo ya sabéis que open y sacó hace cosa de 3 meses la primera versión de sus modelos razonador es o1 vale salió o1 preview y o1 mini la versión pequeña estos modelos tienen como característica principal a diferencia del paradigma de los modelos gpt Pues que bueno pueden razonar pueden dedicar tiempo de inferencia es decir cuando tú le das al botón eh el modelo se pone a generar tokens generar tokens y generar tokens está pensando internamente para intentar cambiar ese tiempo de amputación por respuestas más correctas podríamos decir que el modelo estaría pensando y como digo esta es la diferencia de paradigma con respecto a los modelos gpt que cuando tú le das al botton Pues empieza a generar tokens y a darte una respuesta que es inmediata y cuando salió Este modelo uno ya os dije que esto era importantísimo porque lo que nos presentaba era una nueva ley de escalas las leyes de escalas dentro del Deep learning pues hasta hace No mucho venían a referirse que cuando tú tienes un modelo que tú lo vas a entrenar tú puedes dedicar más computación y más datos Y eso te va a dar un modelo que rinde mejor que te va a dar mejores resultados en la fase de entrenamiento pero ahora con la llegada de estos modelos razonador pues se abre una nueva ley de escalas que viene en la parte de inferencia donde si tú dedicas más tiempo de computación no en el entrenamiento sino en que el modelo piense la respuesta Pues eso nos iba a dar cada vez mejores resultados y eso era lo que encarnaba el modelo o1 vale el modelo o1 que sacó Open Ai recordemos en septiembre modelo o1 que hasta hace un par de semanas no hemos podido acceder a su versión definitiva y que por las pruebas que yo hice era un modelo bastante Bueno sobre todo el modelo Pro el que se puede acceder con la suscripción de 200 al mes que es carísimo pero que realmente sí nos estaba dando un modelo que yo ya empezaba a identificar como que sí nos estaba dando resultados que empezaban a alejarse un poco de ese rendimiento humano en algunos casos nos resolvía problemas que hasta el momento no había visto resolver a otras inteligencias artificiales pues qué ha pasado que Open Ai dos semanas más tarde a ahora ha sacado o tres vale No no o2s o tres como Bien dicen ellos han saltado la versión dos porque ha habido un problema de de marca de copyright con la empresa o2 lo cual es bastante gracioso y hace que la nomenclatura de los modelos de Open Ai se vuelva incluso más caótica donde la secuencia numérica Pues todavía nos decía algo pero no ahora de o1 saltamos a o3 Okay pero de verdad Creo que se justifica hasta el Salto de nombre Porque el Salto de rendimiento que hemos visto en cuestión de 3 meses es espectacular lo que hoy ha presentado Open Ai de verdad es un hito de la Inteligencia artificial y esto lo han hecho como anuncio final de esta serie de anuncios durante 12 días de Open Ai en una bueno en un vídeo como este de aquí donde nos han presentado diversos resultados de este nuevo modelo o3 en diferentes benchmarks conjunto de pruebas diseñados para testear Cómo va progresando las capacidades de la Inteligencia artificial y como vemos los primeros resultados que presentan ya son muy pero que muy interesante fijaos aquí tenemos la comparación del modelo o1 preview el modelo o1 y el nuevo modelo o3 sobre el benchmark SW bench verified que como llevo diciendo todo este año iba a ser uno de los benchmarks de referencia para los nuevos modelos como ya hemos visto en numerosos vídeos este benchmark lo que mide Es sobre un conjunto de tareas reales que un ingeniero de software se podría enfrentar pues Qué capacidad tiene la Inteligencia artificial si le damos acceso a herramientas programación y todo esto de resolver este tipo de tareas cuando empezamos el año en marzo de 2024 ias como devin que recordaréis que hemos hablado también en el canal llegaba a resolver un 17 por de este tipo de tareas y esta cifra con el paso de los meses ha ido subiendo de 17 a 20 a 30 a 41,3 con o1 preview o1 48,9 que luego fue superado por clot sonet en un 51 por y fue un poco humillante por esto de tener un modelo que no es razonador pues Por encima no de este benchmark pero ahora llega o3 y pulveriza ese resultado con un 71,7 por. es decir tareas profesionales reales del ámbito de la ingeniería del Software ahora mismo la Inteligencia artificial o3 puede resolver el 70 por de estas tareas un dato muy relevante si nos damos cuenta repito que empezamos el año en un 13 por. pero es que si nos vamos a la Gráfica de al lado lo que tenemos aquí sería el desempeño de los modelos razonador eh medido por el Elo en competiciones de programación vale decisiones de programación que son bastante complejas de code Force y donde en septiembre o uno preview que ya era impresionante pues conseguía un Elo de 1258 ahora hace un par de semanas o1 la versión definitiva llegaba a 1891 ahora o3 duplica la cifra de o1 preview Bueno más que la duplica 2727 de Elo esto que lo ha comprobado ya la gente sitúa Este modelo en el programador en estas competiciones de programación número 175 del mundo en desempeño es decir este modelo cuando salga y esté disponible y lo podamos utilizar va a poner en nuestras manos al programador número 175 en desempeño esto es una locura Y esto es algo de lo que he venido avisando durante todo este año ojito porque la programación es un tipo de problema o de ámbito donde podemos generar datos sintéticos autoverificador así lo demuestra pero no solo programación también este año he insistido mucho que otro dominio donde podemos generar datos sintéticos autoverificador llegaba a resolver la mitad un poquito más de la mitad de problemas con un 56 por o1 subía al 83,3 por y o3 llega al 96,7 por.
casi resolviendo todo el conjunto de problemas al completo y este es un concepto que también vamos a escuchar bastante a finales de 2024 y en 2025 que es la saturación de los benchmarks empezamos a tener pruebas que aunque sean complejas para nosotros para la Inteligencia artificial no son tan complicadas y empiezan a saturarlo Ya llegamos a límites donde no nos cuentan si un modelo mejora o no mejora porque Bueno a un 96 por realmente Casi casi estamos rozando la perfección Algo similar a lo que ocurre con el benchmark GP qa Diamond que son preguntas a nivel de doctorado donde o1 preview y o1 pues estaban en el rango del 78 por y o3 sube al 87,7 por de nuevo acercándonos a la saturación de este benchmark Entonces cuando empezamos a saturar benchmarks Y empezamos a proponerle problemas a la Inteligencia artificial que no son tan complejos qué tenemos que hacer pues hacer problemas más complicados y en ese sentido han empezado a aparecer en los últimos meses nuevos benchmarks más complejos como este de aquí Frontier math presentan un benchmark con una nueva forma de evaluar a la Inteligencia artificial con problemas matemáticos que primero no están publicados en internet con lo cual no hay riesgo de que la Inteligencia artificial pues pueda aprender memorizarlos en la fase de entrenamiento y segundo que son muy muy difíciles Vale Nos lo dicen aquí con una dificultad sin precedentes y donde nos lo ponen Aquí al lado dice cada problema exige horas de trabajo de matemáticos expertos incluso los sistemas de Inteligencia artificial más avanzados de la actualidad como gpt 4 y gemini resuelven menos de el 2% de estos problemas este benchmark Frontier math hasta hace un día podíamos con los sistemas que tenemos actualmente resolver un 2% que era poquísimo y es una muy buena noticia porque nos da margen de mejora para seguir mejorando los sistemas bueno llega a 3 llega Open Ai y ahora presentan que este nuevo modelo o3 pasa del 2% al 25% un cuarto de los problemas ahora los puede resolver esto es una barbaridad este para mí y vamos a ver resultados todavía más impresionantes pero para mí esto es quizás las cosas más relevantes de lo que han presentado porque esto nos está abriendo la frontera a comprobar realmente que la Inteligencia artificial los nuevos modelos de razonamiento sí pueden resolver problemas de carácter técnico científico de una complejidad muy alta que la mayoría de los profesionales humanos no podríamos resolver de forma automática en palabras de matemáticos prestigiosos como Timothy gowers que tiene la medalla Field dice resolver incluso uno de estos problemas de forma correcta ya sería ir más allá de lo que tenemos actualmente bueno otres recordemos ha resuelto un cuarto de los problemas de este benchmark y si esto ya era impresionante aquí ahora ha sucedido uno de mis deseos que estaba en mi carta a los Reyes Magos este año y se ha cumplido Y es que en un momento del directo pues han invitado a unirse a esta persona de aquí que es uno de los fundadores de El galardón el ark Ai que este año han estado organizando un premio que son este tipo de problemas eh tipo puzzles que también hemos comentado en varios vídeos que diseñó franois cholet para evidenciar una cosa muy importante respecto al Progreso que estaba teniendo la Inteligencia artificial y es que somos capaces de resolver problemas super complejos de matemáticas usando la Inteligencia artificial pero luego cuando le planteamos un problema Tan sencillo como este un problema donde tenemos una retícula de colores eh donde te enseñamos varios ejemplos de Mira para este patrón de entrada generamos este patrón de salida qué ha pasado aquí pues han completado estos huequitos con un cuadradito azul Oye aquí para este otro ejemplo lo mismo rellenamos con cuadradito azul Si yo te doy ahora este nuevo ejemplo Podrías darme la respuesta correcta Y entonces aquí pues tú tendrías que resolver esto pues coloreando aquí los cuadraditos vale bastante sencillo no típico test de inteligencia que nos han planteado alguna vez en la vida pues este benchmark el arc agi ha existido desde hace bastantes años para evaluar justamente esto Qué es lo interesante de este benchmark pues que cada prueba que te presentan tiene una lógica por detrás diferente en este caso fijaos que tenemos cuadraditos de colores y aquí es como que florecen como si fuera una flor aparecen pétalos Y entonces con esto Pues tú detectas un patrón y resuelves este problema de una forma muy diferente al problema que habíamos visto antes pasamos al siguiente y es un problema pues con una lógica completamente distinta y esto pues es muy interesante porque lo que evalúa es si la Inteligencia artificial Más allá de entrenarse sobre un problema y resolver esos problemas Muy bien pues tiene cierta capacidad de adaptarse a nuevos contextos a nuevos tipos de problemas si puede ser creativa a la hora de razonar de forma diferente de lo que ha visto durante el entrenamiento una capacidad de generalización que hasta ahora no habíamos visto tan desarrollada la Inteligencia artificial y es que a pesar de ver como los otros benchmarks las líneas azules que aparecen aquí en capacidades de matemáticas lengua idiomas pues la Inteligencia artificial ha ido mejorando con el tiempo desde que se anunció este benchmark el arc agi los primeros años El Progreso fue muy pequeño fijaos como la línea de Progreso según pasan los años hasta los 5 años de existencia de este este benchmark pues Apenas ha tenido Progreso hasta este año que es cuando han metido esta competición Con premio de 1 millón dó eso ha hecho que mucha gente participe para intentar encontrar soluciones y con diferentes técnicas diferentes trucos se ha conseguido subir bastante el nivel hasta llegar a resolver un 50% de las pruebas de arc agi que ha sido un salto como digo bastante importante pero este 50% todavía estaba lejos de resolver el benchmark ark agi al nivel de desempeño que logramos los humanos sin mucha dificultad una tarde tú te sientas con este benchmark y fácilmente puede llegar a un umbral que se sitúa en el 85 por de los problemas umbral al que todavía la Inteligencia artificial no había logrado ni siquiera acercarse pues chicos y chicas hoy a sucedido lo más espectacular que hemos visto como digo en este año y es que han invitado Pues a uno de los fundadores de esta competición y de este benchmark y nos han anunciado que efectivamente el nuevo modelo o3 ha llegado al 87,5 por. ha superado por fin el umbral que se había establecido para poder decir que la ia es sobrehumana o llega al nivel humano en este benchmark tan complicado arc agi un benchmark que podría ser confuso este nombre arc agi y que mucha gente ha discutido si realmente significa que cuando la ia supa este benchmark estamos cerca de tener una agi una Inteligencia artificial general y la realidad es que no pero sí me gusta mucho el enfoque que da francois cholet cuando habla de su benchmark y es esto no significa que si la ia lo supera Pues estamos ante una agi pero es cierto que si la ia no superara esta prueba no podríamos decir que todavía estuviéramos ante una agi no esta era una tarea pendiente que la Inteligencia artificial tenía que resolver antes de poder cantar Victoria y todo decir que ya tenemos una Inteligencia artificial lo suficientemente general hoy 20 de diciembre de 2024 podemos decir por fin que la Inteligencia artificial ha superado este umbral y quiero que nos centremos en comparar de nuevo la serie o1 la que está en rojo con la nueva serie o3 porque el Salto es que me parece espectacular no tenemos aquí listado en la serie o1 Pues el modelo mini que es el modelo pequeñito luego el modelo un preview y luego tenemos tres configuraciones de menos a más tiempo de pensamiento no cuánto tiempo dejamos que la Inteligencia artificial esté pensando en su respuesta antes de dar su veredicto final y fijaos que los modelos o1 Pues sí demostraban que entre más tiempo de computación le dábamos entre el modelo low y el modelo High Pues sí había una mejora pasamos de un 25% a un 32 Por que estaba muy bien pero es que ahora la serie o3 la nueva serie de modelos parten de un espectacular 75,7 por. esta sería la que menos tiempo de computación dedicaría vemos aquí abajo que nos están graficando la computación por cada una de las tareas ahora vamos a hablar de esto que también es importante y aquí tendríamos la versión que más computación ocupa que es la que llega a esta cifra tan espectacular del 87,5 por.