NUEVO o3-MINI ¿¿...Y TAMBIÉN o3?? ¡OpenAI SORPRENDE con Deep Research!

108.8k views5267 WordsCopy TextShare
Dot CSV Lab
¡Novedades por parte de OpenAI! Hoy vamos a probar su nuevo modelo o3-mini, y su nueva funcionalidad...
Video Transcript:
Open Ai ha comenzado este fin de semana a darnos acceso a su nueva serie de modelos o3 la continuación de su saga de modelos razonador que presentaron en diciembre del año pasado hace cosita de un mes con resultados muy impresionantes pues ya empieza a estar disponible para que nosotros usuarios podamos empezar A disfrutarla en concreto el viernes pasado Pensaba yo que apurando la semana pues nos presentaron el nuevo modelo o3 mini del que vamos a estar hablando hoy para ver Cuáles son los puntos fuertes y puntos débiles de este modelo pero es que además ayer por la noche de madrugada Open Ai de repente lanza un streaming pero que en realidad estaban haciendo a primera hora de la mañana del lunes de Japón Pero bueno que coincidió en de madrugada para presentarnos una nueva funcionalidad Deep research que ojito aquí nos indican que funciona sobre el modelo o3 vale el modelo que no es el mini el o3 Y qué tal como lo están vendiendo desde Open Ai Pues sería una nueva versión de su visión sobre agentes autónomos pero en este caso dedicado a la búsqueda de información este nuevo sistema Deep research va a permitir que o3 pueda utilizar sus capacidades ag éticas para buscar en diferentes fuentes de información para profundizar y basar en Fuentes rigurosas sus conocimientos y así poder generar reports bien documentados donde vamos a estar canjeando computación pues este sistema puede estar pensando fácilmente 10 minutos 20 minutos canjeando computación por respuestas más rigurosas una serie de anuncios sobre la serie de modelos o tres que vamos analizar hoy y vamos a empezar con el modelo pequeñín vale vamos a intentar entender un poquito qué es esto de los modelos mini porque creo que todavía a día de hoy causa bastante confusión como es habitual con cada Release de un nuevo modelo de Open Ai lo primero que voy a hacer es quejarme de toda la sopa de modelos que tenemos aquí donde tenemos Pues sí los modelos gpt 4o gpt 4o con tasks tenemos el model resonador de la saga anterior o1 y ahora sí tenemos los modelos o3 en su versión Mini y o3 en su versión mini High ahora vamos a comentar qué es esto y luego los que tengan Pues el modo Pro también tendrán aquí el o1 Pro Mode Vale qué es esto Cuál es mejor cuál debo de utilizar en qué caso vamos a partir de lo siguiente siempre que queráis un modelo que dé mejores respuestas canjeando tiempo de computación vamos a utilizar un modelo de la serie o frente a un modelo de la serie gpt y como regla de oro dentro de la serie de modelos o pues aquellos que tengan una numeración más alta pues van a seguir un paradigma que debería de dar mejores resultados así por ejemplo o3 va a ser mejor que o1 hasta ahí bien dónde está el lío Bueno pues que dentro de una numeración vamos a tener modelos de diferentes tamaños podemos tener o1 y podemos tener o1 Mini y en el caso de los modelos mini no ha trascendido exactamente cómo funcionan pero mi forma de entenderlo es que son modelos cuyo funcionamiento cuyo modelo base es mucho más pequeño que el de los modelos o1 donde Open Ai estará quitando un montón de parámetros dedicados a recordar hechos factuales Pues cuál es la capital de España Madrid no nos interesa porque lo que quieren es un modelo mini que razone muy bien sobre problemas lógico matemáticos que pueda ser beneficioso para áreas técnicas como la ingeniería como las ciencias programación todo esto para este tipo de casos concretos tener tanta memoria factual almacenada en el modelo no es tan importante sino que el modelo sea ligero y ágil para dar respuestas y razonamientos mucho más profundos y ahí es donde entran los modelos minis Qué pasa que cuando entramos en estas mejoras incrementales de la serie o1 a la serie o3 vamos a encontrarnos en situaciones como la que estamos ahora donde el modelo mini de la serie o3 Iguala o incluso mejora al modelo o1 no mini de la serie anterior lo cual hace que todo esto sea un tremendo hilo Pero bueno vamos a basarnos en esta gráfica de aquí una de las gráficas que presenta Open Ai y donde podemos ver que para problemas de competiciones matemáticas Pues el rendimiento de o3 Mini efectivamente Iguala al rendimiento del modelo o1 en este caso o1 conseguía aquí una curac de un 83,3 por. Y en este caso vemos que los modelos de Open Ai o3 mini pues consiguen una variedad de resultados aquí viene el tercer punto a tener en cuenta y donde el rizo se riza un poquito más y es que si recordáis lo interesante de este paradigma es que entre más tiempo de computación dedican estos modelos a pensar mejores resultados Dan con lo cual dentro de una serie de modelos como o3 para un modelo concreto como o3 mini podemos tener diferentes gamas de modelos según cuánto tiempo le dejemos pensar y aquí es donde aparece esta saga de modelos low medium y High en referencia al modelo o3 mini donde vemos Que consiguen diferentes accuracy según la cantidad de tiempo que dedican a pensar lo cual es super interesante verlo en resultados reales como este paradigma del test Time compute pues efectivamente te canjea mejoras en capacidades por tiempo de computación y donde Este modelo o3 mini High consigue resultados por encima del modelo o1 de la saga anterior de la saga de diciembre con lo cual el primer titular que podemos sacar de esta gráfica es que efectivamente vemos un salto importante en la comparación de los modelos minis pasando de un 63,6 a un 79,6 el nivel medio o incluso al 87,3 en el nivel alto unas capacidades que igualan o superan al modelo o1 original entonces podemos ver aquí que esto se reproduce en diferentes benchmarks pues por ejemplo preguntas científicas a nivel de doctorado vemos Que de nuevo la mejora de los modelos mini Es evidente pasando del o1 al o3 a una mejora de unos 15 puntos porcentuales si comparamos el nivel medio con el nivel medio Y de nuevo igualando incluso superando al modelo o1 y en programación más de lo mismo en este caso en las competiciones de cod Force el Elo conseguido por los modelos o3 mini low medium High llegan en la configuración más alta de más computación a 2130 de Elo que es un salto abismal si lo comparamos con lo conseguido por o1 Mini y o1 con lo cual tenemos un nuevo modelo o3 mini que supera por bastante a su hermano menor o1 mini Entonces lo interesante aquí es que no estamos moviéndonos únicamente en un vector de mejor de capacidad del modelo a coste de lo que sea vale No estamos simplemente diciendo Bueno dedicamos más computación dedicamos más recursos y así obtenemos un modelo o3 que es más potente pero que a lo mejor es más caro no en este caso el modelo o3 mini una de las mejores noticias que pone sobre la mesa es su eficiencia haciendo que este modelo sea más rápido más eficiente y sobre todo muy importante más barato entendiendo que el modelo o3 mini capacidades pues estaría a la par que el modelo o1 vemos aquí que o1 costaba unos 60 los tokens de salida y 15 los tokens de entrada por millón de tokens Y en este caso este precio ahora baja con o3 mini a 4,40 y a 1,10 es decir una rebaja del 93 por con respecto al precio de o1 Y si queremos comparar manzanas con manzanas Pues un 63 por más barato que el precio de o1 min esto era importantísimo y Habría que ver cuánto está afectado por la ruptura de precios del mercado que ha hecho dipsi con su salida un modelo que era ya sabéis muy barato muy eficiente que está casi casi en torno a este esquema de precios con lo cual segurísimo aquí Open Ai ha tenido que ajustar las matemáticas para intentar ser competitivos pero bueno esta eficiencia de precio son muy buenas noticias para todos nosotros consumidores porque va a permitir que podamos utilizar Este modelo o3 mini con mayor cantidad de usos que los modelos anteriores en este caso podemos utilizar de forma ilimitada el modelo en la versión Pro tendréis 150 usos diarios si sois Plus de $ lo cual es el triple de lo que teníamos antes con el modelo 1 e incluso si eres usuario gratuito vas a poder probar estos modelos razonador y también nos han dado acceso a este modelo a través de la Api para que podamos construir herramientas con estos modelos razonador además con muchas funcionalidades que estaban pendientes en la sante con lo cual muy buenas noticias más capacidades más posibilidades de integración y más barato siempre es una muy buena noticia ahora es mejor Este modelo Pues solo hay una forma de saberlo y es probándolo y Para probarlo dada la naturaleza de este modelo como hemos explicado muy orientado sobre todo a labores de matemática programación pues vamos a hacer pruebas en este ámbito Y ante la sopa de modelos aquí mi recomendación es que siempre que podáis para este tipo de tareas pues elijáis el modelo o3 mini El que tiene más computación y ya está no os compliqué más elegís Este modelo y a jugar en este caso he diseñado un prompt que le va a pedir una aplicación sencillita una demo que lo que busca es que implemente un visualizador web de redes neuronales que sirva para comprobar el proceso de entrenamiento Quiero poder configurar la topología de la red y visualizar en tiempo real Cómo se va entrenando y además quiero que se visualice con colores y con tamaños y grosores pues la importancia de las conexiones de la red según se va eh Ajustando Hazlo elegante bonito intuitivo y todo autocontenido en un archivo html para ejecutarlo directamente por comodidad elegimos el modelo le damos a enter y vamos a observar qu tan rápido resuelve el problema o3 mini en este caso vemos que nos empieza a mostrar pues su resumen de las cadenas de razonamiento recordemos que este modelo A diferencia de dips nos oculta su forma de pensar lo cual lo hace un poquito menos Interesante pero vemos que aquí el modelo pues ya está decidiendo cómo estructurar El problema cómo desarrollarlo está eligiendo librerías pues D3 eh es Vale pues Sigue pensando Sigue pensando hasta ahora todavía no ha empezado a implementar nada pero quiero que veáis qué tan rápido realmente genera tokens puesto que esto es un resumen vale fijaos todo esto lo acaba de generar instantáneamente vale Este modelo es muy muy rápido y el tiempo que nos mantiene aquí en espera realmente por detrás seguramente esté generando cadenas de razonamiento que son muy largas que yo creo que es la característica de este modelo pequeñito pero muy ágil Entonces vamos a este código me lo copio me lo pego por aquí en un archivo html abrimos el archivo y tenemos lo siguiente vamos a ver si lo ha conseguido hacer a la primera vale vemos que podemos ajustar la topología de la red con tres neuronas cinco neuronas dos neuronas y podemos darle a iniciar entrenamiento en este caso se nos dibuja una red neuronal con la topología que le hemos pedido 3 5 y 2 con los pesos con diferentes colores azul y rojo y en este caso si le doy al botón iniciar entrenamiento Aquí vemos que la red se está Ajustando lo que no se está viendo para qué problema en concreto Pero bueno sabemos que hay algún tipo de entrenamiento que está ocurriendo le voy a pedir que me lo modifique para que nos añada lo siguiente quiero visualizar alguna nube de puntos que muestre el problema de clasificación por el que estamos entrenando y una gráfica donde se vea el los en el tiempo vamos a darle ahí le vemos pensando pensando pensando y a ver si puedo capturar ahora el Cómo se genera el código para Que veáis que tan rápido genera tokens Ah me lo he perdido es que va muy rápido vale de repente lo genera de golpe pero bueno vamos a copiar el código de nuevo pegamos el código le damos a iniciar entrenamiento y aquí ahora sí podemos ver como la red neuronal pues ha encontrado fácilmente la solución de este problema vale hemos hecho un visualizador con su propio entrenamiento su problema de clasificación y la visualización de los en tiempo real le voy a poner una topología un poquito más sencilla a ver si la podemos dejar ahí que no consiga clasificar pero en este caso vemos que fácilmente es un problema de clasificación muy sencillo y rápidamente la red pues consigue ajustarse perfecto por comparar voy a hacer este mismo prom con otros modelos vamos a probar con dips vamos a probar con o1 y vamos a probar con sonet aunque creo que es relativamente sencillo Y en este caso casi todos lo van a conseguir eh de una forma u otra quizás en este caso tres mini lo que nos ofrece son tiempos de ejecución mucho más rápido aquí vemos como dipsi empieza a generarnos Pues el código más lento más despacio estamos hablando de un modelo más grande y más pesado pero bueno a caballo regalado no le miramos el diente Y si tenemos que esperar un poquito haciendo un café pues no pasa nada tenemos el resultado nos deja ejecutarlo Aquí vamos a darle Run html y vemos un resultado también bastante interesante eh podemos elegir aquí la topología que queramos le damos a iniciar entrenamiento bueno primero crear red con la topología elegida iniciar entrenamiento y bastante bastante bien De hecho Si tuviera que elegir uno quizás arreglaría un poco la visualización pero me parece muy chulo el Cómo se ha entrenado y cómo se han ido Ajustando los los tamaños este me gusta bastante además con el parámetro de tasa aprendizaje bastante bien dips eh vamos a probar también con o1 que nos ha generado el siguiente código en este caso un resultado también bastante completo que nos lo va a ser para la prueba del short vale esta Va a ser complicada para la red podemos elegir la topología en este caso 221 que lo va a utilizar para el problema de la sh short le damos a construir red nos genera este diagrama quizás no tan bonito como el de dips le damos a iniciar entrenamiento y vemos que también se optimiza Y por último con clot sonnet 3. 5 que en este caso es el único modelo que que no es razonador pero claro que es el que la mayoría de la comunidad prefiere a la hora de programar vamos a ver si este modelo sin tanta fanfarronería de estar pensando y pensando consigue darnos un resultado que sea equiparable lo ejecutamos y aquí también tenemos un resultado que está bastante bastante bien quizás este problema no era el más complicado Pero al menos nos sirve para ver un poco el funcionamiento de los diferentes modelos vamos a probar con algo un poquito más complejo quien haya estado siguiendo la actualidad de los modelos o tres en Twitter habrá visto que muchas gente ha probado a generar pues resultados interesantes con este modelo que podían caer en dos categorías una era eh hacer ejemplos del snake que me parece que están bastante eh Ya saturados por overfit en el modelo debería saber cómo hacer un snake bastante decente y luego otro también tenía que ver con generar estas estructuras poligonales con pelotas rebotando que lo que viene a demostrar es la capacidad del modelo de poder pues simular entornos físicos donde haya pues una pelotita rebotando dentro de una geometría medianamente compleja y la mayoría de la gente estaba en esto en pelotitas rebotando por un lado y en Snakes por el otro con lo cual a mí se me ocurrió hacer la siguiente prueba Oye quiero que implement es el juego del snake dentro de un hexágono rotando donde los premios las recompensas que la serpiente tiene que ir capturando Son bolitas que van a estar rebotando dentro de este polígono vamos a mezclar los dos problemas y a ver si la ia consigue resolverlos correctamente Además le voy a poner varios criterios pues quiero que las recompensas se vean afectadas por la gravedad es decir que que reboten y vayan cayendo que el usuario pueda gobernar a la serpiente eh haciéndola girar 90 gr a la derecha o a la izquierda además que haya un algoritmo de aprendizaje automático donde la serpiente pueda entrenarse para aprender a jugar Dentro de este entorno simulado que estamos creando donde podamos acelerar la simulación por 2s por 4 por 8 es decir un montón de criterios que vamos a pedirle a o tres mini que empiece a implementar y aquí se pone a pensar conceptualiza el juego controla optimiza empieza a trabajar y tenemos el resultado por aquí vamos a copiar el código lo vamos a lo ejecutamos Y tenemos este resultado tenemos un hexágono girando vale tenemos tres bolas rebotando podemos controlarla la serpiente Gira la serpiente puede las recompensas que están rebotando en el mapa y parecería que todo funciona como le hemos pedido vale eh tenemos el hexágono tenemos las recompensas con sus físicas rebotando y yo puedo eh ir moviéndome y podemos ir rebotando por las paredes solamente hay un fallo que esto comprobé comprobé ayer que era cuando choca directamente en muy frontal pues como vuelve para atrás eh la serpiente muere y tenemos el modo Machine learning off pero que si lo activamos pues tenemos a la serpiente en este caso moviéndose ella sola por el escenario aquí ya no estoy controlando Yo nada Y hasta que no pille recompensa acaba de pillar una creo Pues aquí no vamos a ver que el gráfico se empieza a actualizar podemos acelerar el tiempo de la simulación por o vamos a ver si conseguimos que cambie su comportamiento un poquito poquito vemos que cuando la simulación se acelera por tema de colisiones alguna de las bolas se van fuera del hexágono vale fijaos aquí ha pillado alguna eh recompensa y en este caso pues se ha actualizado el gráfico de abajo y esto sería cuestión de ir perfilando Pues un poco las cuestiones de la simulación pero más o menos todo lo que le hemos pedido si activamos aquí el modo Machine learning se ve mejor está implementado Qué pasa si le pedimos el mismo prompt a dips pues notar el siguiente código y al ejecutarlo en este caso tenemos un resultado pues bastante bastante buen no pero bueno vemos que las físicas tampoco están funcionando aquí eh del todo bien y eh hemos perdido por completo las bolas vamos a actualizar Vamos a darle más velocidad y vemos que está un poquito más roto si bien No la serpiente la hemos perdido fuera del hexágono también e ha sido un muy buen acercamiento y de primeras quizás me gustaba hasta más el diseño de este juego pero a nivel de funcionalidad estaría incluso más roto que que el de o3 Mini no en este caso pues no nos permite hacer ningún tipo de experimento con esto y qué nos genera el modelo o1 de la saga anterior Pues el resultado en este caso es el siguiente vale de nuevo vemos un hexágono rotando vemos más o menos implementado pero no la colisión con el hexágono está de nuevo completamente rota y no tiene mucho sentido vamos a Activar el modo ia modo automático hay trazas de lo que queríamos implementar pero en este caso todavía habría que iterar y solucionar muchos de los problemas que estamos eh viendo Y por último tenemos el resultado de clot sonet 3.
5 sin ser un algoritmo razonador que en este caso no da un resultado como este donde no tenemos ni movimiento ni serpiente ni recompensas y donde Pues en este caso la cosa no funciona con lo cual para mí las conclusiones haciendo estas pruebas y con alguno de los experimentos que he estado probando este fin de semana es que otres mini High realmente sí es un modelo que mejora las capacidades de programación de los modelos en muchos casos consigue resolver problemas One Shot sin tener que estar diciéndole Oye aquí te has equivocado esto es un problema lo cual demuestra Muy bien pues las mejoras las capacidades que este modelo incorpora Ahora aquí hay un problema que creo que Open Ai va a tener que enfrentar en algún momento Y es que está colocando estos modelos o3 como buenos modelos de programación que lo son pero que creo que no se integran perfectamente en el flujo de trabajo de programación de todos nosotros donde lo que queremos pues no es tanto un modelo al que tú le es Oye resuélveme este problema y trabaja en el tiempo y luego dentro de un rato vuelvo a ver si lo has implementado bien o mal sino que realmente por ahora lo que queremos es el human in the Loop nosotros participar del proceso con lo cual modelos como clots sonet 3. 5 creo que a día de hoy sigan siendo los mejores candidatos para trabajar en cursor o en windsurf o con cualquiera de estas ides de programación donde nosotros podamos iterar rápidamente en un ida y vuelta con el modelo y que podamos ir dándole nuestro feedback o tres mini High es es un gran modelo es un buen testimonio de los avances que Open Ai está consiguiendo y una evidencia de que el paradigma en el que estamos entrando Pues nos va a traer muchas mejoras a futuro esto funciona pero creo que Open Ai todavía tiene que trabajar más en encontrar pues fórmulas para extraer estas capacidades y este valor y dársela a los usuarios y esto tiene que ver mucho con el anuncio que hicieron la noche del día de ayer creo que la nueva funcionalidad Deep research investigación en profundidad como lo entr traducido en español es un ejemplo perfecto de lo que estamos hablando la utilización de las nuevas capacidades agentic de los modelos de poder navegar por internet dedicar tiempo de razonamiento a saber qué Fuentes Buscar Cómo agregar la información Dónde clicar dónde entrar dónde no entrar para conseguir en cuestión de 10 minutos 20 minutos 30 minutos reports mucho más avanzados que lo que los modelos actuales pueden ofrecer por ahora Esta es una funcionalidad que llega solo a los usuarios Pro pero que próximamente estarán el tier plus y a lo mejor en un futuro en la versión gratuita y que lo que te permite es pues pedirle al modelo que te haga investigaciones en profundidad por ejemplo vamos a preguntarle de un tema del que yo conozco que es sobre mí vamos a ver si se inventa o no se inventa algún dato si sabe consultar Fuentes correctas le voy a pedir que me haga un informe detallado sobre quién es dcsv en este caso vamos a marcar aquí la opción Vamos a darle a enter y lo primero que nos vamos a encontrar es que el modelo te va a pedir más información más contexto sobre exactamente qué es lo que quieres buscar por ejemplo biografía y antecedentes a ver antecedentes mientras no sean penales Busca lo que quiera carreras y proyectos destacados influencia en la comunidad plataforma en la que está activo vale Ya sabe que estamos hablando de mí que soy un youtuber redes sociales perfecto le vamos a decir sí a todo y en este caso lo que vamos a ver es que el modelo ahora pues va a empezar a ser un proceso de pensar en profundidad de estar dedicando tiempo de computación y aquí nos carga pues justamente el menú donde está trabajando si clicamos aquí vamos a ver que ya la actividad detallada se empieza a producir Pues nos cuenta un poco lo que está haciendo está buscando información en diferentes Fuentes y también podemos consultar el listado de fuentes que está eh recopilando En este caso todavía no aparece ninguna Pero me gusta porque la primera fuente que acaba de aparecer pues es justamente eh la del departamento de informática de la Universidad de Las Palmas de Gran canaria es decir ha encontrado realmente donde tiene que buscar para saber eh quién soy yo y en un proceso que es tan fascinante como un poco perturbador eh voy viendo como poco a poco va incluyendo información que sí tiene que ver con mi carrera profesional y mientras va pensando Quiero contaros que en realidad esta idea Pues tampoco es nueva de Open Ai de hecho lo que han hecho ha sido copiar una funcionalidad que ya Google sacó y que a mucha gente le gustó con el mismo nombre Eh Deep research que en este caso funciona sobre el modelo 1. 5 pro de gemini vale esta funcionalidad como digo está muy bien pero a día de hoy ya no la podemos comparar en rendimiento con lo que ofrece Open Ai a través del nuevo modelo o3 porque al tratarse de un un modelo más avanzado con capacidades agentic para buscar información la tecnología de Open Ai a día de hoy es mucho más potente de hecho vamos a hacer la prueba con el mismo prompt le vamos a pegar aquí que me haga un informe detallado de quién es dots suv y vamos a comparar un poquito los resultados Igualmente Casi casi seguro Google dará respuesta a este movimiento de Open Ai sacando una versión actualizada con el nuevo modelo que está a punto de salir yemini 2.
0 pro con lo cual Pues esta comparación la vamos a un poco con pinzas pero fijaos que la interfaz es casi lo mismo aquí y nos dice Oye informe detallado sobre dod suv qué quieres investigar quieres investigar todo esto quieres Modificar el plan Vamos a darle a empezar la investigación Y de nuevo va a canjear noos tiempo de computación haciendo búsquedas en diferentes Fuentes aprovechando el motor de búsqueda de Google para encontrarnos la mejor información y tras haber pensado 5 minutos y haber consultado 22 Fuentes aquí tenemos dod SV pionero de la divulgación de la ia en español y nos hace una biografía donde veo detalles correctos como Mi nombre es Carlos Santana Vega nacido en 1992 en Las Palmas de Gran canaria ingeniero informático y también graduado en Ade eh con especialización en Data Science y Machine learning todo esto es correcto encontrando detalles como que el peculiar nombre del Canal proviene de la extensión de archivos eh pun SV aunque no No termina de conectarlo con que viene a ser las siglas de mi nombre no Carlos Santana Vega Pero bueno y nada pues vemos un montón de detalles algunos más actualizados otros menos pero fijaos que los que no están lo referencia con la fecha hecha lo cual también es muy interesante y todo esto en un report completísimo con información s super interesante la verdad es que esta funcionalidad eh la he estado probando he estado haciendo diferentes pruebas y me he encontrado con resultados bastante bastante buenos pues por ejemplo para labores de documentación que yo he tenido que realizar en mi propio canal de YouTube pues por ejemplo investigar cómo funciona el modelo razonador o1 de Open Ai cuando apenas había información en este caso tras 6 minutos pensando el modelo ha sido capaz de darme una respuesta a un report muy muy completo referenciando a papers que yo consulté en su momento e incluso trayendo información más actualizada como todo el caso de dips que estuvimos hablando la semana pasada con técnicas como el grpo que tan buenos resultados ha estado dando en el proceso con lo cual Sí me estoy encontrando en esta herramienta una herramienta potentísima que demuestra el uso de tecnología de agentes en este caso aplicado a la información por comparar el resultado que nos da gemini pues a priori parece muy bonito no tiene información muy bien referenciada nos da tabla con datos pero vemos que el report está mucho más limitado y vemos Que gran parte de los datos que nos muestran aquí están alucinados no soy mexicano mis plataformas no son YouTube y github y mucha de la información que se está mostrando aquí realmente eh No representa exactamente lo que yo estaba buscando No creo que es importante que aunque la información que encuentres incluso sea correcta sea relevante y ahí Creo que el Deep research de Open Ai Pues creo que consigue resultados mucho mucho más profundos Y esto es lo que hay que hacer hay que convertir a estos modelos en productos reales productos que realmente aporten el valor y saquen de dentro Todo ese potencial que tienen Deep research el operator de la información y el conocimiento Pues creo que es un muy buen ejemplo que ilustra esto y se demuestra con un resultado que realmente es impresionante hay un benchmark que salió hace dos tres semanas lo estuve comentando en Twitter que se llama humanity la exam el último examen de la humanidad e un nombre un poquito exagerado pero que viene a hablarnos de este benchmark que está compuesto por un montón de preguntas muy muy complicadas de ámbitos del conocimiento muy muy diferentes por ejemplo matemáticas informática Tenemos también ecología tenemos preguntas clásicas y donde la gran mayoría de modelos pues conseguía un resultado muy malo gbt 4o o1 sonet 3. 5 gemini ninguno de estos modelos llegaba a superar el 10% de preguntas de este nuevo benchmark pero ya la semana pasada con el nuevo modelo o3 mini medium Ya llegamos a 10,5 Oye le damos más computación Pues en modo high llega al 13 por. muy impresionante ahora este nuevo modelo Deep research basado en o3 llega a alcanzar un 26,6 por en este benchmark un modelo que no es solamente el modelo o3 sino que es una estructura de herramientas alre alrededor diseñadas para que este modelo desempeñe mejor con todo esto pasos interesantísimos nuevos modelos o3 mini más baratos más capaces y que todavía a mi gusto le falta este puntito para ser útiles en los contextos en los que Open Ai quiere que los utilicemos ahí todavía sonet 3.
Copyright © 2025. Made with ♥ in London by YTScribe.com