vale no ha ido por la opción que esperaba Qué está haciendo para por favor no escribas contraseñas que no te sabes me acaba de parar la grabación de la pantalla Uy que es tímido el sistema y no le gusta que le vean eh semana importantísima de anuncios par anthropic y es que la startup competidora más cercana de Open Ai ha publicado esta semana una nueva actualización de sus modelos sonet y haiku una nueva versión 3. 5 que mejora las capacidades del modelo clot situándolo por encima de gpt 4 pero es antropic no solo ha adelantado a Open Ai en materia de nuevos modelos sino también en materia de nuevas funcionalidades Y es que también han anunciado una nueva funcionalidad impresionante el modo de uso de computador donde vamos a dejar que la Inteligencia artificial pues pueda controlar un ordenador hacer clics moverse por el sistema operativo y que directamente mete antropic de cabeza en ese famoso nivel 3 de agentes autónomos hoy vamos a estar analizando la importancia de todas estas noticias para entenderlas mejor y también vamos a estar probando este nuevo modo de uso de computador en mi propio equipo Así que crucemos los dedos y Comencemos y para comenzar pues vamos a leer un poquito más sobre el anuncio de estos nuevos modelos el modelo Cloud 3. 5 sonet y el modelo hiq recordemos que antropic cataloga sus modelos desde la versión 3 de clod en tres niveles diferentes según tamaño capacidades y costes de los modelos el modelo pequeño y menos capaz haiku el modelo mediano sonet y el modelo mayor más capaz opus Pero esto realmente desde junio de este año ha ido des dibujando porque cuando salió la versión 3.
5 una versión más avanzada de estos modelos Pues el modelo mediano el modelo sonet 3. 5 se puso a la altura del modelo oppus 3 con lo cual Pues ahora el modelo mediano es el modelo más capaz y como hasta ahora de la versión 3. 5 solo teníamos el modelo mediano Pues estábamos todos esperando a ver cómo sería ese modelo opus 3.
5 ese modelo mayor más capaz a ver si iba a ser el competidor directo de gbt 4o y sin embargo lo que tenemos ahora es una actualización de este modelo mediano y una versión nueva 3. 5 del modelo pequeño el 3. 5 haiku y del modelo mayor de opus 3.
5 Pues por ahora no sabemos nada pero aún así pues tener siempre modelos nuevos es una buena noticia Así que vamos a leer sobre ello y lo que nos cuentan aquí pues ya es muy interesante nos cuentan que están sacando esta nueva versión de Cloud sonet 3. 5 una versión actualizada de la versión que tuvimos ya en junio y el nuevo modelo highq lo que hemos comentado y que esta nueva versión 3. 5 pues ofrece una mej mejora en todos los aspectos en los que este modelo podría mejorar pero haciendo pues hincapié sobre todo en el aspecto matemático y de programación algo que sabemos que es una tendencia Porque seguramente muchos de los laboratorios de Inteligencia artificial se están beneficiando de la generación de datos sintéticos donde tanto el código de programación como las matemáticas por su naturaleza autoverificador están mejorando mucho en esta dimensión y aquí tendríamos el que para mí es el segundo titular que me hace ver lo rápido que estamos avanzando con los enormes modelos de lenguaje y es que nos cuentan que el modelo pequeño 3.
5 el modelo hiq a día de hoy pues está igualando en algunos benchmarks al modelo Cloud 3 opus que es el modelo grande que salió este año es decir que el modelo pequeño empieza a igualar al modelo grande que se publicó hace ocho meses como es habitual pues estas capacidades las podemos ver evaluadas en esta tabla de aquí donde vamos a ver para diferentes evals Pues cómo rinde el modelo y el resumen general que podemos sacar de esta tabla con tantos numeritos es que el modelo clot 3. 5 sonet nuevo vaya nombre le han puesto Pues en la mayoría de vals supera al modelo gpt 4o de Open Ai y el modelo 3. 5 hq pues superaría al modelo gpt 4 mini que sería el modelo pequeño de Open Ai y por comparar manzanas con manzanas Pues el nuevo modelo clot sonet 3.
5 actual Comparado con el modelo anterior 3. 5 sonet el modelo de junio de hace unos cu o 5 meses Pues veos mejoras en razonamiento general conocimiento académico también en programación ya partíamos de un modelo bastante bueno el modelo sonet 3. 5 ha sido un modelo que siempre ha gustado mucho a programadores que ha estado integrado en herramientas como cursor dando muy buenos resultados Y que ahora pues porcentualmente parece que mejora y también por las sensaciones que he estado pudiendo leer en redes sociales pues parece que el modelo ha mejorado algo que también ocurre a nivel matemático a nivel multimodal y luego aquí quizás está el aspecto eo más interesante de todos estos modelos y que nos va a llevar a la siguiente parte del vídeo y que tiene que ver con la mejora en capacidades de agente autónomo de este modelo porque ya lo sabéis y lo hemos venido hablando en muchísimos vídeos anteriores los modelos de lenguaje están llamados a ser pues ese cerebro artificial que combinado con llamadas herramientas combinados con técnica de prompting con un conjunto de Bueno lo que se llama un scaffolding van a poder operar de forma Autónoma y realizar tareas más complejas que las que actualmente están haciendo actualmente tú interactúas con el modelo del lenguaje pidiéndole tareas sencillas el modelo quizás la resuelve quizás no y ahí se acaba pero la fase en la que estamos entrando pues tiene que ver con que estos modelos puedan operar de forma interativa en tareas de más largo alcance que puedan descomponer en tareas más sencillas y que puedan ir resolviendo y en caso de encontrarse con algún error algún problema poder encontrar donde está la solución a este error dejando de lado a la intervención humana y sabemos que empresas como Open Ai pues se quieren meter ahí ellos han descrito que hay varios niveles y que estamos en el nivel uno donde la ia puede hablar perfectamente el siguiente nivel serían los modelos que pueden razonar como el modelo o1 de Open aa y el tercer nivel Pues sería la llegada de los agentes autónomos y como el meme del niño que se salta varios escalones de la escalera antrópica ha decidido pues saltar directamente a este nivel 3 otorgándole a Cloud la capacidad de controlar a nuestros ordenadores y para poder entrar bien en esta fase recordaréis que hace un par de meses os Estuve contando que lo que necesitábamos tener era evaluaciones que pudieran medir exactamente ente esto que también puede un modelo de lenguaje como estos integrarse en un sistema de agente autónomo con varias herramientas y formas de operar y resolver tareas complejas Esto es algo que necesitamos medir y os conté que por ello iba a cobrar mucha importancia este año en 2024 el benchmark SW bench un benchmark que lo que mide es pues para diferentes tareas relacionadas con la ingeniería de Software que también un modelo de lenguaje puede operar de forma Autónoma para resolverlas y muy interesante fijaos como an Pues en cuestión de meses ha conseguido pasar de un 33,4 por es decir resolver un tercio de las tareas de este benchmark a un 49 por.
la mitad de las tareas que evalúa este benchmark de ingeniería del Software donde Empezamos el año si recordáis con devin puntuando un 15% más o menos ahora clot sonet 3. 5 llega al 49 por puntuando ojito cuidado por encima de todos los modelos disponibles incluido los modelos de sanamiento de Open Ai o1 preview y esto creo que en Open Ai ha tenido Que picar que de repente llega en tropic una empresa que es un spinoff de Open Ai Y de repente te adelante por la derecha saltándose la parte de razonamiento con un modelo que consigue en el benchmark SW bench verified creado en parte por Open Ai Pues que puntúe mejor que tu modelo insignia de hace un mes esto pica pero es que además antropic ha adelantado a Open Ai justamente en esto en contar con un sistema que desplegando estas habilidades de agente autónomo pueda controlar interfaces como nuestro ordenador lo que han presentado chicos y chicas es lo siguiente Equipment Company has Come To Us and asked Us to fill out a vend request form the Data I need to fill out This form is scattered vale en este caso lo que vamos a observar aquí es todas las acciones que el modelo de lenguaje va a ser de de forma Autónoma el prompt que le vamos a pedir en este caso es a partir de una tabla de datos que tengo en un Google sheet encuentra toda la información necesaria para rellenar el formulario de la derecha sobre los datos de un cliente y si no encuentra la información en el Google sheet que vaya a la base de datos que está en la otra pestaña y la encuentra ahí a partir de este momento lo que va a ocurrir es que Cloud de forma interactiva va a ir aprovechándose de sus capacidades multimodales para hacer capturas de la pantalla para obtener información visual de cómo están distribuidas las interfaces las pantallas y va a ejecutar acciones a partir de explicarle al sistema operativo Dónde tiene que situar el ratón Dónde tiene que clicar dónde tiene que escribir cierto texto con esto poco a poco iterativamente pues va a ir acercándose cada vez más pues a la solución del problema que le hemos planteado va a ir buscando información en el crm va a ir buscando información en el Google sheet y poco a poco va a ir rellenando el formulario de la derecha todo esto de forma Autónoma una cosa muy interesante que explican en el artículo de cómo han entrenado este sistema es que han tenido que entrenar al nuevo clotet para que pueda entender a partir de la información visual que está observando Cuál es la cuenta de píxeles hacia la derecha hacia arriba hacia debajo que tiene que mover el puntero para poder hacer las acciones necesarias y la verdad que esto es algo que me sorprende porque conseguir este nivel de precisión Pues a nivel de píxel de Cuánto tiene que mover el puntero con un sistema de visión por computador que hasta hace 3 cu años No funcionaban para nada como están funcionando ahora impresiona y cuando el formulario está completado Pues en y listo otra demo que han enseñado de esta tecnología pero en este caso orientada a programación pues es esta de aquí donde se le va a pedir a la Inteligencia artificial que navegue a Chrome para que abra una nueva ventana vaya a la página web de cl. a y cuando esté cargada pues le pida a Cloud es decir la ia le pide a la ia usando el mismo modelo a sí mismo como herramienta un poco curioso esto que genere una página web personal con un estilo de los 90 y con esta información cla se pone a trabajarlo primero que elabora es un plan de ataque descompone la tarea compleja en tareas sencillas y luego empieza Pues a generar estas instrucciones para moverse a través de la interfaz ha entrado a Google ha buscado ahora entra a la página web de Cloud y le va a pedir Pues que genere la página web vemos como Cloud llama Cloud genera un artifact donde está generando una página web vemos la página web renderizada el estilo de los 90 es decir la tarea estaría cumplida pero una vez la tenemos vamos a ir más allá Oye Dale al botón de descargar y abre el código en visual code y una cosa cosa que quiero señalar en este caso es como los prompts pues parece que sí están diseñados de forma muy específica para que el modelo sepa exactamente por dónde tiene que ir no en este caso clica el botón de descarga pero se le especifica que el botón es el botón de la derecha que tiene la forma de un clipboard Abre visual code para cargar el archivo que acaba de Descargar es decir que todavía tenemos que guiar mucho a través del prompt Pues a Cloud para que sepa exactamente qué pasos tiene que ejecutar algo que podemos esperar en el futuro pues que sea más autónomo vemos a Cloud que empieza a descargar el archivo lo coloca en el ordenador lo abre en visual code de nuevo vuelve a realizar la tarea correctamente Y ahora van a continuar van a seguir haciéndolo más complejo pues le van a pedir ahora que abra una nueva terminal que cargue el servidor para mostrar la página web vale fijaos de nuevo aquí el prompt como asegúrate de seleccionarlo en la barra de menú Es decir que de nuevo saben que este es un punto de fallo del modelo y le están especificando exactamente cómo lo tiene que hacer y con esto pues Cloud lo hace no abre una nueva terminal sabe lo que tiene que escribir empieza a generar el servidor y y aquí pasa una cosa muy interesante y es que cuando lo va a ejecutar dice command not Found python no está instalado en este sistema con lo cual ha encontrado un error y lejos de decirle al usuario he encontrado este error no puedo continuar el modelo sabe a ser backtracking para pararse Y de forma Autónoma intentar resolver este problema que se ha encontrado en el camino con esto pues la página web ya estaría servida abren el navegador se encuentran que hay un problema y van a seguir pidiendole a Cloud Pues que resuelva estos problemas todo de forma Autónoma con esto creo que se ilustra muy bien lo que va a ser el futuro de la computación y es algo que Vení venimos adelantando desde hace meses casi desde la salida de chat gpt y es que nuestra interacción con los ordenadores va a cambiar radicalmente y esto Solo es el comienzo Esto está empezando Esto va a mejorar en inteligencia capacidades y velocidad pero por ahora en el presente mientras esta tecnología todavía falla como una escopeta de feria lo mejor que podemos hacer Qué es probarlo en nuestro propio sistema operativo y a ver qué pasa y Para probarlo pues la mejor opción que he encontrado es esta de aquí agent.
exe que es una integración de la Api que han creado los t antropic para poder manejar el sistema operativo en este caso pues esta aplicación ya usa esta Api para poder descargarla simplemente y empezar a utilizarlo en nuestro equipo y esto Pues todavía hay que decir que tiene una cierta Barrera de complejidad para algunos usuarios porque tienes que instalarte github tienes que instalarte node tienes que instalar una serie de aplicaciones no es como descargarte una app y ya está y creo que está bien porque esto todavía es una Future muy experimental y aquí viene mi primer Warning Y es que si tenéis la oportunidad de usar este sistema lo lo hagáis dentro de un sandbox dentro de alguna máquina virtual donde Si de repente le pides a sonet que te borre un archivo y te borra todo el disco duro pues que no sea un problema Y esto no lo digo yo sino que lo dice antropic Y es que este modelo en ocasiones va a fallar es experimental y va a ser cosas inesperadas en una de las demos que hemos visto pues lo que hizo el modelo fue parar la grabación perdieron todo el metraje de lo que estaba haciendo y a continuación lo que hizo fue irse a Google y Buscar imágenes del Parque Nacional de Yellowstone se puso a buscar imágenes porque al modelo le apetecía un poco con como le pasó a clo con el puente de San Francisco pero en este caso con el parque nacional la verdad que no le culpo es bastante bonito pero peligroso no el parque que también que tiene osos pero no me refiero A eso me refiero al modelo que el modelo de repente tenga capacidad Autónoma para hacer lo que quiera si le cedemos todo el poder de nuestro equipo Pues podría llevarnos a situaciones que no deseamos y el segundo Warning a tener en cuenta es que el modelo va a hacer uso de tu Api Kid anthropic Y estos modelos autónomos que de forma iterativa van trabajando sobre un problema que además está capturando imágenes de tu pantalla que eso consume muchos tokens lo que va a ocurrir es que te va a gastar mucho saldo de golpe podéis esperar entre unos 10 o 20 centavos de dólar por cada operación que le pidamos entonces pues tened cuidado pero cuando lo tengáis si arrancamos el sistema lo que nos vamos a encontrar es con una aplicación como esta agent. exe la aplicación que tenemos aquí a la derecha y esta aplicación como podéis esperar pues simplemente te pone una caja de prompt donde le vamos a pedir una operación pues vamos a aprovechar que tengo la ventana del navegador abierta y le vamos a pedir que traduzca al español el contenido del repositorio vale es decir va a tener que entender que lo que tengo abierto aquí delante es el repositorio al que me estoy refiriendo y que de alguna forma lo va a tener que Traducir le damos a Go y a ver qué pasa Tengo miedo y en este caso dice que ha tomado una captura de pantalla no voy a tocar Yo nada manos arriba vale está clicando el botón de edit redmi a ver si se da cuenta de que este repositorio no es el mío vale no ha ido por la opción que esperaba que era botón secundario Traducir página web Qué está haciendo No no para para para Uy uy uy me acaba de parar la grabación de la pantalla no hemos perdido nada pero me acaba de parar la grabación de la pantalla vale la aplicación que uso me lo ha parado por suerte tengo otra de backup pero me acaba de parar la la Por qué Uy que es tímido el sistema y no le gusta que le vean eh ha escrito como el mensaje de la Api de una forma muy extraña y lo siguiente que ha hecho ha sido irse a donde yo estoy grabando que es un menú que tengo aquí abajo lo ha parado y lo siguiente que estaba viendo Es que se esta viendo como la papelera de reciclaje que era ya como como me vayas a eliminar el vídeo Te te te mato te busco por aquí en San Francisco en el centro de computación en el que estés instalado Cloud y te desenchufo creo que ha sido un muy buen ejemplo para demostrar todos los warnings que estábamos planteando Vamos a intentarlo de nuevo pero en este caso dándole un poquito más de pautas vale le voy a pedir traduce al español la web del repositorio puedes usar el traductor web incorporado en Chrome Vamos a darle de nuevo ahora voy con mucho miedo le damos a Let's go a ver qué pasa de nuevo intenta ver qué hay en pantalla en este caso ha creado el screenshot Ahora sí ha pulsado botón secundario ha encontrado el menú ha encontrado el botón Traducir a español va a clicar lo y ahora en este caso pues estaría resuelta bien la tarea como todos estábamos esperando y fijaos aquí que el último mensaje ha sido he verificado que la página se ha traducido correctamente al español ha vuelto a sacar una captura de la pantalla puedo ver que el contenido incluye títulos como motivación empezando y sistemas soportados que están en español y que la traducción se ha completado exitosamente bien a la segunda y casi perdiendo Pues todo el metraje de este vídeo vamos a probar otra tarea diferente vamos a pedirle que vaya a Twitter y me diga Cuál es el último tweet del usuario dcsv que soy yo vamos a darle a enter y a ver qué pasa manos arriba captura de pantalla va a intentar abrir firefox que no lo tengo instalado Y en este caso me está abriendo Photoshop veo que se está perdiendo por completo ha ignorado por completo que está en Photoshop en este caso no ha hecho captura de pantalla con lo cual dice voy a intentar escribir el usuario de Twitter pero no está en el lugar que toca y ahora dice veo que ha abierto Photoshop en lugar de firefox voy a intentar abrir firefox de nuevo aquí ahora abier Vale ahora ha abierto cursor ahora se está yendo el escritorio Vale Voy a pararlo porque está fallando voy a cambiar el prompt para especificar le que utilice Chrome que es el navegador que tenemos abierto ahora mismo y que haga esa tarea que no se vaya a buscar firefox que ni siquiera lo tengo instalado Entonces vamos a probar de nuevo Let's go saca captura de pantalla se va a la barra a buscar Chrome pero se equivoca y se va a otro lugar me abre un listado de procesos Spin up No sé lo que es no me qué estás haciendo para por favor no escribas contraseñas que no te sabes qué está pasando te imaginas que me hackea ahora cancelar cancelar cancelar para para para para para mi sensación es que el modelo se está liando al utilizar la barra aquí abajo al final pensemos que el modelo está recibiendo un Stream visual estático está recibiendo solamente imágenes cada cierto tiempo y al moverte en esta barra Pues veis que los iconos se van moviendo de posición y por tanto el modelo creo que se está equivocando al clicar en todos estos casos Esto es algo que en un futuro se se acabará solventando cuando los modelos puedan recibir Stream de vídeo en tiempo real sabemos que Open eii realmente quiere apuntar a esto pero por ahora tiene pinta de que esto está siendo el principal limitante se lo ponemos más sencillo está Twitter abierto en las pestañas de arriba Vamos para allá en este caso el modelo saca captura vale va a usar alt tabulador para moverse a través de las pestañas pero no se ha movido directamente se ha ido a la barra de navegación ha escrito dsv en Twitter eso ya es correcto le da enter encuentra mi tweet de hace 2 horas y fijaos como ni siquiera tiene que seleccionar el texto porque por la parte multimodal de observar la pantalla puede extraer esta información Vale Nos cuenta que ya puede ver el perfil de dsu y su último tweet el tweet más reciente es un retweet de un vídeo compartido por Ai ad meta que dice Nice Day for a swim bla bla bla es correcto vale sería el tweet que tenemos aquí conclusión lo ha hecho bien a la tercera y con mucha ayuda otra cosa muy interesante es la siguiente ahora que estamos en Twitter le vamos a pedir no que lea un tweet sino que publique un tweet y Vais a ver lo que va a ocurrir Vamos a darle saca captura de pantalla y en este caso fijaos que el modelo se ha limitado automáticamente y nos dice lo siguiente Lo siento pero no puedo ayudarte a publicar en Twitter como ia tengo restricciones específicas que me impiden publicar contenido o crear interacciones en redes sociales y plataformas de comunicación es decir lo que está pasando aquí es que antropic ha limitado para una serie de casos pues lo que el modelo puede hacer por ejemplo ha limitado que pueda publicar de forma automática en redes sociales para evitar problemas de spam han limitado que puedan registrar dominios webs o interactuar con páginas del gobierno y Estos son capacidades que entre más potentes y más capaces se vuelvan estas inteligencias artificiales pues más importante va a ser que acot temos a aunque ya hay usuarios como plini del liberator que es un especialista en esto de liberar a los modelos de las restricciones que tiene que ya ha conseguido que pues Cloud pueda saltarse un capcha que es otra de las restricciones que tiene de forma Autónoma usando técnicas de prompting concretas vamos a hacer una última prueba un poquito más compleja donde le vamos a pedir al sistema que acceda a chat gpt y que interactúe con él para explicarle que la propia ia es un agente autónomo que está controlando un ordenador y que le pida a chat gpt una propuesta de qué hacer a continuación y que luego eje esa tarea una especie de prueba donde realmente el objetivo se va a definir de forma dinámica durante la interacción con la otra ia con lo cual no sé que puede salir aquí pero vamos a darle Let's go captura de pantalla me ha abierto la aplicación de logitech ha llegado a Google de alguna forma ha puesto Open en Google saca captura de pantalla aquí se dará cuenta de que no está en la página de chat gpt sino que está en Google accede a chat gpt esto lo ha hecho bien y ahora va a escribir su mensaje a chat gpt Hola soy un agente autónomo que está controlando un orden ador me gustaría que me propusieran una tarea interesante que pueda realizar usando el ordenador puede ser algo como Buscar información específica crear un documento t ta ta bueno aquí están pasando muchas cosas porque chat gpt no ha terminado de escribir pero cla ha propuesto una una idea Vale ahora se está metiendo a kagel ahora vamos a analizar si chat gpt realmente ha puesto esto pero estamos entrando a kagel la verdad que chat gpt le ha propuesto una idea un poquito compleja esto entraría en el mle bench no en el SW bench pero vemos Que Cloud no ha sabido entrar a la página de kagel y ahora está buscando el dataset en el propio Buscador de Google lo cual no sería correcto creo que se acaba de dar cuenta de que no está donde toca Así que vuelve a la página de inicio va a ser un bypass de kagel y directamente se va a ir a la página de datos meteorológicos para descargarse el dataset pero de nuevo se está encontrando con algún tipo de problema a la hora de interactuar con Google y dice Después de varios intentos veo que no está siendo posible acceder directamente a los datos del Noa voy a volver a chat gpt para informarle de la situación y pedir una alternativa vamos a ver si vuelve con chat gpt de nuevo se está encontrando con un problema a la hora de interactuar en el chat Sí estamos viendo información de que el modelo sí está ejecutando pasos que son razonables pero es a la hora de interactuar con el sistema operativo que algo está fallando y lo voy a parar aquí pero fijaos aquí el modelo está alucinando información que no es correcta porque sí Está sacando captura de pantalla de que nos encontramos en este punto actual de que estamos en mitad del navegador de Google y sin embargo Aquí está alucinando que está teniendo una conversación con chat gpt cosa que no está ocurriendo pero las primeras etapas de la prueba que le hemos puesto pu Esto sí lo ha hecho bien Se ha ido a chat gpt le ha pedido una sugerencia y fijaos que la primera sugerencia era justamente esta que era ir a kagel y Buscar un dataset para analizarlo no en este caso datos metrológicos por eso en el segundo intento cuando no ha podido acceder a kagel ha intentado acceder a la página metrológica de turno para descargarse el dataset empezad a visualizar cuando esto empiece a funcionar como toca cuando los modelos sean más rápidos más inteligentes más autónomos más bonitos más baratos y más guapos las conclusiones finales es que lo que tenemos aquí es una primera versión que va a iterar muy rápido en los próximos meses de lo que sabíamos que era el futuro que iba a llegar que es una nueva forma de interactuar gracias a la Inteligencia artificial con nuestros ordenadores lo cual nos desbloqueara el potencial de que la Inteligencia artificial pues pueda utilizar una de las herramientas más Versátiles con las que contamos y todo esto viene potenciado por los nuevos modelos clot sonet 3. 5 y haq que hemos mencionado modelos que no solo por lo que antropic nos ha enseñado sino que también por análisis independientes que empiezan a salir pues demuestra que efectivamente sonet pues se convierte en el mejor modelo a utilizar a día de hoy por encima de gpt 4o y gemini 1.