hoy os traigo un tutorial en el que voy a enseñaros a utilizar tres nuevas inteligencias artificiales Open source inteligencias artificiales que podréis ejecutar en vuestros ordenadores en local de forma gratuita y que os va a permitir poder utilizar uno de los modelos del lenguaje más potentes disponibles a día de hoy generar vídeo de calidad con unos resultados que ya empiezan a ser bastante buenos para ser modelos en local y también poder generar música en nuestros equipos como si estuviéramos trabajando con suo pero gratis todo esto Al Calor de nuestras gpus siendo el único requisito necesario
pues contar con el Hardware necesario para poder ejecutar estos modelos y es que como ya sabéis para poder ejecutar muchas de estas inteligencias artificiales Pues nos va a hacer falta tener una gpu potente de nvidia Pero oye Qué suerte que justamente Este vídeo esté patrocinado por nvidia y que junto a ellos estemos sorteando una rtx 590 y el motivo es la llegada del gtc porque la semana que viene se va a celebrar el gran evento tecnológico de nvidia donde Por una parte tendremos la gran ponencia de jensen Juan en la que va a presentar todas
las novedades y que vamos a estar cubriendo en directo para vivirlos todos juntos en comunidad el 18 de marzo por la tarde os espero a todos en ese directo pero es que además durante toda la semana podréis acceder de forma gratuita al resto de sesiones online que ofrece el gtc charlas donde aprenderéis muchísimo de la industria de la Inteligencia artificial por parte de empresas e investigadores líderes tendréis ponencia sobre Inteligencia artificial aplicada a numerosos sectores gráficos por ordenador robótica Hardware procesadores de todo en el gtc encontraréis muchísimo contenido del que aprender y repito gratis y
además estamos sorteando grandes premios como decía si os registrá a través de mi link podréis acceder a un sorteo donde entre otras cosas estamos regalando una rtx 5,090 Cómo participar bueno os explico todos los detalles en el siguiente y lo de Twitter ahí tenéis toda la información leedlo bien porque hay varios pasos son sencillos el más importante es registrarse a través de mi link ahí tenéis toda la información y así podréis entrar a participar en este sorteo no dejéis pasar la oportunidad y recordad que la semana que viene del 17 al 21 vuelve el nvidia
gtc y ahora sí vamos con los modelos Open source y el primer modelo del que quiero hablaros es este de aquí qvq que es un nuevo modelo del lenguaje salido del laboratorio chino quen que en este caso el titular podría ser que Iguala a dipsi R1 vale bueno Carlos pero si Iguala dipsi R1 Dónde está la novedad por qué voy a utilizar Este modelo y no voy a usar directamente dipsi y es una muy buena pregunta que va a venir acompañada de una muy buena respuesta en este caso primero lo que quiero que nos fijemos
es en la capacidad de este modelo vale fijaos que efectivamente aquí sobre diferentes benchmarks Life code bench Life bench y otros benchmarks pues tenemos aquí que efectivamente el modelo qwq 32b que sería La Barrita roja igual a la bar Barrita azul en muchos de estos benchmarks a veces re1 el modelo razonador también de la empresa dipsi pues está un poquito por encima a veces está un poquito por debajo pero vemos que está más o menos a la par y de hecho mejor que mirar solo los números del laboratorio que está publicando ese modelo si nos
venimos a artificial analisis Pues aquí podemos ver que este modelo no es exactamente un modelo con la misma capacidad que dipsi r1 porque vemos Que estaría situado aquí tendría 10 puntos porcentuales menos que r1 pero no es un problema y el motivo por el que no es un problema es que recordaréis muchos de vosotros que el modelo dips Aunque mucha gente se Aliado con ello no es un modelo que nosotros podamos ejecutar en nuestros equipos en un Hardware tradicional recordemos al final que el modelo R1 de dipsi es un modelo de 600,000 millones de parámetros
es un modelo enorme que no cabe en la memoria de muchos de nuestros ordenadores y que en muchos casos lo que la gente ha estado utilizando en local pues son los modelos destilados los modelos donde se ha cogido al modelo muy grande y se ha traspasado se ha entrenado parte de ese conocimiento a modelos más pequeñitos densos modelos pequeñitos que son muy potentes pero que no son tan capaces como el modelo original Entonces por qué es importante el modelo qwq del que estamos hablando hoy porque se trataría de un modelo de 32,000 millones de parámetros
denso significando esto que es un modelo mucho más pequeño que el modelo dipsi original que es un modelo tipo mixter of expert que a nivel de activación de parámetros Pues sí funcionan un poco la par es decir a nivel de coste computacional son modelos que rinden a la par pero claro que a nivel de ocupación de memoria Este modelo ocupa mucho menos significando esto que este sí es un modelo que Vais a poder descargar en su totalidad y podréis meter dentro de la memoria de vuestras gpus si tenéis vram suficiente para poder utilizarlo vosotros en
local con todas sus capacidades siendo así un modelo bastante impresionante vale conseguir meter tanta capacidad dentro de un modelo de 30,000 millones de parámetros Pues la verdad que es una cosa sorprendente Y ahora os voy a contar cómo lo podéis utilizar para ello tenéis un montón de opciones es un modelo Open source está disponible en muchísimas de las plataformas para utilizar estos modelos y yo voy a volver a recomendar utilizar lm Studio que es una de las más sencillas para descargar gestionar y ejecutar muchos de estos modelos Open source con lo cual descargamos e instalamos
lm Studio en nuestro equipo esperamos un poquito y una vez lo tengamos instalado pues ya tenemos el m Studio delante como digo esta es una herramienta que nos va a permitir encontrar Descargar muchos de estos modelos del lenguaje Open source muy recomendable y para esto nos vamos a venir aquí a la pestaña Discover y ya vemos que en el bueno en la búsqueda de modelos el que nos están ofreciendo como uno de los modelos más relevantes a día de hoy es el modelo qwq de 32,000 millones de parámetros un modelo que si nos fijamos por
aquí las versiones cuantizadas que tenemos pues va en el rango de los 17 GB a la versión cuantizada con mayor agresividad hasta los 34 GB aquí tenéis que buscar el tamaño de modelo que se ajuste a vuestra capacidad de vram de vuestra gpu la memoria y yo en mi caso como en estas gpus tengo bastante memoria Pues por hacer una comparación justa con vosotros voy a el modelo que menos ocupa el de 17 GB vamos a ver qué también funciona Vamos a darle a descargar 17 GB que se empiezan a descargar ahora en nuestro ordenador
para poder ejecutar la Inteligencia artificial en local y aquí simplemente recordaros que esto de la cuantización lo que hace es canjear noos capacidades del modelo Por espacio en memoria no podemos ser más agresivo en el proceso de cuantización podríamos tener un modelo más pequeñito que pueda caber en la memoria de nuestra gpu pero al coste de hacer que este modelo funcione Un poco peor Pues aquí tocaría Buscar un poco ese equilibrio y ya estaría descargado una vez lo tenemos pues lo que vamos a hacer es cargar el modelo vamos a meterlo dentro de la gpu
para poder ejecutarlo le damos aquí a L model y aquí podemos ver como arriba se está empezando a cargar el modelo vemos La Barrita y cuando esté completada pues ya podremos utilizar esta interfaz como un chat como si fuera chat gpt para empezar a interactuar con la ia la única diferencia Es que en este caso lo estaríamos ejecutando en nuestro ordenador vamos a probarlo vamos a decirle hola qué tal Y en este caso vemos que el modelo responde rápidamente Hola Muy bien gracias por preguntar y tú en qué puedo ayudarte hoy pues le voy a
decir estoy haciendo una prueba de tus capacidades podrías decirme Cuántas RS tiene la palabra strawberry este test tonto que ya sabemos que las sillas saben hacer y fijaos en este caso Esta es una novedad del vídeo que hice el año pasado del MS Studio ya está adaptado El M Studio a este nuevo paradigma del test Time compute modelos que pueden ronar y que en este caso pues si clicamos Aquí vemos que el modelo está pensando porque este modelo qwq es un modelo razonador y vemos Que bueno pues hace todo el razonamiento para llegar a la
respuesta correcta de que la palabra strover pues tiene tres RS vale Y además nos dice que las RS están en la posición en la tercera en la octava y en la novena lo cual es correcto así que de repente chicos y chicas tenéis ya la capacidad de poder ejecutar a pleno rendimiento un mod de los razonador en vuestros ordenadores vamos a hacer otra prueba vamos a aquí un nuevo chat y Quiero probar con este promt que justamente utilicé el otro día para evaluar a chat gpt 4.5 y no lo acertto correctamente vale fijaos que es
el típico prom de tengo una taza con un dedal con un diamante dentro le doy la vuelta a la tasa en la cama luego me llevo la tasa a la cocina Dónde está el diamante debería estar en la cama dentro del dedal que se ha caído en este caso chat gpt 4.5 no lo ha acertado correctamente el State of the Art de los modelos de Open Ai pero que claro no es un modelo razonador Entonces si no razonas mucho esta respuesta te puede llevar a conclusiones equivocadas y en este caso vamos a ver si el
modelo qwq 32b de quen es capaz de darse cuenta de la respuesta y le vemos pensar vale le vemos thinking vemos todo su eh cadena de pensamiento lo cual es muy chulo de estos modelos el poder ejecutarlo en local poder ver cómo están pensando cómo van generando tokens y tras un buen buen rato pensando un minuto 56 segundos y muchos tokens generados fijaos en este caso que tenemos la respuesta donde efectivamente nos dice que el diamante está en el dedal en la cama y la explicación paso a paso es que al colocar la tasa con
el dedal y voltear la tasa boca abajo inclinada o girada a 180 gr pues al volver a su posición normal pues el dedal ya había caído la cama y no vuelve automáticamente al interior de la tasa lo cual es una respuesta correcta el diamante permanece en el dedal ubicado en la cama la respuesta aprovecha la confusión sobre si los objetos dentro de una tasa se mantienen tras darle la vuelta o se derraman por gravedad este chicos chicas qwq 32b disponible para ejecutar en local vamos con la siguiente ella y no nos vamos muy lejos porque
seguimos con el mismo laboratorio con Queen que en este caso nos trae un modelo de generación de vídeo que aquí no hay duda es el mejor modelo de generación de vídeo Open source un modelo de generación de vídeo bastante consistente muy robusto a la hora de generar dinámicas y físicas que tengan sentido y Y que además como digo podemos ejecutar tanto en generación de texto como generación a partir de una imagen Este modelo podría suponer el stable diffusion ahora mismo de la generación de vídeo Así que es muy importante que lo conozcáis y sobre todo
que sepáis cómo ejecutarlo Y en este caso para mí la forma más sencilla para ejecutarlo es a través de pinoquio ya sabéis que pinoquio es una herramienta que agrega muchas otras herramientas de Inteligencia artificial y permite hacer una instalación sencilla en un solo clic con lo cual os recomiendo bastante que utilicéis esta forma descargá e instalárselo ejecutar solamente con un clic y empezar a jugar con ellas tenemos modelos de lenguaje modelos tipo agentes generación de 3D generación musical tenemos config ui que podéis utilizarlo también para ejecutar Este modelo One 2.1 Aunque quizás sea un poquito
más complejo y yo lo que voy a recomendar es que directamente si lo queréis probar pues utilicéis la versión que nos pone aquí One 2.1 vamos a clicar Ya nos están avisando que es un modelo solo para tarjeta gráfica de nvidia con lo cual pues tenéis que tener una gpu de nvidia y que en este caso nos dicen que vamos a necesitar unos al menos 5 GB de vram lo cual para un modelo de generación de vídeo es bastante bastante asequible con lo cual vamos a clicar le daremos a descargar y luego le daremos a
instalar y ahora sí automáticamente el modelo WS punto1 se va a empezar a instalar en vuestros ordenadores tardará un poquillo la instalación podéis aprovechar para tomaros un café pero cuando esté lista os vais a encontrar una ventana como esta donde tenemos aquí la opción de ejecutar el modelo text to videoo a partir de un prom de texto generar vídeo o el modelo image to video y hay que indicar aquí que el modelo One pues tiene dos tamaños diferentes tenemos un modelo de 14,000 millones de parámetros y un modelo de 1,3000 millones de parámetros es decir
estamos hablando de que hay una versión del modelo que es 10 veces más grande que la otra el modelo grande nos va a dar efectivamente mejores resultados la buena noticia es que el modelo lo pequeño funciona también bastante bien y va a ser el que nos va a permitir hacer generaciones más rápidas y posiblemente mucho del Hardware que vosotros tengáis Pero al menos a día de hoy si queréis generar vídeos en HD Vais a necesitar el modelo más grande y si queréis generar vídeos a partir de imágenes Vais a necesitar el modelo más grande con
lo cual para empezar a probarlo vamos a ejecutar Entonces el modelo pequeño texto vídeo y con esto empezamos a ejecutar la aplicación si todo está correcto debería de ejecutarse y podríamos empezar a trabajar con One inmediatamente y se nos debería de abrir una aplicación como esta que ya sabréis cómo funciona Aquí vamos a escribir el prompt un tiro cinematográfico de una arquera que está en un bosque y que la cámara se va acercando mientras tensa el el arco y con esto vamos a generar un vídeo en este caso en 480 de calidad y con una
duración de unos 5 segundos y unos 30 pasos de inferencia del modelo de difusión Vamos a darle a generar a ver si funciona todo correctamente y vamos a esperar y tras esperar 4 minutillos donde la gpu ha estado dándolo todo tenemos un clip como este 5 segundos donde nuestro prompt pues una arquera tensando el arco mientras la cámara se acerca lentamente se cumple ojo un vídeo que hace 4 minutos No existía Y que ahora es nuestro que podemos utilizar en cualquier proyecto y que hemos generado en nuestro ordenador como digo Este modelo de generación de
vídeo Está muy bien y estamos empezando solo ahora a ver cómo la comunidad responde a este nuevo modelo pero ya estamos viendo aparecer los primeros loras que permiten customizar el comportamiento del modelo estamos empezando a ver cómo ya la gente lo está reentrenar por ejemplo a generar vídeos de una persona propia como he dicho antes podríamos estar viviendo el stable diffusion de los modelos de vídeo y aunque 4 minutos No es muchísimo tiempo voy a dar un par de truquillos para acelerar un poquito la forma de trabajar con el modelo yo voy a recomendar que
si si queréis Buscar prompts que funcionen y intentar optimizar un poco vuestro flujo de trabajo hacerlo un poco más ágil que bajé en un principio el número de steps pues perdiendo mucha calidad en el resultado final pues lo vamos a bajar a 10 steps y que activis funcionalidades como por ejemplo el tkche que en este caso nos permite multiplicar por dos o por tres el tiempo de generación de vídeos a Costa de la calidad vale es decir con esto estamos acelerando mucho la generación pero Estamos perdiendo mucha calidad pero claro nos permite poder iterar mucho
más rápido trabajar con los prompts y encontrar resultados que nos gusten vale podríamos darle a generar ahora de nuevo y fijaos que ahora ha tardado en generar Este vídeo pues 45 segundos no un vídeo que si lo vemos pues tiene muy mala calidad y tiene menos sentido que lo que hemos visto antes pero que nos permite entender la estructura de lo que se va a generar podríamos fijar una seed concreta una semilla aleatoria para que así Si este es el resultado que ya tras haber probado varias veces con estos tiempos más rápidos nos gusta pues
ahora sí podemos volver a subir los tiempos de inferencia podemos desactivar las funcionalidades de optimización ión volver a darle a generar y ahora sí sacar una versión con más calidad y ya os digo que en algunos casos os va a tocar trabajar mucho con el prompt y pelear os en inglés en chino Porque yo por ejemplo y a ver si alguien lo consigue no he logrado hacer que el modelo One me genere un maldito pangolín siempre me salen Pokémons muy realistas pero muy raros y menos un pangolín esto es cualquier cosa y este que hemos
visto es el modelo de texto a vídeo pero también podemos probar su versión de imagen a vídeo para eso nos venimos de nuevo al menú lateral Y activamos en este caso el image to vídeo vamos a arrancarlo y una vez lo tenemos ejecutado Pues lo mismo de antes podemos colocar aquí una imagen por ejemplo voy a colocar esta imagen de jensen con la gpu que estamos sorteando o sea va a ser esta y viene firmada por el propio jensen Juan vamos a darle vida le ponemos un prompto un poco loco le digo que es jensen
Juan bailando con una gpu que está prendida a fuego y le damos a generar recordad que ahora el modelo que se está ejecutando no es el de 1,3000 millones de de parámetros sino el de 14,000 millones de parámetros lo cual la generación va a ser incluso más lenta que antes Podemos esperar unos 10 12 minutos pero los resultados suelen merecer la pena y tras 15 20 minutos pensando el resultado que tenemos es este donde vemos A jensen que no baila y la gpu no tiene fuego pero el vídeo Está muy bien o sea podría ser
un vídeo real justamente de la imagen que hemos pasado como input viendo La bonita gpu que vosotros podéis llevaros y con esto ahora chicos saltamos a la siguiente Inteligencia artificial y para la siguiente no nos vamos a ir muy lejos sino que nos vamos a quedar dentro de pinoquio y vamos a seleccionar en el explorador de inteligencias artificiales DIF rhym que va a ser la Inteligencia artificial también nvidia only que nos va a permitir generar música en nuestros equipos le damos click le damos a descargar le damos a instalar y tras unos minutillos ya podemos
empezar a jugar y una vez está instalado vamos a tener de nuevo una aplicación de grad cómo está de aquí que ojito nos va a permitir poder subir una letra una lyric a modo de prompt y también un audio que sirva para condicionar el estilo de la música que queremos generar Vamos a ponernos los auriculares Y en este caso vemos que la letra pues tiene identificado por tiempos donde queremos que suene cada frase y la canción que estamos pasando como input sonaría algo tal que así V una canción que voy a parar ya por si
tiene copyright pero la que no tiene copyright es la que vamos a generar ahora le damos a submit y fijaos Cuánto tarda Este modelo en generar una canción de minuto minuto y medio Ya está ya la ha creado vale 5 segundos para generar una canción que suena tal que así vale Este es el tipo de resultado a nivel de generación de música suena bien la melodía está bien y hay calidad Comparado con lo que teníamos hace año año y medio obviamente no está al nivel de suo o de udio empresas privadas de generación musical Pero
bueno apunta maneras quizás sea en el momento de ponerle letra que es cuando la ía pierde sobre todo el tempo y no sabe cuadrar exactamente las frases y se empieza a distorsionar todo un poquito más pero este es un modelo que funciona bastante bien Por ejemplo si le borramos la letra y simplemente le decimos que nos genere una melodía que suene bien que sea una música de fondo que a lo mejor Yo puedo utilizar para mis vídeos fijaos que en 6 segundos ahora hemos generado una melodía que suena tal que así con lo cual ahora
de repente contáis con un generador de canciones que os Puede crear 12 melodías diferentes por minuto y que podéis estar iterando hasta encontrar aquella que mejor encaje con lo que queráis podéis Probar con diferentes letras que podéis construir fácilmente con chat gpt pues le pasáis la estructura le dice Cámbiame esta letra por otro estilo manteniendo esta estructura de Time stamp y y letra podéis Probar con diferentes audio examples con diferentes canciones que os puedan gustar pues vamos a probar por ejemplo un estilo country en inglés vamos a generar una melodía y la ella no genera
esto o por ejemplo con música clásica el modelo nos generaría lo siguiente o por ejemplo estilo jazz pues no generaría algo tal casí un poco caótico un poquito que sub baja que cambian los ritmos pero chicos eso está en vuestras manos en vuestros ordenadores para jugar para probar para iterar y sobre todo para ir testeando la Inteligencia artificial en local que estos modelos se van actualizando van mejorando van saliendo nuevas tecnologías y ahora vosotros pues ya sabéis Cómo podéis probarlo tres inteligencias artificiales Open source venidas de China ojo esto es un patrón interesante que también
tenemos que tener en cuenta tres modelos que vienen de empresas chinas y una oportunidad para vosotros de construir de testear y de jugar con herramientas que son gratuitas y que no escapan de la privacidad de vuestro ordenador únicamente necesitando pues tarjetas gráficas potentes y ya sabéis que en ese caso queréis tener la oportunidad de ganar una tarjeta gráfica entre otros premios que se están sorteando pues tenemos el sorteo del gtc la semana que viene empieza este gran evento de envidia que vamos a estar cubriendo en directo y que es una oportunidad genial para vosotros para
ver un montón de ponencias más super interesantes chicos chicas si os ha gustado el vídeo compartidlo dejo más vídeos de Inteligencia artificial por aquí a la izquierda que podáis ojear y nos vemos con más Inteligencia artificial en el próximo vídeo aquí y en el dots suv principal chao