INCREÍBLE FLUX 1.0 👉 Un Nuevo Midjourney pero... ¡OPEN SOURCE!

135.74k views3762 WordsCopy TextShare
Dot CSV Lab
Black Forest Lab es un nuevo laboratorio que viene a revolucionar el mundo de la generación de imáge...
Video Transcript:
vamos hoy con una de las noticias más importantes de ia generativa de imágenes de este año y es que de la nada de un nuevo laboratorio llamado Black Forest aparece flux 1 un nuevo modelo de imágenes que pone contra las cuerdas al reciente y fallido stable diffusion 3 y que algunos incluso están viendo como un posible reemplazo Open source de mid Journey y la pregunta es es esto cierto vamos a verlo la verdad es que hay que decir que al menos la comunidad por ahora está muy contenta con este nuevo modelo y es una muy
buena noticia que de repente esto surja de un nuevo laboratorio venido de la nada que cuando creemos que ya están consolidados Pues los actores principales de toda la revolución de la ia Pues que todavía haya capacidad para que nuevos actores aparezcan pero Vais a ver que no son Realmente tampoco nuevos actores sino que aquí hay mucha más intrahistoria que hay que tener en cuenta si nos vamos al anuncio de Black Forest laps nos vamos a encontrar Pues que el 1 de agosto se anuncia este nuevo laboratorio un laboratorio que también es una muy buena noticia
eh a remarcar viene de Alemania Este es un laboratorio además si os dais cuenta el nombre Black Forest hace referencia a la región de la selva negra pues es una empresa creada en Europa que bueno Parece ser competitiva y parece que va a poner pues contra las cuerdas alguna de las startups americanas de las que estamos acostumbrados a escuchar noticias y en este caso se conforma como digo de un conjunto de ingenieros y de investigadores que provienen de proyectos anteriores por todos conocidos en concreto Pues de toda la saga de modelos V kugan que inició
un poco la revolución de los modelos generativo de imágenes allá por 2021 ya recordaréis Aquellos tiempos y luego de mucha de la tecnología que ha conformado a modelos como stable diffusions los latent diffusions los modelos stable diffusions stable diffusion XL modelos de vídeos todo esto son tecnologías donde muchos de los investigadores que se suman ahora al Black Forest labs pues han ayudado a desarrollar y a conformar Y como decía la aparición de esta empresa es muy interesante porque viene a cubrir este espacio que se ha quedado abandonado después de bueno el año tan complicado que
ha tenido la empresa stability que como sabéis es la empresa impulsora de todos los modelos stable diffusion han abandonado investigadores han abandonado ingenieros han expulsado al seo ha sido muchas de las noticias de este año y a esto también hay que sumarle la bueno eh publicación del modelo stable diffusion 3 que de Cara a la comunidad no ha cumplido las expectativas de lo que se esperaría de una evolución como stable division 2 a stable division 3 un modelo que en lo técnico pues no daba resultados tan buenos y a nivel de licencia Pues tampoco era
tan atractivo sumamos todo esto y nos deja pues una sensación de que el panorama Open source de generación de imágenes en 2024 se estaba quedando atrás frente a competidores privados como m Journey como D 3 y otros participantes amigos Esto no es así esto ha cambiado porque ha aparecido un nuevo competidor donde parte del equipo que abandon donado stability Pues ahora está aquí que es black Forest Team está en nuestras creencias el que dar acceso amplio a modelos no solo fomenta la innovación y la colaboración sino también la transparencia lo que ponen sobre la mesa
es algo muy interesante y es un nuevo modelo llamado flux flux viene a ser el stable diffusion de 2024 y para comprobar que también funciona pues vamos a ver alguno de los resultados que nos Comparte el equipo de Black Forest y quiero que os fijéis bien en la calidad de de lo que nos ofrece fijaos vamos a traducir eh los prompts Y en este caso Esta es una imagen que responde a un portal hacia un bosque mítico en la pared de Mi pequeño y desordenado dormitorio fijaos en la calidad de la imagen fijaos en la
calidad aquí alguno dirá Oye yo con stable division XL o con stable division 3 he conseguido imágenes parecidas quiero que entendáis que esto a día de hoy es el modelo base el modelo que nos están ofreciendo de partida que está generando imágenes de este tipo tenemos que entender que los modelos Open source entre más ti están disponibles para la comunidad pues más partidos se le puede sacar porque más descubrimos cómo hacerlo funcionar mejor e más calidad se le puede sacar a través de fine tunings de reentrenamientos este es el modelo base y la calidad es
muy buena hay gente que lo está comparando como el mid Journey Open source y viendo muchos de los resultados que nos ofrecen Pues creo que si fijaos detalles muy interesantes representación cinematográfica detallada de profundidad de campo de un monitor crt viejo y polvoriento sobre un escritorio de madera en una habitación oscura con objetos alrededor una habitación sucia y desordenada en la pantalla se ven las letras flux brillando suavemente y bla bla bla bla bla todo esto nos cuenta dos historias muy interesantes la primera prompts super detallados donde hay una adherencia al prompt que es bastante
buena tú puedes hacer un prompt muy específico y parece que el modelo responde colocando muchos de los elementos y luego texto legible hay un ejemplo aquí que lo sé o sea justifica esto mucho mejor este de aquí imágenes fotorrealistas que además incluyen texto legible algo que empieza a ser una tendencia también con los módelos privados sabemos que empresas como ideogram pues ya ofrecía eh la capacidad de generar texto legible Dali 3 si os fijáis últimamente ha ido mejorando bastante también en su capacidad de renderizar texto que se pueda leer pero ahora tenemos un modelo Open
source que también nos pone esta facilidad en nuestras manos un modelo que te da una diversidad de tipo de imágenes vemos imágenes fotorrealistas como estas con diferentes estilos imágenes de anime imágenes más abstractas en dos dimensiones vemos por ejemplo eh fotorrealismo pero de imágenes con bueno con más de fantasía pues tarántulas con tomando el té eh de nuevo fotorrealismo imágenes de una diversidad que venidas todas del mismo modelo nos están poniéndola en nuestras manos pues una herramienta bastante potente en nuestras manos con cinco dedos fijaos manos con cinco dedos Oye Carlos significa que ya está
resuelto este problema no comprobaré que cuando uséis este modelo a a veces falla pero falla mucho menos que modelos anteriores imágenes de todo tipo que realmente son bastante sorprendentes viniendo de un modelo base como este es que la verdad que las imágenes son eh una auténtica pasada no híbrido de Jesús con la cabeza de de donut increíble increíble bueno Carlos entonces Este modelo Qué es Open sors lo puedo descargar lo puedo utilizar en mi ordenador vamos a verlo tenemos al modelo flux 1 Pro que sería el modelo más avanzado el modelo más potente y que
no vamos a poder descargar este es el modelo que ellos se van a quedar para ofrecerlos a través de la Api vale para poder tener un modelo de negocio viable y poder financiar Pues todos los proyectos que quieran sacar en este laboratorio Este modelo el más capaz se lo quedan para ellos luego tenemos el modelo flux 1 dev que en este caso sí va a ser un modelo openweight es decir un modelo que Vais a poder descargar y utilizar en vuestros equipos Cuál es la limitación en este caso la licencia de este modelo no va
a permitir su uso comercial es decir podéis descargarlo podéis utilizarlo pero solo como entusiastas de la ía como académicos que queráis investigar Este modelo poder Acceder al modelo es muy importante porque fomenta que toda la comunidad pueda trabajar sobre esta tecnología y mejorarla pero no Vais a poder integrarla en vuestros modelos de negocio como tal si queréis esto último Pues para eso está el tercer modelo el menos capaz el más pequeñito que es flux 1 snel que en este en este caso lo publican bajo la licencia Apache 2.0 y que es una licencia que te
permite su uso comercial no comercial totalmente permisiva esto es muy interesante porque sí me parece una fórmula sensata me parece una fórmula donde ellos se quedan la tecnología más potente para sacarle rendimiento económico le da a la comunidad investigadora acceso a un modelo intermedio que está bien y al resto de mortales al que quiera sacar eh rédito económico Pues un modelo menos capaz Pero bueno si queremos comparar qué tan capaz es el modelo Superior y qué tan menos capaz es el modelo inferior esta gráfica de aquí lo explica bastante bien que está midiendo pues la
puntuación de Elo entre diferentes modelos diferentes tecnologías donde podemos encontrar los modelos bfl que son los modelos del Black Forest lab fijaos que en este caso el modelo menos capaz tampoco tiene una diferencia muy grande del modelo más capaz y se sitúa al nivel de Dali 3 HD Eh bueno el Dali 3 HD y el mid Journey V6 el modelo Apache 2.0 el de la licencia más permisiva es un modelo competitivo contra m Journey y contra Dali 3 esto es muy importante esto es muy importante Igualmente esta gráfica no sería la idónea para entender Por
qué estos modelos son tan bien valorados porque al final fijaos que aquí estamos agregando en una única puntuación pues muchos aspectos que pueden hacer a un modelo generativo superior fijaos que a lo mejor flux es muy bueno generando texto y por eso la gente lo puntúa por delante de otros modelos Entonces nos interesa mucho más esta gráfica de aquí abajo que ellos nos comparten donde sí SEP en las diferentes dimensiones que nos pueden interesar el rendimiento de varios modelos vale fijaos que aquí estamos valorando a través del seguimiento del prompt eh variabilidad de tamaño y
aspecto tipografía diversidad del output calidad visual y aquí sí podemos ver que modelos como flux Pro el área que ocupa pues toca muy bien los diferentes eh las diferentes dimensiones no consigue una muy buena valoración en muchos de estos aspectos y si lo comparamos por ejemplo con modelos privados como m Journey la diferencia es bastante notable vale con este área que tenemos aquí la verdad que el modelo sobrepasa bastante y luego al lado tenemos la misma comparación con los modelos Open source flux 1 contra stable diffusion 3 Turbo y stable diffusion XL lighting fijaos en
la diferencia fijaos en la puntuación que recibe el modelo snell Comparado con la tecnología Open source que teníamos disponible hace 2 cu semanas en nuestras manos el cambio es muy notable y fijaos porque yo creo que esta comparación de aquí es bastante justa para comparar a stable diffusion 3 como digo no es un mal modelo pero no es tan bueno como se esperaba por ciertos aspectos eh contra flux fijaos que realmente esto sería flux y el mismo prompt con stable diffusion 3 Pues bien comparables ambos modelos igual imagen de flux imagen de stable diffusion 3
aquí a mí sí me gusta mucho más esta imagen que tenemos en este caso imagen de fotografía de producto pues tenemos una zapatilla Nike flux contra stable defusion 3 bastante bien aquí sí vemos algunos artefactos en este caso no hay etiqueta para comparar una casa de Minecraft esta está muy bien la imagen y en este caso aquí estable fion 3 sí que no logra para nada el resultado que se estaba buscando una imagen de producto de una hamburguesa pues resultados bastante comparables imagen de un perro en este caso Esta es más realista a mí estable
defusion 3 aquí me gusta más imagen de una persona en la playa Las dos imágenes son bastante comparables pero aquí Bueno de hecho fijaos el detalle de la mano Aquí vemos el en la anatomía de la mano y aquí si nos vamos para atrás bueno podría darla por buena porque son cuatro dedos y El pulgar estaría por detrás Y la otra mano nos falta sí es cierto que creo que tiene dos ombligos cosa que anatómicamente no sé si es muy correcto pero fijaos vale generación de texto pues ambos modelos también bastante bien pero de nuevo
la calidad me gusta mucho más la de flux Y aquí es donde viene aquí donde viene la masacre vale Esta es la masacre Esta es la imagen de flux generando gente tumbada en la playa El Gran problema que hemos visto que stable diffusion tiene es anatomía vale la anatomía y sobre todo la anatomía de la gente cuando escapan de una posición típica no una posición de pie no cuando le pones tumbado fijaos esto es flux esto es stable diffusion 3 de gente tumbada en la playa aquí claro aquí es cuando dices vale si veo que
en la mayoría de fotos los dos modelos son comparables pero de repente en situaciones como estas stable diffusion patina por completo Con qué modelo te quedas pues flux es el obvio ganador entonces Carlos significa esto que stability eh Y la saga stable diffusion están acabadas no sabemos que en el mundo de la ia todo es muy competitivo y al mismo tiempo que en Twitter hay un nuevo modelo sorprendiéndonos a todos pues al mismo tiempo hay otro modelo que seguramente será mucho más potente que se está entrenando en el horno ya el equipo de stability ha
anunciado que están entrenando una versión 3.1 que va a dar solución a los problemas de stable diffusion 3 y que ya está empezando a dar resultados comparables al modelo flux Pro vale es decir a medio entrenamiento pues parece que el modelo ya está a la par yo en estas comparaciones me siguen gustando más las imágenes eh la estética de las imágenes de arriba pero bueno ya harán las comparaciones pertinentes para demostrar que su tecnología es mejor lo que sí es cierto es que hay un aspecto muy importante a comentar y es la diferencia de tamaño
de modelo Y es que los modelos flux pues son modelos más pesados todavía aquí falta que la comunidad empiece a trabajar en optimizaciones para ser mucho más portables estos modelos en gran parte del Hardware que vosotros tenéis que querréis utilizar estos modelos pero a día de hoy Son modelos bastante pesados Y ahí sí es cierto que stability siempre ha apostado por la accesibilidad de su tecnología pues tiene una ventaja muy interesante pero sí es cierto que flux es el nuevo rey de la Colina dando resultados bastante bastante eh buenos Vale entonces me preguntaréis Carlos quiero
utilizarlo cómo lo utilizo Pues en la página de Black Forest nos dicen que si queremos acceder a los modelos pues tenemos diferentes opciones una de ellas como los modelos son Open weights los intermedios y el más bajo lo podéis Descargar Pues sería a través de confi ui podéis hacer la configuración en vuestros equipos Lo que sí es cierto que todavía a día de hoy pues sigue siendo un poquito complicado y como decíamos pues requiere de un Hardware más avanzado Entonces si queréis probar ya de ya los modelos mi recomendación es que probéis alguno de los
links que nos facilitan en la web de Black Forest que son proveedores de ia como replicate como hacking Face que nos permiten probar Pues con unos poquitos usos el modelo y así podemos tener un pequeño taste una pequeña degustación de cómo funciona vamos a probarlo vamos a irnos con el modelo Def el intermedio y nos vamos a ir a hacking Face claro al estar el modelo en hacking Face pues lo que sí podéis hacer es que si tenéis nociones de Cómo programar pues con este código ya podéis empezar a generar imágenes vosotros en vuestros equipos
pero en este caso nos vamos a ir a alguno de los espacios que estén habilitados clic estáis aquí space using Black Forest labs flux 1 dev clicamos en este espacio y nos vaya llevar Pues a lo que estamos buscando una casilla donde escribir un prompt y darle al botón de ejecutar vamos a empezar con el típico prompt que me gusta utilizar que es a pangolin surfing a wave vale vamos a probar este prom que es muy típico que es un pangolin surfeando una ola con un cartel que dice monta la ola de la guía vamos
a pedirle que sea a photograph of a pangol vale para que sea una fotografía le damos a ejecutar vamos a esperar un poquito la generación en haing Face pues tarda en torno a los 40 segund segundos y vemos qué [Música] sale Ok vale vale a ver es correcto es accurate porque es lo que he pedido la calidad es buena pero vamos a hacerlo Mejor vamos a decirle que el cartel está en sus manos y así probamos un poco la adherencia al prompt his hands vale un cartel en sus manos que dice wr the aiway fijaos
que el texto está bastante bien escrito lo tenemos y ahí está bueno un pangolín un poco jurásico con 20 dedos por mano pero efectivamente el cartel dice que eh Monte La ola prompt mítico un caballo montando un astronauta un prompt que eh evalúa la capacidad del modelo de Ah no lo consigue todavía vale vemos que sigue cayendo en la trampa de lo que sería la imagen típicamente vista de cuando tú generas un caballo y generas un astronauta es que el astronauta es de encima del caballo no viceversa vamos a forzar un poco vamos a pedirle
horse riding an astronaut the horse is on top of the human vale vamos a forzarlo un poquito a ver si con esta información el modelo lo consigue no lo consigue en este caso el modelo sigue pecando de los mismos errores que modelos anteriores vale vamos a probar un promt bastante complejo Que es fotografía de cuatro botellas la primera botella contiene el líquido azul y está etiquetada con la palabra dot la las siguientes botellas contienen arena cerveza y polvo de arcoiris y están etiquetadas con las letras csv es un prompt bastante complicado que pone a prueba
muchos elementos pero vamos a llevar al máximo el rendimiento de este modelo la voy a hacer más ancha que alta porque creo que las proporciones corresponden a la idea de una imagen con cuatro botellas tenemos una gpu hemos tenido suerte empieza a generarse y vamos a ver qué sale de Aquí vamos a ver qué sale Y en este caso vale bueno se han mezclado algunos elementos pero ni tan mal pero tampoco ni tan bien la primera bellaa tiene el líquido Azul Está etiquetada como dot Y luego sí se ha liado con el tema de las
etiquetas vamos a probar otro intento yo creo que puede vamos a ver bueno bueno bueno bueno bueno ostras pues tela marinera eh telita telita telita Porque no daba mucho por este promt tenemos una botella líquido azul dot eh tenemos una segunda botella está todo correcto no la siguiente botella tiene arena la siguiente tiene cerveza y la siguiente tiene polvo de arcoiris me vale muchísimo y en este caso etiquetado las letras csv increíble Wow Uf la sensación satisfactoria de control cuando estas cosas cuando esta adherencia al prompt funciona Vale ahora me he pasado al modelo pequeño
para ver qué tambi rinde al modelo snel y le he pedido un prom a chat gpt de una vale bastante bien Vamos a darle de nuevo porque aquí sí hay errores con el texto eh lo que estoy buscando es una imagen pues del típico restaurante americano con un neón que ponga dosv dinner es un promt bastante denso fijaos que el modelo pequeño sí le está costando un poquito más sacar resultados mejores vamos a subirle el número de steps Vamos a darle de nuevo es decir las imágenes ciertamente sí visualmente son muy interesantes Pero al menos
el texto legible no lo estamos consiguiendo pero Cómo ocurre Pues con los modelos de difusión es cuestión de probar prob probar Y en este caso pues sí tendríamos un resultado que está bastante bien quería algo más épico todavía esto es como un restaurante pequeño de carretera le voy a dar de nuevo otro Uf Uf este está este está muy bien fijaos que el modelo pequeño también es lo suficientemente competente como para generar imágenes tan espectaculares como esta y lo más loco es que ahora esta imagen la podemos Descargar y nos la podríamos llevar a una
herramienta como runway que ahora te admite el meter imágenes como promt con lo cual podríamos Pues en cuestión de segundos una imagen tan épica como esta y darle vida para conseguir algo como [Música] esto y justo quería acabar hablando de la generación de vídeo porque sabéis que 2024 está siendo el año del vídeo y en ese sentido Black Forest labs nos amenaza de que no se van a quedar fuera de la competición y nos anuncian aquí en What's next los siguientes pasos que van a tener la empresa que lo que están buscando es pues esto
de aquí no un State of the Art text to video para todo el mundo un modelo de generación de vídeo que sea competitivo con los modelos actuales pero que puedan ser disponible para su uso Open source en ese sentido Esta es la gran noticia que tenemos que celebrar hoy la aparición de un nuevo laboratorio de un nuevo líder de un nuevo competidor en la Esfera de los modelos de generación open s damos la bienvenida a Black Forest celebramos la llegada de los modelos flux los tenéis disponibles para jugar para disfrutar y esta era la noticia
que quería cubrir hoy aquí en el dot csv lap si queréis echarle un vistazo por aquí tenéis el vídeo que publiqué hace dos TR días sobre el nuevo modelo de Google Vais a tener mucha actualidad aquí en este canal chicos chicas nos vemos con un próximo vídeo aquí en dosv lap Claro que es que es el otro canal y
Copyright © 2024. Made with ♥ in London by YTScribe.com