I NUOVI MODELLI CONCETTUALI CHE CAMBIANO TUTTO.

4.88k views7426 WordsCopy TextShare

MentiEmergenti

Accedi a Writener: https://writener.com (da oggi con Claude 3.5, GPT 4o, Gemini, ElevenLabs etc.) E'...

Video Transcript:

ragazzi Sapete che io di solito sono piuttosto prudente Non vengo qui a dire Wow è uscita questa nuova applicazione Questa nuova cosa questo cambierà il mondo questo cambierà tutto Eppure ci sono delle volte in cui esce davvero qualcosa di interessante e magari mi trovo anche io qua a dire Wow è uscito qualcosa che sta cambiando tutto che potrebbe davvero cambiare tutto qualcosa della quale non sto sentendo molto parlare in giro però secondo me alcune volte conviene fermarsi venire qua e fare due chiacchiere insieme su qualcosa che magari ce l'ha quella potenzialità di cambiare tutto se ci riflettiamo Infatti sappiamo che tutto quello che è intelligenza artificiale ad oggi è un llm cioè un large language Model un modello linguistico di grandi dimensioni che poi origina l'intelligenza artificiale generativa Mh qual è il problema però che gli llm Non dico che hanno i giorni contati ma sicuramente cominciano a presentare dei limiti cominciano a presentare dei problemi non si sa più come scalare Open ai recentemente ha introdotto i modelli della famiglia o o One o3 no E quindi hanno introdotto l'idea del ragionamento e va bene però in ogni caso non stanno risolvendo due problemi che sono i problemi principali degli llm numero uno il fatto che gli llm hanno bisogno di dati hanno bisogno di una gran quantità di dati e non sappiamo più dove andarli a prendere addirittura si stanno sviluppando dei modelli che producono dati sintetici da dare Poi impasto ai nuovi modelli di intelligenza artificiale perché sostanzialmente tutto quello che l'uomo ha scritto e che era possibile digitalizzare è stato digitalizzato e già dato impasto agli llm che stiamo utilizzando in questo momento Quindi non si sa più come scalare perché fino ad oggi si è scalato così cioè dando più dati ora i dati sono praticamente finiti e quindi già questo è un grosso problema degli llm Un altro grosso problema degli llm è il fatto che sono energivori sono enormemente energivori consumano una gran quantità di energia addirittura sapete che si sta pensando di costruire delle centrali nucleari accanto ai grossi Data Center dove poi vengono elaborate le intelligenze artificiali che stiamo utilizzando è un problema è un problema proprio di capacità computazionale quindi si sta facendo un enorme sforzo anche per produrre il quello che sta facendo Nvidia che stanno producendo nuovi chip continuamente No perché sta dobbiamo abbiamo la necessità di fare una quantità gigantesca di calcoli per continuare ad utilizzare l'intelligenza artificiale ma soprattutto per continuare a scalarla Quindi come superiamo questo limite il limite dei dati e il limite dell'energia c'è la necessità di introdurre delle nuove architetture io questo lo dico da tempo peraltro chi mi segue non è la prima volta che lo dico c'è bisogno che ci si inventino delle nuove delle nuove architetture dei nuovi modi di approccio al problema e a quanto pare la meta Scusa non Lama meta ha introdotto una nuova architettura che è molto promettente che secondo me vale davvero la pena di vedere insieme questa nuova architettura quindi transita dal concetto di large language Model Quindi da un modello linguistico di grandi dimensioni a Questo qui cioè a un large Concept Model cioè un modello concettuale di grandi dimensioni m quindi adesso io per farvi capire come funziona questa roba vorrei approfittare anche per fare un ripassino un po' di Come funzionano gli llm Io credo che questo sia molto utile perché nel 2025 è comunque utile cominciare a capire davvero Come funzionano questi oggetti questi modelli di intelligenza artificiale che li stiamo utilizzando E se non è necessario magari conoscerne la matematica che potrebbe essere molto complessa è però necessario comprenderne i concetti proviamo a ragionare un attimo insieme su Qual è stata la necessità iniziale Che cos'è che dovevamo fare noi volevamo comunicare con un computer utilizzando il linguaggio naturale cioè Nel nostro caso l'italiano o l'inglese o quello che volete no utilizzando un linguaggio naturale linguaggio naturale però è composto da parole e queste parole non non non sono diciamo degli elementi semanticamente significativi di per sé cioè la parola cane non trasporta con sé il significato del cane il significato del cane di fatto glielo attribuiamo noi come esseri umani perché c'è qualcosa dentro il nostro cervello che lega un suono o un simbolo scritto c a n e eh ha un concetto che è al di là di quello che c'è scritto per cui Come facciamo a comunicare a un computer quel significato che c'è dietro una parola non lo facciamo semplicemente non si può fare allora vi porto un attimo eh vi porto un attimo qui dentro Allora questo ok Questo è il paper che vediamo tra un attimo va bene prima di capire come funziona un large Concept Model Io vorrei ripassare insieme come funziona un llm allora qual era la necessità che avevamo proviamo a pensare No allora ci serve un modo di rappresentare tutte le parole su uno spazio su un un modo di rappresentarlo per cui immaginiamo di cominciare con la cosa più semplice No noi facciamo un un asse cartesiano dove abbiamo le x e le Y e immaginiamo che non lo so La parola cane sta qui è del tutto arbitrario è del tutto arbitrario va bene la la piazziamo in un punto se io piazzo la parola cane qui è possibile che la parola gatto debba stare vicino a cane m questo lo sappiamo noi come esseri umani e Supponiamo che lo lo mettiamo qui il gatto Ok mettiamo il cane e mettiamo il gatto va bene se poi dobbiamo mettere da qualche parte la parola automobile m magari l'andiamo a piazzare molto lontano l'automobile Ok la mettiamo quaggiù bene e così via adesso fermiamoci un attimo su queste su queste tre cose naturalmente se noi vogliamo individuare No La parola cane su questo grafico e dal momento che questo è un semplicissimo grafico in due dimensioni Queste sono due dimensioni cosa che cosa ci serve di fare ci serve di trovare le coordinate della parola e Ops si è spostato tutto della parola cane bene Quindi qua avremo un valore di X e un valore di Y che identificano Dove si trova cane sul nostro spazio la stessa cosa per gatto ok Quindi avremo le coordinate di di di gatto che sono X con 1 e Y con 1 Vabbè ragazzi sono cose molto semplici Adesso veramente ve la ve la sto mettendo semplice non non vi spaventate ci fermiamo qua eh non è che vi voglio far cose troppo complicate voglio soltanto far capire no che noi dobbiamo individuare Dove si trovano i concetti perché questo dopo ci è utile per ottenere degli output Cioè per comunicare a lui che cosa stiamo dicendo a alla macchina che cosa stiamo dicendo E per fare in modo che la macchina possa darci una risposta che sia significativa la stessa cosa dovremmo fare per auto Ok avremo delle coordinate x con 2 e Y con 2 va bene che probabilmente saranno dei numeri molto distanti dalle coordinate che avevamo per cane e per gatto Mh fermiamoci qua non vi voglio rimbambire che intendo per distanti intendo che qua possiamo trovare due criteri per esempio la vicinanza di due concetti e quindi la lontananza e la somiglianza che c'è tra le coordinate perché x e X con 1 lo vedete stanno vicine quindi Supponiamo che ne so che il cane abbia eh per X il valore 5 e il gatto abbia per X il valore 6 mh mentre l'automobile stava qua quaggiù avrà per valore Non lo so 100 va bene molto distante No per cui noi riusciamo già eh a spiegare al computer che ci sono parole che hanno coordinate non lo so eh Y con 2 che è 105 e X con 2 che è 100 no questa parola anche se lei non sa la parola automobile non conosce la parola automobile il computer però vede che che questa è una parola che ha coordinate 105 e 100 Questa è una parola che ha coordinate non lo so eh 4 e 5 e poi eh 5 e 6 va bene per cui capisce che se io ho un un punto in questo spazio che ha coordinate 4 e 5 un altro punto che ha coordinate 5 e 6 probabilmente queste questi queste due concetti rappresentati da questi due punti sono più simili rispetto a un concetto che ha per coordinate 100 e 105 va bene quindi riusciamo a capire a posizionarli su uno spazio bidimensionale ma sono sufficienti due dimensioni per identificare tutto il vocabolario e per diciamo suddividere tutto il mondo semantico Eh su un piano bidimensionale No non sono sufficienti Allora Supponiamo che noi passiamo da una rappresentazione bidimensionale qui avevo fatto degli scarabocchi immaginiamo di passare da una rappresentazione bidimensionale a una però tridimensionale Ok per cui il nostro punto eh P che il nostro punto qua poteva essere la parola cane Ok adesso per trovare la parola cane non ci serviranno più solo due coordinate Ma tre va bene è facile da capire dai semplicemente che siamo passati da una rappresentazione a due dimensioni a una a tre dimensioni per cui per identificare un punto prima lo lo identificavo su un piano adesso lo identifichiamo in uno spazio tridimensionale per cui non ci serviranno più due coordinate cioè X e Y ma ce ne serviranno tre X Y e z per identificare questo punto ci siamo una cosa banale adesso perché vi sto facendo questo discorso perché non ci bastano neanche tre coordinate per identificare un concetto per identificare un concetto ce ne servono migliaia di coordinate va bene quindi non è più rappresentabile non è rappresentabile Noi viviamo in un mondo tridimensionale quadridimensionale in realtà perché c'è anche il tempo però non ci interessa le tre coordinate spaziali per noi sono tre non ne possiamo visualizzare più di tre cerchiamo di immaginare una cosa in cui gli assi non sono più du non sono più tre ma aggiungere un quarto asse qui non ha più alcun senso però ce l'ha matematicamente quindi magari un quarto asse un quinto asse un sesto asse un settimo asse 8 9 10 per arrivare fino a 1000 ok anche di più di 1000 noi dobbiamo individuare un punto che sta qua per individuare un punto che sta qua noi a noi ci servirà di trovare tutte queste coordinate quindi la coordinata In che modo questo punto si proietta su questo asse poi su questo asse poi su questo asse poi su questo asse Va bene quando abbiamo trovato tutte queste coordinate abbiamo finalmente individuato il nostro il nostro punto su un asse multidimensionale non ve spaventate non non vi spaventate non perdete la concentrazione va bene C'è una ragione per cui vi sto spiegando questa cosa perché non c'è altro modo per individuare un con una cosa complessa che si chiama concetto idea va bene cioè la parola cane ripeto In italiano si dice cane in inglese si dice Dog per cui non c'è nessuna corrispondenza tra le lettere tra la parola che tu scrivi neanche nella parola che scrivono in cinese o in spagnolo non c'è nessuna corrispondenza tra quella parola e il significato che c'è dietro Allora noi per cercare di ingabbiare quel significato lo associamo a tutta una serie di numeri questi numeri sono delle coordinate queste coordinate ci servono quando noi diamo un input complesso a eh a una macchina l'input complesso è quello che noi scriviamo Ciao come stai Per noi è una cosa banale però la macchina deve capire la parola ciao deve capire il come stai deve capire che come stai È una domanda Che significa come stai E non c'è un altro modo di spiegarglielo per cui la parola come la parola stai saranno individuate da migliaia di numeri ciascuna questi numeri il computer li vede come se fossero delle coordinate all'interno di un di uno spazio a migliaia di dimensioni che gli identifica una un concetto univoco che è il come che poi quando è associato ad un altro concetto univoco che è stai Lui legge come stai E a quel punto entra in gioco tutta una distribuzione di probabilità che lui apprende da quello che noi scriviamo dai i dati che gli diamo Durante la fase di addestramento lui apprende che quando incontra quelle due sequenze di numeri che corrispondono a questi due concetti all'interno di una rappresentazione multidimensionale spaziale lui probabilmente dovrà rispondere con altre due sequenze di numeri che sono bene grazie Ok quindi la macchina non afferra mai realmente che cosa significa come stai E non afferra mai realmente Cosa significa Ben Grazie però Impara che quando riceve quella serie di numeri che rappresentano il come stai deve probabilmente rispondere con un'altra serie di numeri che rappresentano il bene grazie ci siamo non so se mi avete seguito però io ho detto cose comprensibili per cui se mi siete stati dietro in questi 10 minuti di video avrete probabilmente capito che cosa sono gli embeddings che è una roba che forse avete sentito nominare e che riguarda il funzionamento di un llm è fondamentale capire questo perché questo ci porta a capire come funziona l' llm Allora quando noi diamo un input a a un llm quindi a chat GPT a Cloud a Lama A chi vi pare a voi La prima cosa che fa è interviene un tokenizer cioè un quello che noi gli abbiamo detto in token i token sono le parole Adesso vi spiego bene oppure parti di parole perché perché se noi prendiamo cane Ok cane è in italiano una parola unica e quindi è anche un token Ma se io prendo però non lo so la parola mettiamoci un attimo uno spazio vuoto se io prendo la parola andare la parola andare contiene un suffisso un prefisso Scusate e un suffisso quindi probabilmente and sarà un token e are sarà un altro token Perché Eh perché dopo Hand potrebbe anche esserci Andai o andasti va bene quindi la parola andare è composta da due token dove uno è Hand è il prefisso e l'altro è il suffisso Mh va bene questo Insomma è importante da capire ma non è fondamentale Però è per dirvi che il token a volte può essere una parola come nel caso di cane quando invece le parole sono composte come i verbi potresti avere una parola o potresti avere parti di una parola con un token quindi ottieni un token e poi trasformi il token in vettori attraverso l'embed e questo è esattamente quello di cui abbiamo parlato Vallo a ritrovare qua insomma va bene dove ci serve di posizionare quel token in uno spazio di rappresentazione bene questo spazio di rappresentazione Nel caso degli embeddings per l'intelligenza artificiale non ha tre dimensioni Sarebbe troppo facile ce ne ha migliaia può averne fino a 4. 096 al momento Ok Che cosa significa che un determinato token è semplicemente rappresentato da una sequenza di numeri che possiamo interpretare come delle coordinate su uno spazio a n dimensioni a centinaia o a migliaia di dimensioni che era questa schifezza che avevamo disegnato qua Va bene immaginate sto spazio che c'ha centinaia di di assi quindi di dimensioni e per individuare un punto noi dobbiamo trovare le sue coordinate su ciascuno di questi assi bene tutto qua Questo è l' embeddings quando tu hai fatto una cosa del genere e hai diciamo diviso tutto il dicibile in questo modo cioè tutto il vocabolario Ok per e non solo tutto vocabolario ma tutte le combinazioni tra le parole Mh hai di fatto trasformato le parole in vettori numerici che è quello che fa l'embed Io lo so che voi avete sentito parlare dell' embedding tante volte no però secondo me non tutti sapevate bene che cos'era l'embed Ok l'embed quindi che poi è l'encoding cioè il modo in cui si codifica è il modo in cui si codifica il linguaggio naturale va bene Lo codifichiamo in numeri mh quindi dopo il tokenizzazione in uno spazio multidimensionale Quindi troviamo delle coordinate che corrisponderanno a quelle parole o a quei token una volta che abbiamo fatto questo entrano in gioco i Transformer i Transformer sono probabilmente quello che ha permesso all'intelligenza artificiale di fare le magie che sta facendo in questo momento cioè i Transformer sono stati introdotti nel 2017 con un articolo che ha fatto la storia che è si chiama Attention isol un need e fanno proprio questo Cioè riescono a compiere delle operazioni su queste sequenze numeriche cioè su questi vettori va bene sulle parole che sono state trasformate in punti all'interno di uno spazio multidimensionale m e questi Transformer fanno pure questa magia che vi dicevo cioè dirigono l'attenzione della macchina verso questi questi vettori individuando più importanti che quando tu hai un input composto da un sacco di parole ci sono delle parole che non servono molto che ne so gli articoli no cioè non è oppure il maschile tutta una serie di cose che riguardano il linguaggio che sono non sono rilevanti ai fini del significato il Transformer Seleziona quali di tutti questi token e quindi Quali di questi vettori trasformati già in vettori sono importanti per capire il significato di quello che l'utente voleva dire e dopo lo fanno pure quando si calcola l'output quindi si individuano quei vettori importanti che sono quelli che esprimono il il significato della risposta che ci dà l'intelligenza artificiale e poi tutta una serie di token che invece sono quelli formali no che vanno a costruire la parola che sia corretta anche nella grammatica ci siamo come funziona tutta sta roba questo avviene nei Transformer Questa seconda parte cioè l'elaborazione che avviene sui vettori Dopodiché c'è un decoder cioè Un output layer che fa predice Eh il token successivo che noi sappiamo che tutti gli llm Che cos'è che fanno predicono il prossimo token quindi prevedono la prossima parola questa cosa L'avete sentita dire però la prevedono sulla base di cosa di tutto questo che ho cercato di spiegarvi in questo tempo spero sia stato utile peraltro questa cosa tra questo alternarsi tra Transformer e decoder output layer è un ciclo vedete che qui io ho messo anche un'altra freccetta che torna indietro poi la freccetta che va in giù e poi la freccetta che torna indietro questo qua è un ciclo cioè non si fa in una volta sola si fa in in un ciclo che elabora tutti questi vettori tutti i token tutte le parole sono state trasformate in token tutti i token diventano vettori e poi i vettori vanno elaborati uno a uno e ogni volta si prevede il prossimo token Ok quindi elaboro sto vettore e gli do e prevedo il prossimo token poi lo rifaccio poi lo ripr vedo poi lo rifaccio poi lo ripr vedo fino a che non ottengo Un output da chat GPT ok o da Cloud o da chi volete voi Questo è come funziona un llm va bene un llm ora questi signor Questo è come funziona tutto fino fino a qua Va bene Eh ve lo ve lo dico Ve l'ho raccontato intanto Secondo me a beneficio di tutti quelli che non avevano chiarissimo questa cosa ma perché perché adesso questi questo meccanismo lo trasformano lo cambiano Per la prima volta da 2 anni a questa parte si cerca di cambiare questa architettura in una maniera che secondo me è estremamente intelligente Andiamocene fa eh loro dicono Ok abbiamo costruito quindi un large Concept model in questo studio nei verifichiamo diciamo la fattibilità e assumiamo che un concetto corrisponde a una frase che adesso abbiamo parlato di parole io ho spiegato l'embed quello che fa con le singole parole cioè trasforma la singola parola Addirittura in più token e poi ragiona sulle parole sui token Mh E loro dicono invece no ragioniamo sui concetti quindi sulle frasi Mh e utilizzano un Eh allora existing sentence embedding Space quindi utilizzano uno spazio di rappresentazione semantica esistente già che si chiama sonar attenzione perché sonar esisteva già ed era uno strumento tecnologico un componente tecnologico che veniva utilizzato unell viene tuttora utilizzato l'intelligenza artificiale solo in alcuni casi per esempio nelle traduzioni perché fa questa cosa che converte le frasi anziché i token e questa cosa e questi ricercatori di Meta attenzione stiamo parlando di Meta Eh non so se ve l'ho detto prima non mi ricordo e una roba che ha fatto meta Ok che è geniale secondo me è molto molto interessante quindi utilizzano sonar che è uno strumento tecnologico che già esiste e per fare quanto segue Mh allora loro son partiti con un modello piccolo con 1 trilione V3 di token e poi l'hanno scalato a un modello da set da set miliardi di parametri ma non è importante adesso loro rifanno un po' lo stesso discorso che vi ho fatto io apposta Ve l'ho fatto prima cioè questa storia degli llm son tutti Eh son tutti basati sulla stessa architettura sottostante che è appunto cioè quella degli llm che vi ho appena fatto vedere no Quindi Lama Mistral Bloom Falcon Gemini GPT Cloud tutti llm tutti funzionano nello stesso identico modo come vi ho fatto vedere dopo eh Le differenze sono di ottimizzazione di grandezza dei parametri e varie ottimizzazioni che ciascuna casa no poi gli fa eh proponendo il proprio prodotto Ma la La struttura è questa che vi ho spiegato e quindi la la chiamano quindi una un modello di linguaggio basato su decoder e Transformer che è quello che vi ho fatto vedere m quindi malgrado gli innegabili successi degli llm Dei continui progressi però a tutti questi llm loro dicono manca una caratteristica cruciale dell'intelligenza umana cioè il ragionamento esplicito e la pianificazione a multipli livelli di astrazione ed è vero è indubbiamente vero E questo ve lo dico perché è la mia area di competenza la psicologia cognitiva Come funziona il cervello non funziona come come un llm tecnicamente funziona come ci stanno per far vedere loro anche se poi naturalmente ci saranno altri step che che andranno fatti però la cosa che ci presentano loro va nella direzione giusta cioè nella direzione di come funziona il cervello umano andiamolo a vedere allora loro qua fanno in questo paragrafo questo qui fanno un fanno un paio di esempi ti dicono immaginiamo un ricercatore che deve fare un Talk di 15 minuti immaginiamo so un conferenziere no Che deve fare quindi un Talk della durata di 15 minuti se lo soprattutto se lo deve fare in due lingue diverse per esempio immaginiamo che uno c'ha una conferenza in Italia quindi la fa in italiano poi va a fare la Stess la stessa quindi va a fare lo stesso Talk anche poi non so in America in una università americana e quindi lo fa in inglese nella sua testa Il ricercatore ha un una mappa mentale delle cose che vuole dire questa mappa mentale è indipendente dal linguaggio con il quale lo la esprimerà sono concetti sono idee sono idee astratte che sono indipendenti dalla dalla modalità con la quale poi verrà Espresso questo è questa è una una discussione che va avanti da secoli da No da secoli No ma da decenni nella psicologia cognitiva riguardo alla modalità del pensiero Allora c'è Chi sostiene che il pensiero è verbale e non lo è c'è Chi sostiene che il pensiero è procede per immagini e non è così nemmeno probabilmente è un'integrazione delle due probabilmente secondo me il pensiero è multisensoriale e astratto Cioè a seconda della cosa che devo pensare delle volte posso pensare con un pensiero verbale a volte posso pensare per immagini a volte posso integrare questo queste due tipologie di pensiero ma volte posso anche pensare Io per esempio chi di chi di voi fa il musicista Suona anche a volte pensi anche con i suoni a volte puoi pensare per concetti astratti che non che non li hai ancora parlati non li hai ancora verbalizzati sei Stai semplicemente pensando per concetti astratti ed è così che funziona il cervello umano e loro questa cosa la fanno notare ti dicono quando tu devi vuoi esprimere qualcosa per esempio una conferenza tu ti fai una mappa mentale di quello che vuoi dire e poi la vaii a dire Ma se lo fai se se dici la stessa cosa 10 volte la dici Probabilmente con parole diverse No non le dici mai le stesse identiche parole perché quello che tu hai nella testa non sono le parole sono i concetti e loro dicono la stessa cosa vale pure ve lo ve lo rimetto così intanto magari lo leggete pure anche la stessa cosa vale Cioè se io devo studiare un testo no su questo testo Io leggerò migliaia e migliaia di parole però quello che mi rimane dopo non sono mica le parole sono i concetti io mi studio un libro da 100. 000 parole quindi non so metti 400 pagine o qualcosa del genere e poi dopo non è che se tu mi chiedi che cosa c'era scritto a pagina 226 Io me lo ricordo Non me lo posso ricordare quello che c'è le parole che stanno scritte no a una certa pagina Io mi ricordo i concetti che sono espressi in quel libro magari in quel capitolo individuo che capitolo poteva essere e ti dico va più o meno ci parlerà di questo se l'ho studiato No ma non è che mi posso ricordare le parole perché non è attraverso le parole che pensiamo va bene quindi loro dicono questo eh non è che lo sto dicendo io secondo me c'hanno ragione quindi dicono in questo in questo lavoro presentiamo un nuovo approccio che si allontana dall'idea deii token quindi del del ragionamento sui token e invece va verso la direzione di un ragionamento gerarchico eh in all'interno di uno spazio di rappresentazione astratto che è molto interessante ehm e questo spazio di ehm rappresentazione astratto è disegnato È progettato per essere indipendente dal linguaggio e anche dalla modalità anche dalla modalità Questo significa che non solo questo sistema trova estremamente facile tradurre tra una lingua e l'altra Perché non Ha ragionato su sulle parole Ha ragionato sui concetti quindi questo modello che adesso vi spiego ragiona sui concetti dopo se tu gli chiedi di dirti quello che ha pensato in italiano te lo dice in italiano se tu gli chiedi di dirtelo in cinese te lo dice in cinese perché è completamente indipendente dal linguaggio perché è un ragionamento astratto e un'altra cosa pure che trova facile fare è la modalità quindi trasformarlo per esempio trasformare un concetto che lui Ha ragionato ha pensato Sulla base del tuo input ovviamente trasformarlo anche in un parlato Ovvero tu puoi dargli In input del parlato Ok speech to text e lui facilmente te lo trasforma in testo perché non gli interessa la modalità con la quale tu gli dai l'input lui gli interessa che una volta che tu gli hai dato l'input Adesso vediamo lo trasforma in concetti e non in token questa cosa è geniale andiamola a vedere allora loro qua ce la fanno vedere con questo schemino non so quanto possa essere chiaro eh sostanzialmente lui prende le prende l'input che tu gli dai e lo trasforma in concetti Allora vediamo dove ve lo faccio vedere invece che qua torniamo qui perché comunque mi ero preso degli appunti che secondo me sono più chiari in questo caso Ok vediamo quindi come funziona un LCM large Concept Model Va bene allora in questo caso noi gli diamo un input e la prima cosa che interviene in questo caso è un Sat cioè un segment any text vi ricordate prima era il tokenizzare Mh la prima cosa che gli serviva di fare era dividere l'input in token in questo caso la cosa che gli serve di fare è dividere l'input in frasi perché lui ragionerà sulle frasi Infatti i ricercatori dicono abbiamo assunto l'idea cioè diciamo il la premessa è che secondo loro un concetto un Concept può essere individuato da una frase probabilmente su questa cosa ci devono ancora lavorare e lo dicono anche loro nelle conclusioni che non è sempre detto che ha una frase corrisponde a un concetto a volte servono più frasi per esprimere un concetto stiamo facendo i primi passi in questa direzione per adesso loro utilizzano il segment any text e dividono l'input in frasi Io spero proprio che questo approccio abbia un futuro e che trovino un sistema per dividere i concetti secondo me in maniera più efficiente però che cosa fanno una volta che loro l'hanno diviso in frasi anche qui abbiamo un encoder e un decoder Vi ricordo ce l'avevamo pure prima eh Dove l'embed lo possiamo vedere come un encoder cioè quello che codifica le parole in vettori e poi Un output layer o decoder che invece diciamo ritrasforma i vettori in parole di fatto producendo il prossimo token Mh Qui abbiamo un encoder e un decoder posizionati più o meno nello stesso punto però sonar che interviene sia nell' encoding che nel decoding Vi ricordo che sonar Gi esisteva quello che loro hanno inventato qui è l' LCM che sta al centro che va a esplorare quello che fa sonar perché prima gli eh prima suddividiamo l'input in frasi Ok una volta che abbiamo suddiviso l'input in frasi Trasformiamo le frasi in vettori con sonar capite Quindi tutta questa roba che avevamo detto qua Ok tutta questa roba che avevamo detto qua sul cane sul gatto e sull'automobile non vale più per la parola cane e la parola gatto ma questi saranno due concetti Quindi questa roba qui rappresenterà un insieme di frasi e poi un altro insieme di frasi Ok quindi dei concetti e noi così facendo l' LCM non gli interessa quali parole hai utilizzato gli interessa capire che cosa volevi dire all' LCM va bene e quindi riesce a posizionare all'interno di uno spazio di rappresentazione semantica in questo caso noi lo vediamo a due dimensioni nella realtà a migliaia di dimensioni però per capirlo in due dimensioni è abbastanza chiaro lo possiamo vedere così potrà ragionare non sulle parole Ma sui concetti capendo che questi due concetti quali che siano sono due concetti simili tra loro rispetto a un terzo concetto che invece è posizionato in un altro punto dello dello spazio di rappresentazione semantica Probabilmente questo gli fa anche capire che questo insieme di concetti che si trovano da questa parte dello spazio saranno magari appartenenti ad un dominio semantico diverso da tutto quell'insieme di concetti che invece magari si trovano da questa parte dello spazio di rappresentazione semantica e che magari stanno dentro quest'area per cui Quest affare va a fare delle astrazioni di un certo livello rispetto a quelle che fa l' llm loro stessi dicono che l' llm le fa le astrazioni e non sappiamo come le fa Ok il modo in cui l' llm riesce a fare delle astrazioni fa parte di delle cosiddette proprietà emergenti cioè sono proprietà del dell'intelligenza artificiale attuali che emergono senza che nessuno le abbia programmate non c'è in nessuna fase del funzionamento di un llm l'astrazione Mh però la fa la fa da qualche parte la fa succede emerge emerge questa proprietà che vengono fatte assolutamente della Stazione sapete insomma conversato no con chat GPT o con Cloud particolare vi siete accorti di di di come ragiona bene però non sappiamo come lo fa E comunque lo fa in maniera limitata rispetto a come lo potrebbe fare una macchina che invece di ragionare sul singolo token ragiona su interi concetti quindi Quest affare qua che cosa fa Trasforma le frasi in vettori non i token non i token i laddove un un token non è neanche una parola a volte servono più token per individuare una parola questo non gli importa niente prende un'intera frase La trasforma in un vettore e a quel punto l' LCM ed è questa L'invenzione è fa un po' il lavoro che facevano i trasformer vi ricordate i Transformer nell' llm i Transformer stanno in mezzo tra il l'encoder e il decoder Mh perché sono i Transformer che lavorano nello spazio di rappresentazione semantica degli llm invece nel nell' LCM a lavorare sui vettori all'interno di questo spazio di rappresentazione semantica è un large Concept Model che va e prende questi vettori li rappresent quindi li trova rappresentati su uno spazio di rappresentazione semantica creato da sonar dall' encoder di sonar ragiona su quei vettori e quello che lui produce quindi è la produzione è la previsione di della del prossimo concetto e non la previsione della della prossima parola va bene il modo in cui dopo quel concetto verrà espresso Dipenderà dal decoder dal decoder che poi trasformerà questi vettori in testo e darà Un output ma è meno rilevante quello che è più rilevante è che la macchina ragioni sui concetti perché noi esseri umani quando gli diamo un input a volte abbiamo un'intenzione abbiamo un ragion Cè senza a volte sempre abbiamo un cervello che avrà ragionato su delle su dei concetti e non è tanto importante in che maniera Glielo scriviamo C sono persone che scrivono diversamente da altre no quello che è important è che lui capisca quello che c'è sotto il sottostante il il concetto che c'è dietro e che l' LCM che è il cuore del di questa intelligenza artificiale ragioni sui concetti Dopodiché i concetti vengono trasformati in testo e quindi viene fornito Un output output che è indipendente dalla lingua dal proprio dall'italiano dall'inglese dal francese dal cinese indipendente dalla lingua dell'input e anche indipendente dalla modalità del dell'input io l'input glielo potrei dare in parlando in italiano e lui l'output me lo può serenamente dare scritto in cinese perché questo è soltanto una parte di conversione conversione di che cosa però è la cosa più importante che è il ragionamento ci siamo È questa la la la novità straordinaria di questo modello se ci pensate ragazzi è è questo Cioè c'è poco altro da dire Quali sono le differenze l' llm è sequenziale e ragiona token per token ve l'ho detto l'embed è parte integrale del modello e predice ogni singolo token Queste sono le caratteristiche dell' llm No è parte integrale del modello perché questo è un unico modello m ok Quindi l'embed fa parte dell' llm Invece questo LCM Ragiona con due sistemi distinti cioè sonar in questo caso sonar e LCM Guardate che poi in futuro potrebbero anche cambiarlo sonar non è detto che sia lo strumento migliore e soprattutto era stato inventato per un'altra ragione per cui magari nel prossimo step ne creeranno uno apposito di encoder che funzioni meglio per permettere a LCM poi di trovarsi dei vettori più rappresentativi m che funzionano anche meglio E quindi perché dico questo perché invece l' LCM appunto opera su intere frasi e non sui token l'embed è un sistema separato Come dicevamo e questo permette lo sviluppo delle del del dei delle dei due ingranaggi del sistema in maniera separata E questo è un vantaggio e poi predice rappresentazioni semantiche complete anziché predire il singolo token per dirla alla buona è un po' Come scrivere una frase lettera per lettera o parola per parola contro pensare prima laa frase completa e poi scriverla che è quello che facciamo noi esseri umani noi esseri umani prima pensiamo e poi esprimiamo la scriviamo o la parliamo la diciamo una un certo un certo concetto No invece l' llm non pensa prima per questo hanno cercato No con la famiglia o One di dargli un ragionamento per fare in modo che quello che esce fuori alla fine sia stato pensato però Voi capite che il pensiero di ow One È comunque un pensiero verbale Comunque è un token per token quindi è comunque una sequenza di parole che la macchina non sa minimamente che cosa sta dicendo Per quanto poi sia sia straordinario eh Per carità non è questo non è per diminuire l' llm per ridurre l' llm ma è per dire quanto è bello Quant'è intelligente Quant'è geniale invece l' LCM che fa un passo avanti e riesce a ragionare sui sui concetti anziché anziché sui token chi lo sa Magari non ha non hanno ragione né l'uno né l'altro magari in futuro vedremo una integrazione di entrambi i sistemi in maniera tale che ci sarà un encoder che intanto ci trasforma i concetti e poi dopo io secondo me io Poi magari sbaglio non lo so però secondo me prima com comunque capisci che voleva dire il l'utente Dopodiché puoi ragionare sui concetti e anche mettere un llm magari non so insomma un'integrazione tra le due cose in un futuro per adesso io trovo che questa sia un invenzione assolutamente assolutamente assolutamente geniale veramente Wow questo è veramente un Wow E vabbè volevo dire un po' di altre cose Vediamo un po' i risultati che sono stati ottenuti e poi chiudiamo questo video lunghissimo Allora che cosa hanno ottenuto un ragionamento a un livello molto astratto che è indipendente dalla modalità e dal linguaggio ve l'ho detto questo Questa è proprio la premessa Però ovviamente poi questo è stato ottenuto Quindi funziona funziona proprio così è stato ottenuto proprio questo Poi una struttura gerarchica esplicita quindi migliore leggibilità e anche Long Form output m Infatti questo poi te lo dice qua anche cioè la gestione di contesti molto lunghi sia In input che in output Voi sapete che gli llm hanno dei limiti Vabbè probabilmente ce l'avrà pure l' LCM dei limiti però è un limite molto più vasto quello dell' LCM perché io ho fatto una premessa all'inizio di questo video dicendovi che l' llm c'ha un problema di eh computazione di costo computazionale è energivoro perché è chiaro che se io gli do In input 100.

000 parole Mh 100. 000 token Voi sapete che Adesso hanno 128k 128. 000 token In input Se non vado errato Poi dipende alcuni modelli ce l'hanno 200.

000 mi sembra i modelli cloud e fino a 2 milioni addirittura di token Gemini quello la la versione avanzata Però qual è il punto che questi modelli se io gli do impasto 2 milioni di token 100. 000 token lui Ogni volta che produce il prossimo token deve riconsiderare tutti 100. 000 i token passati funziona così ecco perché è così energivoro ecco perché ha bisogno di così tanto tanta capacità di calcolo invece l' LCM non lo fa tu anche se gli dai 100.

000 token in entrata lui una volta li come abbiamo visto qui li divide in frasi poi dalle frasi estrae i concetti Dopodiché lui ragiona sui concetti per cui quei 100. 000 token diventano l'equivalente di 100 token che sono quei token che rappresentano i concetti espressi in tutte quelle parole e lui dopo ragiona solo su quei 100 token Quindi tutta la tutta tutto il calcolo avviene solo là e poi Quei 100 token che vengono rielaborati vengono ransi in in un in Un output più lungo ed è per questo che queste macchine funzionano molto bene Quindi gestiscono molto bene sia i contesti lunghi sia l'output molto lungo perché lui lui ragiona al centro ragiona nel collo di bottiglia loro lo chiamano proprio collo di bottiglia che sta qui va bene come se ci fosse un collo di bottiglia poi la generalizzazione Zero shot senza paragoni senza precedenti cioè che significa che se tu addestri questo modello per esempio a tradurre dall'inglese all'italiano e poi lo addestri a tradurre dall'inglese al cinese Mh questo modello riesce Poi a tradurre anche dall'italiano al cinese senza che tu lo addestri di nuovo senza che tu lo addestri proprio zero shot Perché Perché non gli importa niente la lingua di input e di output quindi ti può fare delle traduzioni da una lingua all'altra anche indipendentemente dal fatto che tu l'abbia addestrato sulla traduzione tra due lingue perché a lui gli interessa lui ti dà il ragionamento e dopo te lo esprime nella lingua che vuoi fine del discorso bene quindi fa delle generalizzazioni mostruose sta a fare va bene Poi ripeto c'è un sacco Eccolo il collo di bottiglia qua te lo visualizza in maniera un po' più un po' più chiara andiamo alle alle conclusioni Perché questo Questo video è chiaramente un po' troppo lungo però c'avevo un sacco di cose da dirvi e spero che vi siano state utili quindi nelle conclusioni diciamo riprendono un po' quello che abbiamo detto fino adesso è inutile che lo ripetiamo ripetono Ah dicono che sonar è comunque è liberamente è gratuito ok eh È un un sistema di una tecnologia preesistente vi ho detto Ed è anche gratuita loro hanno sviluppato questi tre modelli One Tower two Tower e quant LCM che spiegano in tutta la parte tecnica precedente come funziona ma lo saltiamo perché tutta la parte matematica e diciamo che di di questi tre modelli tutti comunque basati su un processo di diffusione Mh hanno scelto il two Tower che è quello più eh performante e questo l'hanno scalato a 7 miliardi poi hanno diciamo paragonato hanno fatto dei Benchmark hanno paragonato questo modello LCM ai vari llm e in particolare dice che LCM per il momento così Primo esperimento prima volta che si introduce questo concetto nuovo Diciamo che out performs quindi su supera abbondantemente l'ama 3. 18 miliardi per cui quello no paragonabile No loro l'hanno scalato a 7 miliardi quindi l'hanno paragonato con un 8 miliardi e è andato molto meglio il modello LCM da 7 miliardi rispetto all Lama in particolare anche nelle lingue straniere Allora per quanto riguarda le limitazioni loro stessi ammettono che ci sono comunque dei problemi hanno affrontato delle sfide importanti per quanto riguarda la previsione della frase rispetto alla previsione del token e alloro te lo dicono qua in una maniera molto semplice dice Prima di tutto dato che stiamo operando In uno spazio di rappresentazione ad un alto livello semantico il numero di possibili frasi è virtualmente illimitato rispetto al numero dei possibili token visto che un vocabolario di una lingua di solito si limita a un massimo di 100.

000 cioè quando io devo produrre il prossimo token no Devo trovare il token Giusto tra circa 100.