O que são LLMs (Modelos de Linguagem de Larga Escala)?

1.91k views3763 WordsCopy TextShare

SuperAprendizagem

Esse vídeo é uma tentativa de entender os modelos de linguagem de larga escala, como o ChatGPT, o Cl...

Video Transcript:

Olá aqui georgin e Hoje vamos falar sobre o que são os llms ou modelos de linguagem natural de larga escala entender eh o funcionamento e a lógica dos L llms é extremamente importante para poder usar corretamente esses essas ferramentas de Inteligência Artificial porque elas são enganadoras elas parecem que funcionam de um determinado modo porque elas foram feitas para imitar determinados comportamentos mas no fundo o que está por trás delas é matemática é estatística é computação são números e aí portanto entender a lógica desses números entender a lógica eh de como elas funciona funcionam ajuda a

gente a entender e a usar melhor corretamente essas ferramentas quando eu falo em llms eu estou falando de modelos como por exemplo chat ept criado pela openi ou pelo Jam OB Bard criado pelo Google ou pelo Cloud criado pela antropic que hoje são os os mais relevantes mais poderosos né em particular o chat ept e o cloud hoje são os que eu utilizo com mais frequência no meu dia a dia no meu cotidiano não só para eh produção para escrita né para redação mas também para aprendizagem para leitura né para sumarização compreensão de texto análise

de casos é tudo isso é possível usando esses modelos de larga escala exatamente o que são esses modelos de larga escala o que são S os llms os llms eles nada mais são do que dois arquivos né se nós pudermos olhar a a estrutura por trás dos llms eles cabem num diretório com dois arquivos um diretório tem os parâmetros né um arquivo tem o parâmetro né os parâmetros construídos a partir do seu processo de aprendizagem e no outro tem o código que são as instruções o que vocês estão vendo aqui na tela é uma uma

síntese um resumo do Lhama 2 eh desenvolvido pela meta que é o hoje o llm disponível para o público mais utilizado porque ele é de graça ele é aberto ao público e qualquer pessoa pode entender como ele foi feito como ele foi construído E se a gente quiser a gente pode baixar o lhama do no nosso computador e rodar esse programa sem internet né O que é fantástico desses programas de llm é que eles não têm acesso à internet eles não estão consultando base de dados Eles já aprenderam a partir de textos coletados da internet

de outras fontes e a partir daí foram construídos os parâmetros né que nesse caso do lama 2 tem 140 GB eh e o os códigos a linha de códigos que foi escrita em C no caso específico e tem 500 linhas de código então basicamente o chat PT o gen Gemini o cloud todos Eles seguem essa mesma lógica parâmetros e códigos parâmetros e códigos Claro que essa a representação aqui parece uma coisa simp simplificada mas eh o a dificuldade toda a matemática por trás disso está na construção dos parâmetros né o o Lhama 2 ele tem

70 bilhões de parâmetros a versão mais robusta dele tem 70 bilhões de parâmetros Se nós formos utilizar pensar hoje né no chat ept ou no laud ou nos outros pode multiplicar isso por 20 por 30 ou até por 100 porque os parâmetros cada vez estão mais robustos e mais eh ricos digamos assim e parâmetros nada mais são do que relação entre tokens relação entre números relação entre palavras né os parâmetros estabelecem Qual é a influência de uma palavra sobre outra em um determinado contexto basicamente Essa é a lógica dos parâmetros eh dito isso eh aqui

falando do Lhama como eu falei para vocês né que se vocês quiserem esse artigo Lhama 2 eh publicado pela meta ele traz exatamente como o Lhama foi eh treinado eh Quais são os parâmetros que foram utilizados Qual é a a quantidade de peso dele e se você quiser você pode baixar ele no seu computador e usar sem internet Como eu falei ou seja esses modelos eles não são modelos de acesso à internet em tempo real Eles não precisam acessar à internet você consegue usar o chat ept sem internet se você tivesse esses parâmetros no seu

computador só que no caso da da openi ela não fornece esses parâmetros portanto não são públicos por isso que você não pode baixar Mas se você quiser você pode baixar o Lhama 2 no seu computador desligar a internet e usar exatamente como se estivesse usando o chat GPT e porque a meta disponibilizou isso para o público e hoje é uma das principais fontes de aprendizagem são esse esse documento fornecido pela meta eh no caso da do Lhama 2 eles disponibilizaram para o público toda a história de construção do Lhama 2 inclusive aprendizado né o aprendizado

como é que eles desenvolveram os parâmetros a construção de um parâmetro né que vai funcionar iar como critério de de ajudar o o o a a ferramenta a prever a próxima palavra ou prever o próximo token ele é um processo de compressão de textos eh no caso do Lhama 2 eles pegaram 10 tb de textos né da internet de livros eh do Web scrapping eh conversas do Reddit conversas eh de várias Fontes possíveis transformaram isso no Corpus de texto ensinaram a máquina a otimizar esse processamento e esse é um processamento estritamente matemático não há supervisão

humana Ou seja é uma aprendizado um aprendizado não supervisionado eh que no caso do meta foram usados 6.000 gpus que são computadores de alta potências rodando por 12 dias isso gerou um custo de 2 milhões de dó dólares para criar esses parâmetros e uma vez que você otimiza esse processo dentro de uma espécie de processamento para diminuir a quantidade de tamanho os 10 ter byes de textos foram transformados em 140 GB de parâmetros então É como se você tivesse Pegue um texto imenso né um texto gigantesco e comprimido ele 100 vezes né comprimido ele 100

vezes a diferença é que quando você pensa em compressão como por exemplo zipar um arquivo essa compressão ocorre sem perda E no caso do da construção de parâmetros linguagem natural esse processo é com perda Ou seja você não consegue usar uma engenharia reversa para devolver exatamente os mesmos textos que foram produzidos eh no processo de aprendizado então basicamente o que eles pegaram n foram por exemplo todas as as notícias de jornais vários posts de blogs vários livros ensinaram né a máquina a entender a relação entre esses tokens a máquina nesse processamento ela consegue captar A

Essência matemática de cada um desses tokens relacionados entre si e em contextos maiores e transforma esse esses 10 tb de textos em parâmetros que basicamente são números ou vetores de 140 GB Então você pegou textos e transformou em números e um ponto importante é que é justamente a ideia de que eh a uma o llm ela tem um único propósito né a a base dela a matemática dela a tarefa que ela foi construída ela foi construída para um único propósito prever a próxima palavra dado uma série de palavras existentes colocados lá pelo usuário no input

Qual é a próxima palavra os parâmetros eles são justamente os os modelos matemáticos os as relações matemáticas que vão proporcionar a previsão dessa próxima palavra estatisticamente falando dentro de uma probabilidade estatística Então nesse caso aqui se você colocar a frase o céu é e pedir para a llm completar ela pode completar tá com várias palavras possíveis mas Azul seria por exemplo uma palavra bastante provável uma palavra que seria eh eh prevista eh eh muitas vezes muitas vezes o céu é azul seria se encaixaria tranquilamente então provavelmente se você colocar no chat PT o céu é

e pedir para ele completar ele vai completar com azul o céu é belo né É É algo do gênero né mas ele prevê a próxima palavra dentro de uma probabilidade estatística só só que aqui tem uma questão enganosa porque a gente imagina já que ele produz textos né o chpt né esses esses modelos eles foram treinados com textos e produzem textos a partir de textos Ou seja você joga um texto e ele ele gera texto eh a gente eh e parece né que ele está processando textos que ele tá entendendo linguagem mas não é isso

que ocorre o que ocorre é um processo chamado tokenização que é um processo de transformar palavras caracteres ou tokens em números e aí o que vai ser processado não são letras não são palavras não são frases são números é relação entre números Então vou mostrar para vocês aqui é uma uma tela de uma ferramenta criada pela openi que é como mostra o processo de tokenização né Por trás da plataforma eh essa vou aumentar aqui o tamanho para que Facilite para vocês esse tokenizer é uma ferramenta disponibil ada pela openi para que a gente entenda exatamente

como é que é o processo de tokenização então se eu escrever por exemplo o céu é essa essa frase essa palavra essas letras Elas têm quatro tokens o céu é o espaço pode contar como token eh e aí tem apesar de ter sete caracteres ela tem somente quatro tokens e aqui a gente consegue ver nesse processo aqui de tokenização exatamente Quais são os tokens que ele está processando por exemplo o o maiúsculo é um token espaço c e assento é outro token se eu tirasse o assento seria um outro token eh u é um outro

assento espaço e é outro assento aqui são chamados tokens eh e nesse caso nós estamos vendos os tokens em textos né formato de texto Mas se a gente apertar aqui nesse tokens ids a gente vai ver que cada um desses tokens representam números ou vocabulários 46 é um token específico para se referir ao o ao o maiúsculo esse token gigante aqui 6493 4 é um token específico dentro do vocabulário do chat GPT que pode ter mais de 10.000 ninguém sabe exatamente quantos vocabulários né quantos tokens né são existem no chat pt4 mas nesse caso eh

o esse token grande aqui numérico grande 6493 aliás 64.000 né Eh 934 é um token só ele representa o espaço o c e o e eh e aí você vai vendo aqui outros tokens então basicamente o processo de eh de processamento do chat IPT é transformar esses tokens em números e esses números vão para determinados vetores cada um desses tokens eh representa um espécie de par não um parâmetro mas eh um vetor dentro de do parâmetro dentro do arquivo de parâmetro que tem milhares e milhares de dimensões então to desse ele está relacionado com outras

com outros tokens de milhares ou até centenas de milhares de possibilidades possível Então esse é o processo de tokenização eh que ocorre dentro do chpt para produzir textos uma vez que a gente tem essa noção de que o papel do chat GPT é produzir textos a partir de textos ou seja completar inputs né a gente vai eh começa a entender Até Como usar corretamente o chpt né Por exemplo sabendo disso a gente vai perceber que uma das formas mais eficientes de usar o chpt É você sempre colocar palavras na boca do do chpt fazer com

que ele Produza tokens a partir de tokens que você coloca então você pode direcionar a o texto pedindo para ele completar determinadas frases e essa é a melhor forma de você usar o tat IPT porque você eh contribui para a geração do Token do texto né do do da da previsão seguinte né E aí portanto eh Outro ponto importante para perceber isso né para perceber essa lógica de tokens tokenização é que o chat PT ele pensa através de tokens n o chat IPT ele é uma ferramenta que ele produz tokens a partir de tokens e

tentando eh fazer uma uma análise matemática desses tokens então Eh Se você souber colocar corretamente dentro do input os tokens corretos ele vai produzir respostas melhores por conta dessa lógica Outro ponto importante que a gente tem que entender é que os parâmetros eles não não são textos ex eh eles não são exatamente uma cópia fiel dos textos que ele que eles aprenderam eles são eh os parâmetros eles são vetores são nós são eh relações entre tokens numéricas em que você Graças a esse processo de aprendizagem conseguem eh fazer com que a máquina aprenda a identificar

padrões semânticos padrões sintáticos eh gramática vocabulário você ensin através desses parâmetros no entanto E aí vem um ponto importante o chpt ele não reproduz o passado ele não pega o texto da base de aprendizado e consegue regurgitar esse texto ou seja reproduzir exatamente aquilo que foi dito eh no no processo de aprendizado o que ele faz é conectar tokens e tentar reconstruir textos com base nessa tokenização nessa parametrização do conhecimento que ele aprendeu no passado Então o que ele faz na verdade é sonhar os textos essa uma expressão que é utilizada metaforicamente para se referir

ao processo de que eh quando o chpt está produzindo textos eles não está copiando o passado ele não está reproduzindo o passado ele está imaginando algo ele está criando o futuro então o texto desenvolvido pelo chpt é uma criação do futuro então se a gente pegar aqui esses dois textos que vocês estão vendo na tela ele tem uma ementa de um julgado produzido pelo chpt e um texto sobre eh que eu inventei chamado limagem do texto limar o texto que é uma técnica que a gente pode utilizar para melhorar a qualidade de eh de respostas

a partir do nosso conhecimento né eu vou falar um pouco sobre isso sobre essas possibilidades de vocês eh melhorar a o a a o seu texto para que para que o chpt leia melhor o seu texto e aqui é um texto que eu criei para isso eh e aí nesse caso se você analisar essas duas Eh esses doas esses dois textos a ementa de jurisprudência e um verbete da Wikipédia a gente vai Aparentemente a gente vai entender que Poxa isso é real parece muito parecido só que o que ele tá fazendo aqui na hora de

produzir esses textos não é exatamente pegar uma ementa do passado e jogar aqui eh reproduzindo Ele está reconstruindo ele está criando enta que não existe e Se você prestar atenção Ele criou número criou relator relatou que existe Marco aério relatou para acorda Ministro Rosa Weber tribunal pleno julgado em 25/08 de2022 ou seja uma data que nem existe ainda né mas ele criou uma enta muito parecida muito próxima à realidade e eh inventou e criou e sonhou com base na sua aprendizado eh Por que que isso parece real né porque ele foi eh de certo modo

imitado né a partir da aprendizado do aprendizado que ele teve mesma coisa o texto da Wikipédia essa expressão limar o texto a a limagem do texto ela não existe foi uma expressão um conceito que eu criei que eu inventei para se referir a um processo de transformar o texto em palavras-chaves divididas por reticências porque dentro da linguagem do chat GPT as reticências elas elas eh produzem textos melhores né produzem textos melhores O que é interessantíssimo eh se a gente olhar por trás da Matemática eh do aprendizado da construção dos parâmetros do chpt de como é

que ele está pegando um texto que você coloca e transformando em novos textos eh você se você souber a matemática por trás você vai entender mas não é preciso eh saber matemática não é preciso eh entender toda a estatística todo o modelo de aprendizado que tá por trás basta saber assim em termos de curiosidade que o Marco teórico desse processo é um texto chamado attention exo un attention All un need publicado pela Google pelo pelo Google Mind eh e que se transformou ou no ícone do modelo transformador da arquitetura transformadora que é hoje utilizada por

por todos esses modelos de grande de linguagem natural de larga escala e aqui esse é esse gráfico é o formato do que é exatamente esse modelo eh onde você vai pegar eh textos transformar em números através do processo de tokenização e a partir daí vai otimizar o modelo em várias e várias camadas milhares camadas matemáticas até produzir um texto razoável é fácil entender essa matemática Se você souber né Um pouquinho de estatística e de aprendizagem de máquina no entanto eh ainda é um mistério sobre como chat IPT Pensa como é que ele interconecta essas esses

parâmetros que foram desenvolvidos na base de aprendizado eh hoje inclusive tem um campo específico chamado interpretability que foi criado para entender como as llms funcionam porque hoje não se sabe ao certo como é que o chat PT produz os textos entende-se a matemática por trás a matemática de otimização para reduzir eh os erros para reduzir a e e melhorar né o a performance mas não se entende ainda eh exatamente como é que ele faz realmente a conexão entre tokens ponto interessante também de entender a mente do chpt é que essa dificuldade de entender a mente

do chpt vai criar algumas situações inusitadas curiosas por exemplo existe a chamada maldição da inversão é o fato de que o tpt ele ele responde bom bem algumas respostas em determinada direção mas se você fizer o caminho contrário ele não acerta ele erra ele erra com frequência isso é interessante você saber isso porque você pode eh sabendo quando é que ele vai responder bem quando é que ele vai responder errado você vai conseguir eh fazer com que ele responda melhor por exemplo né uma forma bem simples de entender isso é que o conhecimento parametrizado do

chat GPT Ou seja a sua base de aprendizado natural em que a gente pode extrair respostas dela ela é burra para questões específicas para questões factuais né para questões muito concretas e portanto Você não pode confiar eh eh na base extrativa ou base parametrizada do chpt eh em termos de respostas específicas de conhecimento específico se você quiser um conhecimento mais geral você terá essa informação até relativamente bem eu vou dar aqui um exemplo que é um exemplo bem curioso sobre como isso funciona se eu perguntar aqui pro chat PT né Eh Tom Cruz é filho

de quem quem é sua mãe Tom Cruz é um personagem muito conhecido ele tá muito na internet e aí portanto a resposta chpt foi eh Tom cruis é filho de Mary Lee fifer Se nós formos no Google e perguntar aqui eh e fizermos essa busca e colocar Tom Cruiser aqui também a gente vai ver que ok a mãe de Tom Cruiser É de fato Mary Lee fifer tá aqui exatamente eh a as informações sobre a mãe de tomon Cruz então é uma informação tranquila quem é a mãe de tomon Cruz ele vai saber porque tomon

cruis eh do ponto de vista estatístico ele está muito presente na base de aprendizado chat GPT Então essa resposta seria seguro Vamos abrir aqui uma nova janela de contexto e perguntar agora o caminho inverso né vamos perguntar para ela para ele eh Mary Mary Lee fifer é mãe de quem se a gente fizer essa pergunta eh ela ele vai ele alucinou né Eh Mary Lee F é mãe do ator Lee majors Lee majors conhecido por seu trabalho de program de televisão então ele ele ela não acertou ela a a o chat PT errou ele alucinou

nesse caso Em alguns momentos ele vai dizer olha não sei não não mar não é conhecida não não conheço Então se a gente abrir aqui de novo perguntar novamente né ele vai dar outra resposta não não é uma figura pública conhecida e esse é um ponto interessante a gente entender a m chet IPT ele ele aprendeu no seu conhecimento parametrizado com base em repetição de informações então aquelas informações muito repetidas ele será capaz de trazer pra gente de recuperar essa memória né e e de eh de informar corret ente na maioria das vezes vai acertar

essa informação mas se você fizer a mesma pergunta invertida eh numa numa no formato de um algo mais raro eh nós não teríamos essa mesma resposta então eh essas coisinhas são importantes para entender a mente do chat IPT e no próximo vídeo nós vamos falar como treinar o chat IPT como é que ele foi treinado como é que ele aprendeu efetivamente Por que que é importante a gente conhecer o processo de Treinamento porque o processo esse treinamento vai ensinar a gente a se comunicar com chpt o chpt ele tem uma lógica própria de linguagem ele

não é uma ferramenta eh a a o cérebro dele né a mente do cro do chpt se ele tivesse uma eh não seria Idêntica à à mente humana porque o processo de aprendizagem foi diferente então ele aprende eh eh a se comunicar de uma determinada maneira ele tem uma lógica própria de comunicação e se você quiser conhecer um pouco mais sobre isso na no próximo vídeo nós vamos tratar especificamente sobre treinar o assistente como é que a gente cria um chat ept mas se você quiser já conhecer eh um o conhecimento né a fonte eh

que me inspirou a a gravar essa aula eh eu recomendo que você assista os vídeos do andrej carpat né que é um eh fundador da openi depois ele trabalhou na Tesla voltou agora para o openi e ele tem vários vídeos muito interessantes eh ensinando mostrando como é a lógica do chpt como é que funciona e são vídeos muito didáticos que vale a pena vocês conhecerem Vou deixar na descrição do vídeo esses esses dois eh dois em particular que são os mais acessíveis ao público e se vocês quiserem também podem eh ir direto né na página

do YouTube que está lá disponível procurar por Andes carpat ele tem vários vários vídeos mais técnicos várias aulas né inclusive mas esses dois aqui eu acredito que são os mais eh assimiláveis né para o público leigo então era isso próxima aula vamos falar sobre aprendizado de máquina como é que a gente ensina o chat GPT a prever a próxima palava