tarde boa noite onde vocês estiverem agora ao vivo pelo Canal sandeco hoje uma aula diferente eu estou na última aula com o pessoal aqui do me certo eh a galera tá comigo aqui que são os nossos mentorados aí da mentoria de Crew Ai que nós já estamos fazendo aí caramba já vai fazer dois meses né hein galera vai fazer dois meses N é isso dois meses caramba eu vou mostrar para vocês a galera aqui galera tá com a gente aqui todo mundo tá aí conosco eu tô aqui bem em cima aqui tá porque tá aparecendo
de novo vocês aqui mas tudo bem Como tão vocês aí mandar o pra galera aí ao vivo você tem pergunta é o seguinte prioritariamente eu vou responder as perguntas porque essa aula aqui era uma é uma aula fechada certo e eu abri essa aula para que vocês pudessem conhecer como é que é uma mentoria ao vivo né baseado no livro nós teremos uma uma mentoria muito parecida com essa Sábado Certo Sobre Python nós falaremos sobre Python bastante sábado o dia inteiro serão dois sábados cara sábado dia 5 sábado dia 12 certo eh nós falaremos sobre
a mentoria do livro de Python eu queria mostrar para vocês o livro de Python aqui antes de vocês pensar Qual será a nossa alternativa a gente prisa começar f educação financeira fazer com que as pessoas elas entendam que é necessário isso pessoal fechar o microfone porque tô voltando tava falando né hoje a gente vai fazer essa essa mentoria de Crew Ai aqui né que o pessoal eh tá concluindo né hoje a última aula já dá saudade né galera D saudade já a vontade de não acabar e na verdade para falar verdade né não vai acabar
porque a gente vai continuar e a gente vai continuar com o livro dois de crei na segundo volume de crei onde a gente vai construir sobre sobre V falar vamos falar sobre a construção de ferramentas de agora eu quero mostrar um pouquinho para vocês né o livro que a gente vai tratar com ele e bom o livro tá escrito cara muito lindo 177 páginas ó aqui ó 177 páginas tudo que você precisa saber o título é Python para Inteligência Artificial o que que é isso primeira coisa né título é tudo que você precisa saber do
Python antes de criar as suas eis Ontem eu fiz um vídeo falando exatamente sobre e a inteligência artificial é o Python é a linguagem oficial da Inteligência Artificial é a língua da Inteligência Artificial né então praticamente toda a inteligência artificial do mundo foi construída em cima do Python né usando Principalmente as grandes bibliotecas como P Thor como ah o tensor Flow keras né que são bibliotecas que eu mexo bastante no meu dia a dia beleza já falei bastante sobre elas aqui canal tem muita coisa aí nas playlists tá pessoal não esqueçam de nas playlists tem
muita coisa bacana mas eu tava esse ano eu dei muita palestra viajei bastante esse ano né Agora eu parei de viajar de um tempo para não parei não que eu vou viajar para São Paulo vou viajar para São Paulo eu tô em Goiânia eu sou de Natal natural de Natal mas eu tô em Goiânia e vou para São Paulo esse mês eh porque vai ser meu aniversário de casamento e eu vou vou eu vou ver o Paul cara o Paul Paul McCartney vamos lá conhecer o p que eu não conheço ainda ele teve aqui em
Goiânia não tive oportunidade de ir tava tava tinha aula alguma coisa assim não tava não tinha como eu ir não consegui ir então Eh vou para São Paulo PR para ver o pol E aí e eu fecho né as viagens desse ano porque eu tenho muita coisa para entregar entregar esse fora ainda mentoria cruar e tudo mais mas enfim o que eu queria dizer é o seguinte eu falo meio enrolando né Eu dou eu dou muita Volta para chegar onde eu quero chegar eu quero dizer o seguinte é que nessas viagens eu fui sempre pensando
né cara o que que é de sua fala do Python tal né que é trecho do Python que a gente usa na Inteligência Artificial e foi fazendo uma lista né E essa lista saiu Exatamente esse sumário aqui que é Ah eu eu falo inicialmente aqui sobre a inteligência artificial o poder da Diversão pode isso Arnaldo quer dizer aquela coisa sisuda aquela coisa quadrada do C Java né Python vem para quebrar porque é uma linguagem da zoeira Eu gosto demais disso porque ele é todo feito assim cara sabe o caras porque eles acharam que movimento de
software poderia ser uma coisa bacana desfazer né e e fácil não deveria ser uma coisa de complicada e a ideia do Python exatamente essa né então hoje e o Python ela se tornou uma linguagem de entrada por exemplo do Mit é é uma das linguagens principais do Google certo e as grandes bigtech usam Python para lado né A openi também então assim eh veja que toda a api da Open é conversada via Python né Grosso da coisa mesmo assim certo tem aí aqui umas coisas interessantes por exemplo divertido mas sem bagunça né É a coisa
bem interessante e eu falo bastante aqui das bibliotecas do Python porque o Python é considerado aí a a linguagem baterias inclusas né ou seja aquela coisa que você teria que escrever uma série de códigos para poder funcionar Já tá tudo pronto por exemplo o é uma bateria inclusa cer PR criar agente Inteligente você não precisa ir lá fazer seus agentes inteligentes do zero criar classe já existe uma biblioteca você fazer o é isso Beleza é isso eu queria pedir PR Rose você postar do grupo do WhatsApp para o pessoal aqui no seria bom de vez
em quando último vídeo tem o link tá posta lá por favor eu vou pedir pro pessoal que já estão nos outros grupos de Agentes não entrar nesse não tá porque senão fica todo mundo do mesmo grupo aí não tem sentido isso né logo o grupo enche tá então é isso quem já tá nos outros grupos de Agentes fica lá vem para esse não deixa o pessoal novato entrar e depois então a gente eu falei aqui ó começando do básico mesmo então eu vou começar do mais básico do básico do Python cara a gente vai vou
pegar na mão sabe como é que é aquela coisa de pegar na mão e levar você pra frente é isso que eu vou fazer com você então vamos falar aí sobre input output pyon Strings dados primitivos e tudo mais operadores numéricos todo aqui ó se não praticar não vai fixar todo Capítulo tem exercício para você fazer tá ão estruturas de controle deixando você no controle né estrutura de controle de fluxo que é wi Loops todas essas coisas aí vou ensinar para vocês como é usando esse esse livro ele é muito importante também para o próximo
livro né porque eu vou usar muitas funções vou usar muita orientação objeto então um pouco mais do Python tá bom Por isso que eu lancei esse livro agora né Aqui tem um lance legal que é recursão a função que chama ela mesma é uma coisa que a aprende na faculdade logo logo Ach isso important depois eu vou trabalhar com estrutura de dados né exemplo vetores dado amplamente vetores gente vai falar sobre vetores hoje né em bed são vetores Python tá embeds são vetores Python então se você aprendend sobre vetores você olha pros embeds show de
bola você fica entendendo tudo entendeu então como é que faz para você o Transformer né que é a base do GPT o t former é o t do GPT é Transformer tá e como é que o Transformer USA vetores dentro desse dessa dessa da base dentro do treinamento dele para poder fazer em beds né e a combinação de vetores são matrizes né Então aí você começa a brincar aqui ó por exemplo pro ai né a gente tem recebe manda recebe manda lista de coisas a gente configura os inputs com com missionários e tuplas né e
assim vai e toda e você pode ver aqui que todo Capítulo eu justifico né porque as funções são importantes parar aqui em cima ó por por aqui devia tem vez não saiu porque o básico é importante parar aqui por estruturas e contrle são importantes parar aqui ó controles Python e a inteligência artificial eu faço o vínculo por que é importante né eu mostro por porque a ideia dos livros Exatamente isso fazer você entender inteligência artificial com pon entendeu então py linguagem muito fácil cara olha só para você ter ideia eu falei no vídeo de ontem
quando eu vou ensinar inteligência artificial na universidade na faculdade no Instituto fal Eu normalmente normalmente não ensino P pro pessoal Ele já sabe já tem uma noção de já tem uma noção de programação né então eu falo para eles ó não precisa vocês estudarem Python basta basta vocês e irem junto do fluxo vocês vão aprender tranquilamente porque Python é tão fácil e você nem sente que tá aprendendo para te falar a verdade eu né que sou um profissional já antigo já novo software desde os meus 14 anos de idade são 48 tem 48 anos tem
S 30 e tantos anos na área né 32 anos na área é 15 na área de Inteligência Artificial eu aprendi Python andando na esteira bicho entendeu aprender Python andando na esteira então é verdade aqui eu mostro um pouquinho das Baterias inclusas né são as bibliotecas por exemplo e npai com velocidade supersônica para liados pandas que é o kung fu esse aqui é um trocadinho do kungfu pandas n porque o Python é zoeira certo em data Science P travesseiros não imagens e Python é uma biblioteca para imagens aqui uma leitura de PDF aqui para poder op
pcv trabalhar com vídeo P Guy que é para fazer você você faz com que o seu computador clique em determinados lugares o Python vai clicando para você e você escreve sozinho então você quando você faz essa automatização com com esse out Guy e você você parece que o computador tá tem alguém mexendo no computador por você entendeu É legal isso então é legal para fazer algumas automações certo o pai tesseract né tesseract já sabe o que que é né do do do Eita do Avenger né e a gente vê aqui que é ele lê né
textos escrito à mão certo cara é muito fácil certo e aqui ó fala aqui amor perfeito Python e as bibliotecas Fabulosas aí tem os exercícios que é o para dentro cai para dentro beleza Ah não eu não não não sou eu não sou páo Marçal não viu Diego eu só tô sendo e honesto com com com a minha história c a minha história realmente é essa não tô dizendo nem isso para minha minha não é porque realmente foi que aconteceu beleza coloquei lá uns videozinho do Guanabara lá amigos e tal já já foi não tem
a menor a menor pretensão de enganar ninguém aqui Então veja bem aqui a arte de errar com elegância ó triat ou seja tem alguma coisa que é um código arriscado né você pode trabalhar ali um um conjunto de de comandos dentro do Python para você dar segurança na execução né para não dar erro não travar o programa entendeu como é que faz isso eh e por fim e eu acho que um dos Capítulos mais importantes que é esse aqui né Python e o mundo em objetos né a gente vai construir classes e objetos vou explicar
para vocês o que que é classe o que e tudo é isso tá beleza alguma dúvida pessoal aqui do grupo da mentoria aí alguma coisa que eu falei tá então falem Oi Sand Oi boa noite Daniel a Rose tá off e ela pediu para mim resolver alguma coisa que você pediu para ela aí Ah por favor Daniel você colar endereço do grupo de agentes esse último agora tá ah lá no YouTube é você pegar no último vídeo na descrição tem o link basta você copiar de ontem copia e cola aqui colando de vez em quando
que tá entrando gente n esse grupo novo né É porque já tem 100 pessoas aqui já entraram 100 45 vai colando aí tá Tá legal então beleza então Eh hoje então pessoal a gente vai ver sobre o tema aqui ó tema aqui da televisão aqui ó Open ey emb beds no L Flow tá bom é o seguinte eh linkflow né eu falei na semana semana passada a gente começou na metodia gratuito aqui crei sobre o livro de crei a gente falou sobre L Flow eu ensinei como instalar o l Flow no seu computador como rodar
ensinei um exemplo prático né Inicial ensinei como criar um componente como criar um componente e E além disso a gente publicou né O componente online que era um componente que não existia ainda isso e agora eu nem me lembro o que que foi o componente que a gente fez vocês lembram Criei um componente do PDF hã é do PDF era era um componente que recebia um um texto N é isso Recebi o resultado de um texto produzido pelo um agente e gerava um PDF com esse texto Beleza então a gente criou um componente para isso
esse componente que gera um PDF ele não existia no Store do do L Flow tá lá eu até Criei um outro se você procuraram pro sandec lá de novo vocês vão ver que tem um outro que é listar pdfs de uma pasta porque não tinha também ter o processo eu tô tentando fazer aquele processo de de avaliar artigos científicos uma pasta entendeu não tinha eu criei também beleza é isso Fala Daniel sandex você quer que cola o link do grupo ou você quer que cola o link do YouTube no grupo quero que você eu quero
que você copia o link que tá no último o bit.li tá no último canal vai no canal tem o vídeo dea da Inteligência oficial da ia descrição tem um link. copia aquele lá e joga aqui se você colocar o WhatsApp do WhatsApp o pessoal fica buscando as conversas de WhatsApp link e fica entrando para vender produto tá aí você quer que eu cole isso lá no YouTube não isso ch aqui tá só entrar no grupo bom e aí o pessoal do grupo que tá aí pode entrar fica à vontade do nosso grupo aqui aí Daniel
você puder ir colando de vez em quando seria Tá pode deixar aqui F esperto meus fic é isso vamos em frente então hoje então eu vou falar sobre L Flow eu vou falar com vocês aqui como é que a gente pode vou colocar a galera muito bem eu tenho aqui esta tela que é o meu tá aument para cá aumentar a tela aqui para vocês verem legal tá bom para vocês aí tá chegando bacana a a tela sua tela tá pequena igual a igual a imagem de todo mundo entendi a sua tela tá pequena igual
a imagem de todo mundo como se você fosse um aluno também é isso mesmo é para aparecer pequenininho tem que aparecer mais o l Flow na tela certo não é mim como é alguma configuração aqui que eu tô bobeando eu descubro eu vou já compartilhar minha tela com vocês aí tá compartilhar agora a tela cheia e a tela cheia que você aí do grupo é essa aí dá dois cliques na imagem Pequena aí que ela fica grande na sua tela já tentei não não deu certo não não deu certo não tá bom não mas agora
ele já resolveu lá já eu não tinha compartilhado com vocês a tela porque eu tenho que compartilhar com o YouTube aqui tem compartilhar com aqui beleza ISO ag T certo para vocês ok frente né olha Então hoje é é o dia da gente fazer esse esse esse carinha aqui ó vamos fazer um ha completo de um um PDF vou usar o pdf do Python aqui tá pode ver que eu tô aqui ó com PDF do Python do livro eu vou jogar esse PDF para dentro do do leg Flow o objetivo o objetivo queal O que
é conversar com esse conversar com esse com esse livro beleza a ideia o que que é Vou perguntar uma coisa para ele lá um conteúdo e ele tem que me responder baseado no pdf do livro certo então o que vai acontecer aqui é que tem alguns processos que eu vou explicar para já já já para vocês tem uma parte teórica toda baseada nas aulas que eu dando tô dando sobre Transformer Dent na federal pessoal do curso para o pessoal da da esse semestre pro pessoal de Mestrado doutorado né e e é isso então vou eu
vou ter uma teoria aqui que eu vou mostrar para vocês o que que é embed vou primeiro mostrar Teoricamente o que que é um embed tá então assim galera que vai ensinar sobre esse tema aqui você falar ah você tem que criar um imbed tem que não sei o qu E aí que diab esse imbed que ninguém sabe o que que é como é que se gera isso como é que isso funciona dentro do transformer eu tô querendo fazer também uma série canal explicando todo Transformer por dentro como é que funciona com animações Já tá
tudo pronto na verdade né só basta agora tocar Mas enfim aqui está o nosso nosso nosso fluxo aqui eu tenho o texto certo eu vou dividir o texto em chunks eu vou já vai explicar depois eu aplico o embed e vou guardar esses embeds numa base de dados aqui esse Chrome tá chrom DB vai armazenar aqui informações armazenar informações em vetores tá depois ó o que acontece depois eu vou fazer o seguinte depois eu tenho vou ligar aqui um um um ativar um chat do GPT né um chat aqui e vou colocar eh também os
edins conectando com chrom DB aqui embaixo Então vai carregar os eds ali depois eu vou criar um prompt conectando que que tem esse prompt aqui eu já mostrei para vocês esse prompt aqui né eu botei duas coisas nesse prompt basicamente ó Com base no trecho do livro do Python delimitado por trecho seja isso aqui vem do rag responda a pergunta debilitada por pergunta aqui dentro vai trecho e aqui dentro vai vir a pergunta beleza e aí você veja aqui eu tenho prompt engenheria de prompt puro aqui usando delimitadores né imitadores e também aqui nessas asasinas
aqui ó vou aumentar um Pou não tô conso aumentar aqui e essas essa a chave fecha a chave aqui são o qu Place holders lembra a gente usa isso isso é um conceito da engenharia de software tá ou da engenheria de software eu tô falando engenheria de software porque eu tô mexendo com as coisas engenheria de software também e e da engenheria de prompts né e e aqui é o Place holder né Ou seja a informação que vem da base de dados jogada aqui dentro e a pergunta que eu fizer vai vir aqui tá então
isso aqui nada surpresa para vocês depois tem aqui né e eu vou tirar o cabeça ó aqui eu tenho o a Open que vai receber né vai receber essa esse prompt tá vai processar com o GPT 4 for aqui ó minha ap Eu já eu já coloquei dentro do do L Flow né na parte Global das chaves que eu mostrei a aula passada se você não não viu a aula passada tá disponível no canal né basta você voltar dois vídeos atrás lá no no canal que você vai achar tá E aqui no fim é o
quê é a saída do é a saída que o chat PT vai dar para mim baseado na pergunta que eu vou fazer em relação ao livro Então veja bem eu coloquei o livro ele aprendeu ele ele aprendeu o conhecimento do livro que eu escrevi eu vou fazer perguntas para ele direcionadas ao conteúdo que tá dentro do livro Tá sandeco mas pô vai falar de Python Ele já sabe de Python obviamente né agora se fosse por exemplo um texto e um texto jurídico digamos assim então você poderia vir aqui e colocar um texto jurídico dentro certo
ó na hora que você vai criar os embeds né você vem e coloca seu texto jurídico aqui ele vai criar os embeds desse texto tá bom e depois você começa a conversar com esse texto Então essa que a ideia tá a ideia geral é essa Agora eu vou começar a fazer algumas explicações para vocês poderem entender como é que funciona a coisa toda ó vamos lá qualquer dúvida como sempre pessoal do grupo aqui quiserem me interromper Vocês pode me interromper e perguntar bom eh depois Daniel você pode poderia coletar algumas perguntas aqui do chat se
alguém tiver uma pergunta Faz a pergunta por eh mas aí a galera que tá aqui comigo pode interromper como a gente já sempre pode levantou a mão pode falar oi Sand Boa noite eu sou meu meu nome é Samuel eu queria saber se a gente tem como fazer perguntas eh em planilhas em dados de planilhas em dados de planilhas é se a gente subir uma planilha ao invés de um de como você subir um PDF aí ou que seja um PDF de uma planilha por exemplo né Eh eu consigo fazer perguntas é aí seria uma
outra abordagem qu de certa forma você teria aí Eh você teria aí tipo como se fosse data Science né Essa que a ideia sim sim então dá também tá dá também com certeza beleza Tá bom beleza valeu obrigado vamos lá Primeira coisa eu vou falar sobre nós vamos criar aqui em beds mas existe esse termo quem aqui já ouviu falar dá um legalzinho para mim aí pessoal do grupo ou o pessoal que tá vendo a gente ao vivo dá um ok quem já ouviu falar desse esse termo aqui token tokenização token ah você tem que
tokenizar ai é tantos token a janela de contexto são tantos tokens né ah o chat GPT trabalha com tokens tokens são palavras tokens são o quê diabo vem de Marte de onde que é esse TR que vem é o trin dos infernos o que que é token brother que que é token Beleza então vamos lá tem até tem até calculadora de token calculadora de token como é que faz essa tokenização ah a janela de contexto do chat GPT são 128.000 token ah a janela de contexto do Jam é de 1 milhão de token por isso
que o Jam é melhor que o chat é verdade isso não certo não eu vou mostrar por o que que é uma primeiro o que que é um token vou mostrar para você o que que é um token e vou mostrar mostrar para você o que que é um embedding e vou mostrar para você o que que é uma janela de contexto você entender o que que é cada mas com exemplos bem pequenininhos tipo assim ao invés de gente trabalhar com 125 128.000 né tokens de Nel contexto eu vou trabalhar com vocês com quatro el
contexto também quatro entendeu então é basicamente isso que a gente vai fazer pequenininho exemplos pequenos a gente consegue transpor para coisas maiores tokenização vamos lá ó Nós seres humanos somos muito bons numa co somos muito palavr e as máquinas elas são muito boas mas muito boas com números a questão é que palavras e números são de características diferentes entendeu dá para você conversar com uma pessoa que só entende n usando palavras e vice-versa então o que acontece é que a gente tem que fazer uma ponte para ligar esses dois mundos fazer uma ponte para ligar
esses dois mundos estão desconectados essa que a ideia seja o que a gente chama de Inteligência Artificial a gente chama de transformação de dados eu falei muito mas muito mesmo sobre transformação de certo eh sobre transformação de dados eh é no curso e beneficente que a gente fez data Science com chat GPT beleza vamos lá então a primeira tentativa que o pessoal teve transformar essas palavras em números foi bem intuitiva mesmo ó como é que foi que eles fizeram pegaram as palavras cada palavra virou um número tipo ah então a palavra Zé vai virar um
Maria vai virar dois João vai virar TRS entendeu gol vai virar zero avião vai virar 123 e partida será 124 Qual é a relação dessas palavras avião gol e partida ou Gol avião e partida alguém do grupo aqui do grupo Nosso do da mentoria me responde por favor qual a relação da palavra Gol avião e partido então o gol tem a ver com com a com a companhia de avião e a partida da decolagem do avião do partidas e e cidad tem outra partida pode ser pode ser pode ser mas tem outra partida pode ser
partida de futebol né ô garoto isso aí então eu tenho duas eu tenho duas tenho duas dois universos aí que eu tô falando tô falando sobre sobre transporte aéreo e tô falando sobre partida ó posso estar falando sobre dois temas mas quando eu coloco a palavra Gol Av em partida eu não sei se o gol pertence ao avião é se o gol pertence a partida aí que é o problema né e e e é essas questões que o que o Transformer tenta tenta melhorar Beleza então Ó eu tenho aqui um problema também que eu já
citei lá atrás no data Science que é a questão da normalização esses valores são muito grandes tá nas redes neurais a gente só trabalha com probabilidades dentro da rede neural tá certo números são bem pequenininhos sempre entre zer e 1 ali dentro por é é uma rede de probabilidades entendeu trabalha com isso então normalmente a gente tem um processo que a gente chama de normalização a técnica a gente usa é a técnica de minimex tá onde a gente pega e o valor que a gente tem menos o valor máximo pelo menos máximo menos mínimo você
vai ter um valor ali onde se se o valor máximo for um a saída se o valor máximo for aquele lá ex 255 né for o máximo aquele valor vai ser transformado em um se o mínimo for zero aquele vai ser transformado em zero e o que acontece é que no meio dos valores Ali vai tá variando entre zer e 1 entende isso é o processo da normalização quando eu normalizo aqui ó por exemplo se gol for o menor valor ele vai ficar zero mesmo mas se partida for o maior valor vai ficar um já
avião vai ficar 0.999 entendeu a normalização faz Exatamente isso por qu Por que que faz isso porque dentro das redes neurais só se trabalha com números probabilísticos a gente trabalha com probabilidades dentro dela beleza tranquilo não precisa se preocupar com isso agora porque eu não vou entrar na matemática disso é uma coisa complexa deixa o pessoal doutorado que a gente ensina lá mas isso é outra coisa Tá agora a questão é uma outra tentativa que foi feita foi o seguinte foi esse essa forma diferente aqui ó por exemplo a palavra go eu coloco essa essa
essa essa esse vetor aqui ó 0 0 onde Gol aqui um vai ser gol aqui avião vai vai ser Zero qualquer outra coisa que vai ser zero e partida vai ser zero você veja que eu coloco um né você veja que agora na segunda linha tem um somente no avião na terceira linha tem um somente nessa outra coisa aqui pode ser uma nuvem de coisa uma nuvem de co pode ser milhares ou milhões de palavras ou centenas de milhares de palavras certo e aqui ó em partida vai ter um mas veja que o que é
interessante é que essa codificação que a gente chama de One hotting holding Ou seja somente um é quente né somente um que manda Porque somente um ó é quente ó somente um na linha que tá valendo tá quando a gente vai traduzir isso aqui em termos de disposição no espaço a coisa fica mais ou menos assim ó fica assim partida vai para lá e avião vem para cá certo beleza só que isso aqui também não ajuda muito porque toda forma eu ainda não sei quem é gol quem é avião quem é partida atrapalha bastante dá
dá para trabalhar com uma hotting code nesse caso a gente tem que ir para outra técnica Então a gente tem aqui Principalmente uma um problema de contexto né eu vou já já mostrar para vocês a questão do contexto que ela é importante mas veja bem eh Se eu colocar uma palavra aqui a mais por exemplo se eu colocar aqui a palavra eh jogador com certeza né o Transformer vai puxar essa palavra go para perto dela certo e a partir também então o Transformer tem a capacidade de fazer o seguinte quando eu tenho um conjunto de
palavras eu aumento o contexto que eu estou falando né ou seja o tema que eu tô tratando naquele momento ali ele funciona mais ou menos como se fosse um peso gravitacional você tá ligado como é que é eu vou mostrar fiquem calmos com isso se vocês não entenderem nada agora eu vou fazer uma série sobre transforma vocês vão ver isso na prática acontecendo vão ver uma animação onde a palavra vai viajando para perto do Peso entendeu quando eu vou dando um contexto maior o que vai acontecer é que você vai ser gratuito tá porque vai
ser uma série do canal bom eh eh tudo é gratuito as informações em vídeo eh então assim você vai ver o seguinte quando eu aumento o contexto o que acontece eu eu crio um centro de gravidade entende e aí as palavras que t a ver com esse contexto vão sendo sugadas para lá então avião ele fica meio disperso aqui Se eu colocar outras palavras tenham a ver com gol e partida e ficariam nesse meio aqui ó tá então o gol começa a deslocar para cá ó colocar para cá mas se eu ao invés de colocar
palavras aqui de Gol eu começar a colocar aqui e ticket né a aeroporto coisa desse tipo aí Gol começa a puxar para cá para avião entende porque eu tô falando desse tema Então veja nesse plano aqui ó nesse plano aqui ah sandec pelo amor eu veja o seguinte o plano é como se fosse esse quadrado aqui esse quadrado aqui trata sobre o tema Esporte ou o tema futebol beleza E esse quadrado aqui esse plano digamos assim trata sobre o tema transporte aéreo Ok então cada vez mais que eu colocar eh palavras nesse nesse plano aqui
mas essa palavra vai ser puxada para esse lado de cá vai tender para cá e depois tender para lá beleza por que que isso é importante hein ó eu vou parar aqui eu vou voltar para outra apresentação aqui aqui uma ol não fecha os olhos hein olhos hein completação completação das redes Transformer como funciona a Como como é que funciona exatamente a rede Transformer não é só o GPT o chat PT ou ou Cloud ai né ou Gemini é são os Transformers como é que eles funcionam eles trabalham com esse lance de tarefa de completação
tá é a tradução no inglês chatinho mas é exatamente isso que é a ideia de você completar uma frase baseado na entrada então quando fala assim ó a capital do Brasil é essa é a entrada meu input né meu prompt ele tem que responder isso então como é que ele faz essa aqui ó é o meu input tá vocês estão vendo agora já os tokens aí você viu que capital que tá quebrado né tem todos esses tokens aí então essa aqui é o input do transformer seja eu vou mostrar já já como é que a
gente consegue gerar esses tokens aqui código né mostrar os passos que é feito com o algoritmo de bpe eh bite pa encoding aqui ó Então vai sumir a interrogação vai vir aqui uma lista de probabilidades de palavras que podem representar a próxima palavra ou o próximo token vai entrar neste caso aqui nesta frase então Ó a completação vai dizer o seguinte bom a capital do Brasil é próximo token mais provável de ser usado aqui é um espaço tem 0.9 ou seja 90% de chance de ser ele já Brasil e Lia por Brasil e Lia hein
Porque Como como o capital tá capital está quebrado também como tokem entendeu então vamos lá ó veja bem V como é coisa fácil ó Então o próximo token a ser selecionado pelo Transformer vai ser exatamente esse aqui então ele junta e agora a entrada ele veja que é ele dá a saída ele pega essa saída e joga de novo para dentro próprio Transformer ele ele se ele se autoalimenta com essa entrada entende então ó veja bem agora a próxima entrada é exatamente a capital do Brasil é espaço aí ele vai procurar quais são as próximas
palavras né e ele achou Aí a palavra Brasil com 60% de chance de ser a próxima palavra vai colocar aqui Brasil eu aqui na verdade tinha uma provocação que acabou sei por que deu errado eu posso até fazer isso aqui agora aí eles aqui eu vou deixar já já agitadinho só para sacanagem seria né Entendeu então aí aí tá tá E aqui eu tenho também tem também aí aqui ó qual é a probabilidade de ser ser Aires a probilidade ser Aires vai ser o qu 0,2 e a probabilidade de ser buenos provocação né buenos entendeu
então ass aqui buenos seria maior Então seria mais ou menos assim né eu tenho Brasil Aires ou buenos Então seral a próxima palavra seria então Brasil aí eu junto ó e já viro o quê Já vir o próximo input tá E aí no próximo input quem é agora já tem o buenos AES ó ah agora o próximo é Lia né que é o próximo token só que ele vai juntar veja que não tem um espaço né então que do junto Brasil Brasília né então aqui ó é quebrar isso aqui né verdade Brasilia não deveria ter
esses dois Ls né mas tudo bem vocês relevam né o er aqui tem o er aqui tá Brasília né certo fica parecendo o caso lol falando aí né Carlos Portugal Brasília Portugal aí nossos português aí que tá toda exatamente então ó já temos aí Brasília terminou não qual seria o próximo token ponto né ponto ó pode ser também vírgula né se for o caso dele querer explicar mais al uma coisa então a completação é um processo que acontece Exatamente exatamente ass Esse é o output que a gente vai ter aí a capital do Brasil é
Brasília certo então é assim que o Transformer trabalha tá tem dúvida nso aqui então só voltando agora pra tokenização onde eu estou porque nesse processo tokenização é é interessante você entender como é que ele funciona né completação então vamos lá ó então a ponte Entre esses dois mundos seria exatamente os embeddings só que existe um processo pré embeddings que exatamente os tokens que é o fundamento dos embeds Então vamos em frente ó existe um algoritmo chamado bite pa en code também tem o outro V Mas e o pessoal do GPT usa É esse aqui que
eu quero ensar para vocês eles usam exatamente GPT c é isso Calma pra gente poder entender como é que funciona o algoritmo b pa encoding é o processo de tokenização do GPT tá pra gente poder chegar no embed a volta lascada não eu tô sendo completo na explicação tá calma ten paciência eu já te olha essa frase eu já te dei sorvete chocolate chiclete dei veja que é uma frase nordestina porque esse aquiete é bem da minha terra certo mas eu quero ver eu quero que vocês entendam aqui que tem algumas coisas que se repetem
né pô ó ó olha o sotaque ó eu já te dei sorvete chocolate chiclete jaquete menina certo veja Tem coisa que se repete aí ó CTO Tem coisa que se repete aí e isso eu coloquei de propósito pra gente poder ver como é que funciona o algoritmo de tokenização do GPT Então vamos lá ó primeiro passo primeira coisa que a gente faz transformar tudo em minúsculo ele faz isso tá por qu para não ficar confundindo palavra maiúsculo minúsculo então ele já pega transforma tudo minúsculo aqui ó eu já te dei sorvete chocolate chic B perceba
que ele mantém os tokens de vírgula ponto e exclamação tá nesse caso para o treinamento próximo passo é separar todos os caracteres da palavra então Por incrível que pareça quando você olha para token você não pode dizer que é uma palavra por quê Porque inicialmente o processo acontece Exatamente isso todas as palavras são quebradas por caracteres eu tenho a separação veja aqui ó eu tenho aqui uma matriz né Vamos aprender esse Python mas quando eu abro esse cochete Zinho aqui ó eu tenho uma uma entrada de matriz e onde eu tenho verdade que não é
bem uma matriz mas assim é mas faz de conta né e eu tenho aqui então uma uma uma uma uma quebra ó cada cada cada palavra ó ela já não tem mais os seus caracteres juntos separados aqui por vírgula ó elementos do vetor então é uma matriz de Vetor tem um ventor Zinho aqui dentro ó e u g j a t e d i s o r v te e tá vendo Então tá tudo quebrado todas as palavras sumiram por isso que você não pode dizer que tokem é palavra beleza primeira coisa que você fica
aprendendo e você não pode dizer que o token é uma palavra porque o GPT né a o processo tokenização quebra todas as palavras e separadas em caracteres beleza tokens são palavras pessoal então tokens são caracteres [Risadas] não também não certo vamos lá vamos aprender Eh vamos em frente ó próximo passo aqui conte os pares que mais se repetem em todas as palavras pera aí bicho que loucura é essa conta os pares que mais se repetem por exemplo olha os pares que mais o mais os pares ó por exemplo e e u é um P ele
se repete aqui não então Ó então aqui é um par eu po e ele não se repete Beleza você tem que ver que se repete é o que estão junto um do outro ó por exemplo J tá perto do outro Te d e Então veja aqui pares ó D com e e e com i certo Esses são os pares s o o com R R com v p com e e com t t com e vocês já perceberam Quais são os pares que mais se repetem aí Já conseguiram identificar Quem souber já levanta a mão
e fala para mim microfone ou escreve aqui no grupo canal ou escreve no grupo do do me do T com é te T com é T com é te te né te Ó tem tem te aqui tem tem te aqui dois tem te aqui três tem te aqui quatro tem aqui cinco tem mais tem outro aqui ó tem te aqui no ti aquiet né seis então eu tenho seis TSA se T com e e e qual são Então esse é esse é o primeiro aí tem aqui ó ch CH e não tem mais beleza então
quando você olha para esse processo eu tenho ó o t com e que se repete aí seis vezes então vou contar a quantidade de depois o ET veja aqui ó o t com e e o ET né por isso que eu coloquei de proposta as palavras sorvete chocolate chiclete e quiet entendeu propósito pra gente ter essa repetição vocês poderem ver então ó e esse é e com T aqui repetiu ó repetiu Beleza então tem três vezes aqui ó e agora eu tenho o ch né o ch que é três vezes todos os outros pares só
aparece uma vez e com u j com a e v com e certo e assim vai m com e n com i n com a e com n aluma coisa assim ele faz essa Contagem Toda vez que você recebe Toda vez que você recebe uma toda vez que ele recebe um par promp uma sequência de palavras ele faz trabalho segundoo é que eu tô quase vendo a luz lá olha só agora vi o o quarto passo do Bing code bpe você tem que juntar o par mais frequente no texto Qual é o par mais frequente
não é T com é essas animações ajudam para caramba né o pessoal do doutorado adorou isso aqui eu junto aqui T com e eu junto aqui o t com e eu junto aqui J aqui beleza entendeu então agora eu já não tenho mais um par Eu tenho um token ok uma parte junta só tá aí agora eu vou repetir o processo de novo vou repetir o passo TR de contar os pares que mais se repetem todas as palavras digam agora Quais são os pares que mais se repetem consem ver aí ah Sand Com certeza é
o CH e com e qual que é vai chutando aí consegue enxergar num solução comum vocês vão se surpreender Quais são os pares que mais se repetem aí galera o par mais se repete aqui ó é o e com te porque te já não é mais separado é uma coisa é uma unidade só entende é uma unidade só então agora é é ITE né o e e te né e e t o t né E são os que mais se repetem aí continua ainda tendo o ch sendo dois os outros todo mundo um Então o
próximo passo qual que é juntar um par mais frequente veja que não é um algoritmo difícil de entendera comigo não é muito fácil basta você saber quem explica né basta você explicar muito bem em detalhes como a coisa funciona agora você sabe Você tá sabendo como é que funciona dentro do chat ept para a criação de tokens juntou todo mundo ó vou juntar aqui esse esses esses essas três letras aí combinadas certo formam o mais prevalente agora né e agora é uma coisa só Então pergunta Vamos repetir o passo de novo que ele vai repetir
isso um loop né Vocês vão aprender isso na no curso de Python como é que faz esse Loop né repetir n vezes uma coisa vou explicar como é que funciona isso podemos até escrever esse algoritmo aqui ó no curso de B seria interessante né é que funciona seria M legal então ó eh Vamos repetir o passo três e o passo quatro né Então o próximo aqui ó vai ser o seguinte eu vou juntar quem ch beleza CH e agora agora todos os pares são iguais a um você veja aqui já tem partes de partes de
tokens se formando alguma coisa já está acontecendo E aí ó quando você tem empate você pega o primeiro e junta Então nesse caso como é tudo igual a um eu vou pegar quem eu eu é o primeiro aí o próximo ó já aí o próximo ti aí o próximo D D E aí o próximo d i Você Vai juntando ó as palavras só agora tem um alerta aqui você veja que se eu ficar repetindo muito seja porque eu tenho que repetir n vezes né esse loop tem ele ele se eu se ele tender ao infinito
Você concorda que tudo isso vai virar palavra de novo né vai virar isso aqui ó Então para que que eu fiz isso brother se eu colocar um n muito grande ou seja se eu colocar um n do tamanho do vocabulário do do tamanho vocabulário que tem né da minha da da minha área de aprendizado eu ao invés de eu ter pedaços de palavras né que é o que eu quero que é o importante e eu vou ter o quê todas as palavras de novo certo e qual é a importância de eu de eu ter ao
invés de ter palavras grandes demais ter todas as palavras certinhas ter palavras quebradas em tokens porque principalmente no português né Tem um lance do tal do prefixo tem o lance do tal do sufixo entendeu essas palavras quando quando você tira o sufixo Fica somente a raiz da palavra acorda então é interessante você ter o sufixo por exemplo como eu falei Brasília né você ter Brasil e o ia separado porque tem muita coisa que fala de Brasil Brasil Brasil Brasil Brasil quando eu falar de Brasil eu vou trazer Brasil me quando eu trago a palavra Bras
o Brasil de Brasília eu trago para perto do meu texto da gravidade que eu tô falando eu trago o Brasil o li vem junto o reboque entendeu algoritmo de vocês vão aprender mais PR frente sobre mecanismo de atenção do transformer ele vem junto entendeu Por isso que quebrado é mais interessante se ficar falando de Brasil e deixar Brasília separado Deu para entender esse lance aí então se você colocar um n muito grande nessa repetição ó vai acontecer que tudo vai virar palavra e não vai ser as palavras não terão essas quebras né Outra coisa interessante
também é o seguinte já viu que quando a gente escreve alguma coisa errado chat PT consegue se recuperar e entende o que a gente fala é exatamente por causa do Token quando a gente tem um token que ele quebra a palavra el se ele pegar a parte correta parte da palavra correta ele vai conseguir ele vai conseguir corrigir você disse olha que sacada velho S Transformer entendeu porque aí você tem o seguinte você tem o lance de você trazer para perto parte da palavra que está correta se você fez a grafia da parte errada Tudo
bem ela vai ficar errada ali mas ela vai trazer né as palavras que são corretas por isso que ele se consegue se adaptar entendeu muito mais fácil do que outros algoritmos Então porque a tokenização esse processo de quebrar as palavras não deixar sempre faz com que Facilite o processo de entendimento tá agora se o n for pequeno demais aí Tudo vira caracter também né Beleza sandec então qual é o melhor n bicho então muito bem bem-vindo ao mundo do dilema da Inteligência Artificial certo quando você vai conversar sobre inteligência artificial vai vai aprender sear tem
que entender que tudo eu sempre falo isso olha na aula passada no vídeo passado eu falei na computação tudo é então per de ganha então per de ganha você tem que estar o tempo inteiro ali ó trabalhando com esse per de ganha trabalhando com esse P de ganha veja que se meu n for grande deais eu tenho palavras se for pequeno demais eu tenho o quê eh só caracteres então o ideal é que você tenha um um um uma quantidade de de nes certo que consiga te entregar uma coisa mais ou menos assim ó certo
Você veja que eu tenho o ET o let né o meni na porque você vai ter partes de palavras e a gente já sabe que com partes de palavras eu consigo me recuperar se houver erro eu me consigo me recuperar de trazer partes de palavras né e outras vem a reboque certo esse processo eh esse essa questão de trazer palavras a reboque vocês vão ver mais paraa frente que tem um lance que são eh que quando as coisas são feitas de forma sequencial o que estão próximos a gente consegue matematicamente fazer uma transformação e de
seno e cosseno para fazer com que essas palavras estejam representadas juntos entendeu isso é mais paraa frente não precisa se preocupar não mas saiba que por exemplo uma sub palalavra quando é trazida a outra vem junto certo a outra vem junto tá então o que eu quero é uma coisa mais ou menos assim ó esse é esse é a tokenização tá então você pergunta agora eu vou voltar a pergunta para vocês o que são tokens que são tokens p aqui do it a que são Tok você definiria os tokens uma combinação de palavras não né
quase isso né uma combinação de palavras são tokens pode ser uma combinação de caracteres Beleza com certeza baseado nas palavras né uma combinação de de letras é uma combinação a gente chama de car eu sei que você v como letras por causa mas a computação a chama de caracter certo então seria uma combinação de caracteres baseado num determinado determinada um processo de combinação dado dado um tamanho de espaço onde ele vai iterar essa combinação mais ou menos veja que não é palavras veja que não é caracteres Mas é uma coisa meio Lem entendeu então quando
o pessoal Ah não eu tenho uns tokens que são palavras cara tá errado beleza já como você tá olhando no YouTube Você já sabe beleza isso Gostei da definição do Joaquim Barreto aqui é uma forma de codificar as palavras tornar mais fácil seu processamento exatamente claro que deve tem sempre o GPT que ajuda aí mas muito bom muito bom mas é isso aí Então veja como é que a gente define esse n aí esse n aí ó ele pode ser primeiro ajustado ajustado a partir do tamanho do Corpus que que é Corpus Sandé que é
um corpo é o corpo é é o corpo de quem o Corpus nada mais é que a coleção de textos né a gente chama isso de Corpus tá coleção de textos que você treinar lá o GPT Ele leu boa parte da internet Esse é o Corpus do GPT certo se eu colocar lá eh o tamanho do n né que vai fazer essa interação para juntar os caracteres beleza do tamanho da do do meu do meu no meu Corpus eu vou ter só palavras se eu colocar muito pequeno eu vou ter só caracteres eu vou ter
que ajustar esse n baseado alguma regra certo essa regra ela é isso mesmo tá pessoal el esse dilema E é isso que exige veja não adianta o cara só dizer você que ele é especialista em Inteligência Artificial se ele ele não sabe nem os dilemas da ia entendeu vai ser especialista na casa lá porque a inteligência artificial ela é absurdamente cheia de dilemas olha aqui um dilema que eu tô como é que eu defino esse n brother eu sei que não pode ser tudo eu eu sei que não pode ser nada tem que ser alguma
coisa no meio mas quanto que é esse meio aí brother entendeu É já vem mentoria de 6k exatamente né Exatamente pode falar vor professora e aí é onde entra aquelas métricas de similaridade lá Cine não sei como que agora perdi não é agora não não é agora não agora não ess é mais para frente tá PR frente agora Não beleza Fala Carlos OK agora tá e quando se faz essa toca com aqueles pares é só para são as as letras quando é por exemplo o pontos de exclamação vírgulas e os outros sinais também existe também
fazem esse esse esse tipo de pares também com com com vírgula é caráter caracter beleza é caracter do mesmo então se ela é parecida se aparece tipo assim um um te com uma vírgula a seguir vai aparecer repetidamente vai fazer o mesmo processo Mas você pode você aí você tem aquelas é mais um dilema concorda ó olha o dilema eu junto o caracter na palavra eu deixo sempre eu eu crio uma regra forçando eu junto a acentuação né a pontos as vgas exclamação interrogação eu junto com as palavras tirando os tokens ou eu eu deixo
separado o que que é melhor que é melhor aí o cara que se acha especialista de fala assim não deixa tudo junto pesquisador faz o seguinte cara eu não sei eu só sei testando velho eu ten que pegar fazer essa coisa acontecer e tem que testar ele para para testar qu saber qual qual o que tá melhorando certo e sei que isso ainda não é nem o melhor ainda posição Eduardo Lopes lá não seria o caso de ter como se fosse um if no código para que ele comparasse a última formação que fica Idêntica a
inicial e retornar um ponto antes para deixar as separações das das Letras Não porque você tem como você tem um Corpus grande demais você não sabe qual é exatamente ideal né como é que é o ideal das palavras separadas é metade da palavra é porque na verdade o computador não entende a palavra eu tô entendendo mas o computador não entende o que que é uma palavra S ele tá vendo que é só um emaranhado de caracteres precisa de uma regra certo e é esse que a gente tá tratando uma regra para poder juntar esses caracteres
é isso o que se sabe é é melhor que você tenha palavras e subp palavras certo isso é sabido Tecnicamente falando testado na ciência certo e da Computação né Eu como cientista da Computação tô falando foi provado que é melhor você ter palavras e subpav monar dessa forma agora até que nível que é essa sub palalavra Será que eu chocolate eu deveria só colocar o late ou deveria colocar o choco a não se sabe muito bem esse Limiar aí é muito nebuloso cara entendeu é muito nebuloso certo então por exemplo eu posso ajustar esse n
baseado no tamanho do Corpus se eu tenho por exemplo 200.000 palavras é o tamanho do meu do Corpus certo eu vocabulário é 200.000 palavras posso fazer um n posso criar uma regra tipo assim ah o meu n vai ser o quê eh raiz qu n certo ou log de n por exemplo ou eu posso fazer n Men n menos tanto n Men se eu não sei quanto que é esse n eu só sei que eu preciso de uma regra definir esse n aí os caras começaram a testar isso não vou fazer o seguinte n dividido
por 2 Vai dar lá um Vai dar lá um token certo vai ficar bom ou vai ficar ruim tem que testar a inteligência artificial tem esse processo esses dilemas que você diz assim sandec caramba velho não tem um jeito melhor não não tem brother você tem que testar mesmo tem tem que ralar e fazer a coisa quando você encontra alguma coisa que é melhor que a outra O que que você faz escreve um artigo sem provando que você melhorou a sua a técnica Fala Daniel não tô conseguindo colar o link não acho que é por
falta de moderação o YouTube tá bloqueando alguma tá no chat aí ó já tá no chat galera pode entrar no grupo do WhatsApp nosso tá nosso grupo tá você querem participar com a gente então como eu estava falando né esse Corpus eu não sei o tamanho então precisa ser definido outra técnica é o seguinte ó eu vou fazer ali conforme na baseado na frequência de tokens né eu estabeleço um limado de frequência mínima por exemplo tokens podem ter até tantas frequências mas isso aqui não faz muito sentido pra gente próximo passo é baseado no modelo
Ou seja a gente ajusta com base em requisitos e tarefas mas o melhor mesmo afal das contas é você usar baseado em performance e validação você define n você vai treinando a medida que você vai achando uma melhor acurácia né uma melhor saída do transformer Este é o n melhor paraele até isso varia de conjuntos conjuntos de dados entendeu então a própria Inteligência Artificial vai definir qual é esse melhor n dúvida sandeco basicamente é aquele joinha lá quando ele dá a resposta então e a gente dá o joinha porque aí ele entende que aquilo ali
é o ponto certo é tipo isso entendeu então ele vai ele vai fazendo ele vai atribuindo nes e vai verificando na hora do treinamento baseado nessa validação Qual é o n ideal disso aí Maravilha é isso então agora eu vou fazer bom chegamos agora nos embeds né temos o token agora vamos criar embeds de tokens tá em frente e aqui vou sair aqui sa nossas aulas são ah não já já a gente vamos aqui então paraos embeds efetivamente at quef que é bed entenderam O que é token você percebe que o token não é uma
palavra efetivamente né aquela coisa então vamos lá ó embeds o que que são eds tá embeds então mais uma vez né Falando que bom com palavras o homem é bom com palavra a máquina bom esses dois eu tenho exatamente os embeds que que são esses embeds de tokens representado por esses Olha só eu tenho esses tokens aqui que eu defini certo então assim próprio algoritmo do do bpe ajudou para criar esses tokens pra gente aqui ve que eu ten palavras e sub palavras eu vou fazer é que cada token agora vai virar uma feature em
uma tabela de dados Olha só como é que é isso Ó vou fazer o seguinte ó uma tabelinha de dados certo eu tenho ó veja aqui eu tenho eu já tii sorvete aí Aqui tá o me da frase menina a exclamação atrelado a cada token certo at trel eu vou criar então uma sequência de números tá aqui esses números eles são definidos de forma aleatória aleatório aleatório aí para você entender Por que é aleatório você entender o a gente chama de estocástico da Inteligência Artificial e o da otimização primeiramente ele joga dados aleatórios E à
medida que ele joga os dados aleat lá o você vai perceber que o frente né que o Transformer ele vai ajustando esses valores esses valores são exatamente os pesos né S pesos que são criados da rede neural a medida que ele vai aprendendo contexto vai aprender com contextos esses valores vão certo variando forma que ele vai acertando cada vez mais que você vaiando n seu você vai usando o texto para poder prever o próximo então você veja o seguinte esse processo ele é feito repetido também n vezes ó n vezes certo a gente chama de
épocas Inteligência Artificial Quando você vai treinar uma rede é o mesmo processo para quem fez comigo o a mentoria learning lembra que a gente tinha lá os kos né da rede neural convolucional lemam disso então é a mesma coisa aqui então aqui é algo que vai ser aprendido pelo um algoritmo muito famoso chamado back propagation então o back propagation é um algoritmo que atualiza esses esses esses erros esses pesos aqui inicialmente ele vai tentando acertar vai errar muitoo muito mesmo certo mas à medida do tempo ele vai começando a acertar que esse erro cai drasticamente
que é exatamente a acurácia nosso modelo então você você consegue avaliar se um modelo é melhor que o outro baseado exatamente nessa acurácia de treinamento de um modelo certo onde ele vai variando esses números aí para poder encontrar né Qual o melhor melhores as menores digamos assim que esses números aqui ó representem pequenas sinapses da nossa rede neural que inicialmente é uma sinapse totalmente louca certo mas a medida que ele vai errando vai aprendendo com back propagation porque propagation faz Exatamente isso ele retropropagação aprende aprende vai aprendendo com erro ela vai melhorando nessa tarefa que
ela tá fazendo que no caso aqui é de entender esse texto certo então essa aqui esses números aqui são como se fosse sinapses e ele começa de valores randômicos tá a a quantidade de valores que eu defini aqui ó vai definir quem o tamanho do meu embedding o embedding é a é são esses valores aqui ó que representam e Z beds é uma sequência de valores que representam um token inicialmente é assim tá então eu tenho embeds de token tenho embeds de posição tenho em beds de texto e é a combinação de textos e aí
eu tenho lista de representa um dúvida veja bem ó o por ex tem 768 valores que representam token E aí quando você pega isso multiplica pela quantidade de palavras ou pela quantidade de tokens né 340 milhões de informaçõezinhas dessas aqui do céu pera aí deixa eu entender uma coisa pera aí pera aí pera aí pera aí pera aí pera pera pera tudo O que são ess os parâmetros de uma rede neural já viu por exemplo Lhama o Lhama e Meu microfone tá baixo tá tá chegando bem aí chegando bem e o pessoal da transmissão também
me dá uma um pessoal do canal aqui tá ao vivo comigo no You me dá um retorno por favor se tá chegando bem meu áudio Às vezes a máquina aqui ela dá umas loucuras e reduz emissão de informação sandeco do céu então pera aí se eu pegar por cada token 768 informações multiplicar pelo tamanho né se eu multiplicar pelo tamanho de tokens baseado na entrada de textos eu vou ter a quantidade de parâmetros exatamente ele tokenização e vai criando esses essas esses embeds beleza ó ó o gpt2 o gpt2 tamanho do embed veja quanto maior
for esse embed ele vai ser melhor porque o que acontece é que quando você aumenta o tamanho do imbed ele ele sabe aquele plano cartesiano lá ele aumenta também bom o valor aqui ó esse valor 281 é 3D certo aqui já é 4D aqui já é 6D né quando você tem 768 eu tenho uma uma projeção 768 D certo isso coloca o tokem no lugar matemática é possível isso certo tem informação a gente vive a gente vive no espaço 4D né 4D não sei se vocês sabem altura largura profundidade e e eu tenho também o
tempo então são 4D 4D não é 3D não tá gente 4D agora o Bert por exemplo vive em 768 D a dimensão dele na matemática é possível esse tipo né no gpt2 também e perceba o seguinte nesse plano nesse nesse nesse espaço vetorial digamos assim é o eu tá lá num canto o já tá no outro entendeu E eles podem a medida que você vai mexendo com eles vão se juntando nesse plano só que você não consegue imaginar um espaço 768 D né complicado só a matemática consegue fazer isso mas imagina se eu pudesse criar
isso né visualmente não tem como né Tudo bem agora o gpt2 O2 tá tem 1024 eh informações de números por token né é o embed dele o tamanho é 1024 E aí eu tenho 1.5 bilhão de parâmetros por quê Porque eu pego 1024 e multiplico pelo meu pelo meu vocabulário aí pelo meu pelos meus tokens entendeu Ah então Tô sacando qual é gpt3 E5 12.000 gpt3 12. 288 Qual o tamanho desse troço 175 bilhões de parâmetros olha os parâmetros parâmetros certo aí você vem pro GPT 4 bom GPT 4 a Open não publicou a quantidade
de tamanho do embed né des lá certo que eles usam para treinamento tá bom o embed de treinamento é diferente do veja que o embed de token é diferente do embed de texto porque o embed de texto é a combinação de todas as palavras vai sair um vetor só é o que a gente vai mexer hoje a gente tem o imbed de Treinamento que é o imbed de token e o embed de texto tá Então veja que o GPT 4 ele não disponibilizou mas tem 1.7 trilhão de parâmetros É isso aí como eles também não
disponibilizaram o tamanho do do o tamanho do Corpus que eles trabalharam né a quantidade de texto A gente também não tem como dizer E aí bastaria fazer essa multiplicação essa divisão né Essa continha aí para achar mas não tem como fazer porque a gente não sabe o tamanho beleza dúvida essa esse parâmetro aqui ó é mais um dilema da Inteligência Artificial chamado de mod Qual é o melhor tamanho qual seria o melhor tamanho menor maior qual seria o melhor tamanho certo isso é um dilema iso é um dilema pode pode fazer pergunta mest porque eu
tô com a mão levantada aqui daqui a pouco a gente vai para outro assunto aí posso pod perder o contexto aqui da da dúvida ou ou é melhor depois não pode fazer quando a gente fala em rede social nós estamos falando em seres humanos né que usam texto né texto palavras mas aí quem tá lidando com isso é computador e as redes sociais lidam desta mesma forma fazem essa mesma entre aspas interpretação do que os seres humanos escrevem para para reter informação para aprender enfim ou é provavelmente é assim tá mais baixo uns Deixa eu
só fazer uma coisa aqui rapidinho problema eu tô tô fazendo essa pergunta porque foi dito ali que a tá se se desligar uma rede social ela vai deixar de aprender vai morrer vai ficar burra aí eu falei uai será que é por causa disso porque tá falando agora que ele vai aprendendo né falei uai será que é a mesma coisa por isso a pergunta não é a rede a rede social vai usar essa mesma estrutura essa mesma ideia de aprendizado com informação o Corpus dela vai ser o quê a própria rede social tá os gpts
E essas redes aqui elas também usam informação de rede social como entrada de dados né Então aprende tudo da mesma forma certo basicamente usa transforma para aprendizagem Com certeza Luiz mão pode per Ah sim Professor só a dúvida em relação aess embeds de tokens e o embed de valores a forma que eles se relacionam né no seguinte sentido eu já então eu ele teria eh se esse 0.2 em relação ao já mas esse 0.8 ele estaria relacionado por exemplo a eu estou e um outro eh em beding de tokens essa seria a relação ou não
é os embed são o seguinte os os tokens eles podem até se repetir tá por exemplo eu já te dei esse eu aqui é um token o outro eu lá que se que juntou de outro texo é outro token vai ter mais que um eu não tem somente um eu dentro do T que acontece esse esse eu aqui ele esse valor aqui ele não tem n nenhuma relação com esse já pelo menos por enquanto nenhuma relação ele é totalmente isolado tá vai ter relação no Transformer num processo chamado positional encoding e é uma é um
processo onde você faz multiplicações com com cenos e cossenos certo para você poder determinar a sequência do texto entende vou explicar isso melhor no no na na série de de de transformer mas por enquanto você entenda que aqui nesse processo aqui o embed este embed especificamente não tem nada a ver com isso aqui até porque pode ser que esse embed aqui seja processado na GPU e esse aqui em outro Eles serão totalmente Independentes um do outro dentro do transformer eles só só entenderão a sequência um do outro quando eles forem somados coming eles são vinculados
via position encoding né que é faz parte do transformer é é o próximo passo Transformer seria exatamente não en coding mas quando eles forem serem processados aqui paraa rede aprender Esses tokens são todos separadinhos eles trabalham em gpus diferentes entendeu E aí por causa da multiplicação que a gente fez no position en coding aí o transforming sabe quem é que tá perto de quem basicamente eu não quero complicar essa isso mais para vocês não porque vocês vão vai confundir tá mas mas entenda o seguinte esse número especificamente aqui que foi gerado aleatoriamente não vai ter
nenhuma relação pelo menos inicialmente com esse já só depois que ele passar por dentro do fala Senor professor me ouve Professor diga Beleza obrigada eh a a minha dúvida é a seguinte Professor Ah eu eu participo de grupos aí de que estudam filosofia do direito né E aí aquela viagem louca lá e aí uma uma das objeções que tem com relação a à à Inteligência Artificial seria mais ou menos o seguinte eu vou tentar também ser breve ilustrar num num exemplo simples eh se eu tiver um determinado autor por exemplo que é bem profundo né
E aí Digamos que a Ampla maioria das pessoas que falam sobre ele falam de forma bem superficial então elas escrevem vamos dizer assim escrevem colocam na internet e publicam só que são publicações que não aprofundam muito e tem uma minoria ali que é que é efetivamente as pessoas que entendem falam de forma profunda eu posso considerar então que na na hora que o o a inteligência artificial for fazer ali essa probabilidade ela vai acabar adotando a ideia dessa galera que é mais superficial ou não tem uma ligação eu tô perguntando você você não tem veja
bem veja bem eu vou volar um pouquinho para exatamente te responder eh como eu não sei GPT 4 tem 1.7 trilhão de par se foi divulgado né calculado agora você não você não tem por exemplo o tamanho do embed e você não tem o Corpus para poder calcular porque se eu tivesse o tamanho do Corpus ou o que que ele leu né para poder aprender aí com certeza eu poderia eu poderia S ajustar aqui umas coisas sendo meio cortado pessoal eu poderia calcular esse tamanho Mas eu não tenho certeza você não pode você não pode
dizer com certeza quais são os tipos de texto que que o GPT leu se foi o superficial ou se foi o profundo entendeu Entendi não tem como você por exemplo exemp Ah isso isso é é um achismo certo da área de direito é um achismo assim tô dizendo cientificamente falando tá todo respeito não tranquilo tranquilo profess todo respeito pelo amor de Deus mas é um achismo porque você não tem você não tem a você não tem a certeza de que os textos que foram processados foram os textos profundos ou os textos ralinhos Entendeu entendi é
possível você determinar S só ar Professor uma segunda pergunta esse caso seria o caso vamos imaginar que isso fosse uma verdade que realmente os superficiais tivessem sido escolhidos ali você sentiria no texto de saída você sentiria no texto de saída do do GPT a superficialidade da resposta não eu eu digo assim professor eu resolveria isso seria o caso de eu resolver com fitan se eu percebesse que os textos superficiais estão predominando eu resolveria isso com fitan para que aquela massa de textos que eu tenho que são mais profundos passassem a ser o que a a
inteligência adotar é veja bem na Inteligência Artificial resolve uma palavra muito forte entendeu você atenua né você melhora você dá aquela aumenta a acurácia digamos assim mas resolver é uma palavra muito forte e eu não diria nunca ela porque aí você o que que você vai fazer você vai tentar melhorar a curaça de saída beleza mas Obviamente você tá ali sempre atento no que tá saindo né é isso beleza Beleza Pedro caitano fala doutor tudo bem de falar eh qual que é a diferença de embed de texto para embed de token bom embed de token
a gente tá vendo aquele agora certo aham sim o embed de texto é quando você pega o texto passa ele inteiro no Transformer ele vai sair uma informação lá no fim Hum entendi esse beding de texto é o que nós vamos gerar ele hoje para o GPT ele tem um tamanho de GPT você usar o 4 né não nem o qu é o GPT emb beding na verdade é algo muito específico ele tem os tamanhos lá de 1096 uma coisa assim e o outro é 3000 e pouquinho coisa assim esse é o imbed de texto
eu pego um grande texto GPT já está treinado eu passo por dentro desse desse GPT o texto lá no fim ele vai me entregar uma um vetor de informação certo que representa que representa a aquele texto entendi entendi entenda entenda o embed também pessoal como se fosse a assinatura de alguma coisa por exemplo eu posso dizer que essa esse essa esse conjunto de números aqui representa esse eu aqui certo matematicamente tá esse conjunto de númer representa esse eu aqui é como se é como se eu pegasse esse eu levasse no cartório disse assim ó Assina
aqui para dizer que ele é ele então vai ser é assinatura entendeu agora esse embed token agora no embed em texto eu pego um texto inteiro passo por dentro do transformer e lá no fim ele vai me gerar ao invés Dee gerar uma palavra de saída ele vai me gerar aquela aquela aquele vetor de probabilidades com com os com os tokens entendeu certo e aí eu ten Ed o Ed de token vai depender ali do contexto da do do texto Então o embed de token vai depender desse contexto sim com certeza é o treinamento né
Sim certo posso em frente é é inclusive outra llm lá dentro da out dentro do universo da Open a são são duas ou três algumas llms para embed né professor é mas aí são embed de texto Então veja diferença quando o cara fala de emb beding né Aí você diz assim mas a pergunta para ele Ah o cara vamos gerar um embed essa pergunta mas embed de Tok ou embed de texto o cara assim embed pô [Risadas] bed Ô existe alguma ferramenta que gera me quebra que eu sou especialista na dear não me quebra não
me denuncia pô vamos em frente ó Então eu tenho aqui esse parâmetro que é o dem Model que é o mais um dilema como é que eu defino Esse demel é grande pequeno é médio certo eu preciso definir ele mas esse demod é interessante a gente entender ele que acontece ó o demel ele é definido por um valor par sempre tá ele é Obrigatoriamente par porque eu vou ter que depois passar uma transformação como eu falei de seno e cosseno onde cada valor desse vai ser um seno e depois o cosseno por Pinhos entendeu É
bem interessante como a gente vai usar ISO depois tem que ser um par Obrigatoriamente 6 o pode ser uma coisa você pode ver que exatamente tá acontecendo isso né valores né pares né tem um porquê é diferente do KNN que os valores são ímpares né Obrigatoriamente vocês lembram disso por que que KNN é ímpar alguém pode dizer KNN por que que eu uso Ô rapaz o rall tá aqui ó bicho ô rão como é que você tá cara tudo bem Um amigo meu aqui velho das antigas grande abraço cara gente e o KNN a gente
usa sempre ímpar porque o KNN é uma votação né é é é é a ideia mais ou menos da do STF Por que que o STF é ímpar ué se eu deixar P vai dar impat É impat quem decide entendeu então o KN ele tem que tomar decisão então ele tem que ser ímpar tomar decisão Então tem que ser ou um ou três ou ou cinco ou sete ou 11 né ele nunca pode ser um par aqui não aqui tem que ser par Obrigatoriamente detalhes Que diferença então aqui ó já tô simulando aqui como é
que seriam esses embeds tá aqui é aleatório né valores aleatórios eu teria os tokens do meio de tabela importante saber que tokens podem se repetir você pode ver que esse ET aqui se repete não é o ET ele não se repete em algum lugar e agora eu tenho aqui ó é por exemplo o t repeti duas vezes no meu texto lá mas ele tem que tá aqui Tok repetido e no outras outras técnicas não tem essa repetição o que gera mais informação pro Transformer e faz com que o Transformer seja mais pesado e faz com
que o Transformer tem bilhões de parâmetros que a gente não consegue rodar na Nosa agora você sabe por quê Por causa da tokenização e por causa do tamanho dos embeds de tokens certo is aí então agora o que que eu vou fazer ó os embed de tokens eu vou dar o número para eles ó 0 1 2 3 4 5 n - 3 N -2 e-1 tá porque começa com zero né então aqui são as informações Então vamos lá vamos em frente aqui ó Quais são os melhores valores para os pesos de embeds aí bicho
eu não sei eu tenho que trabalhar isso com back propagation back propagation que vai atualizar isso aqui tá eu só considero uma pessoa especialista em Inteligência Artificial se ele já fez alguma vez na mão o back propagation caso contrário srio mesmo tem que saber como é que funciona isso aqui um especialista de inteligência Aral se ele não souber o que é um bre propagation ele não é especialista em i não éa sério qualquer pessoa pode aprender no meu canal tem vídeo sobre back propagation se quiser aprender como é que funciona ele tá lá mas tem
que saber como é que funciona o back propagation por qu porque é o algoritmo que faz a atualização de todas as redes neurais que existem no mundo se o cara não conhece não sabe nem o que que é o back propagation não vem com papo dizer que você é especialista em porque você não é ponto é que você tá radical hoje tô tô de cabeça da perceberam né minha irritabilidade agora t aproveitar a irritabilidade sendo sincero né É mas é verdade né cara então o cara não sabe nem o que que é se pergunta pro
cara o que que é o back propag back quem pera aí brother tem que saber né u ou então vai lá no canal lá tem no meu meu canal é um dos É com certeza um dos algoritmos mais difíceis da Inteligência Artificial tá com certeza um dos mais difíceis da Computação por isso que os caras uma coisa po que os caras se cagam por causa desse desse algoritmo aqui endeu mas eh para vocês que estão aqui mexendo com essas coisas não precisa você saber do back propagation né mas não se arvora dizer que você é
um especialista em ia porque você não será se não souber isso aqui eu digo todos os meus alunos eu digo isso você eu só vou considerar você um especialista em a escrever um back propagation em Python me entregar ele funcionar É isso aí entender o bicho funcionando e fazer funcionando teve um cara aula passada fazendo mestrado el passou 4 anos para entender esse propagation a quando foi disciplina fale cara primira vez que teve aula comig você vai entender ess garant que você vai entender bicho fou Lou entend prame no out dia entreou assa eu fiquei
maluc porquea eu passei quase um ano preparando a aula de back propagation pro Canal não tem Eu sinceramente eu tenho o maior orgulho do mundo dessa minha série ti lá no meu canal e tem especificamente ber propague já recebi elogios de muitos lugares USP certo Unicamp UFRJ a galera sandeco merda ficou muito boa essa ideia porque eu quebrei a ideia do B propagation transformei ele em várias animações para poder a pessoa entender só para você ter ideia dentro dele você tem que trabalhar com privada de cálculo é um negócio louco demais só que para o
cara ser um especialista efetivamente em inteligência Aral tem que saber e é ele que atualiza aqui os da rede neural beleza galera não tô sendo arrogante não tô sendo só eh defensor da ciência pró da ciência tá porque cara e charlatanismo tem demais por aí eu sado com isso é isso aí vamos então tem o o processo da propagação que é quando ele propaga esses pesos pra frente do transformer e tem o processo da retropropagação onde ele passa os erros voltando atualizando os pesos da rede neural melhorando a rede neural Beleza quando ele processa retropropagandas
aí agora o cálculo para fazer esse troço é um negócio dos infernos mas tá lá você pode olhar que você pode até não entender o cálculo mas a A lógica é você vai entender tá lá no meu canal gratuito para vocês ô ô Daniel vê se tu consegue pegar para mim o o link da playlist propagation depois o link também da playlist de eu vou colar aqui aqui colar aqui no pessoal aqui do transmissão pergunta do YouTube aía lata é por isso que o mesmo Prom tem um número diferente de tokens rodando ele na Open
na antropic Ah um Pera aí é por isso de token é por iso tem um número diferente de to sim André porque acontece isso vai depender muito do processo de tokenização de cada uma das redes beleza certeza e também tem um detalhe a gente não sabe o tamanho dessas redes em termos de tamanho desse aqui GPT escond tamb vamos supor que o GPT Coloca aí 400 taman de000 não sabe o cálculo da diferença diferença de janela contexto já já Vocês estão vendo a janela de contexto mas CONSEG dizer que é ela aí treino ten Trein
agorao tto aqui por dentro Ger de sa ol S janela de contexto que que é qual que outra out essa aí prop prop a de tem propagation Opa separado porque tem o pessoal das Universidades quando procura já tá lá ok e cadê a outra maravilhoso essa outra aqui é essa é outra aí aqui é Deep learn né obrigado demais Daniel você é o melhor disponha elho vai ficar bom logo se Deus quiser tomar orando por isso janela de contexto Olha isso ó Que que é janela de contexto é a quantidade processado é muitos óbvio né
se eu tenho a quantidade de vamos supor que eu tenho aqui ó esse n-1 é é 200000 certo esse n-1 aqui é 200.000 e é o tamanho do meu Corpus tá 200.000 então acontece eu tenho Como processar tudo isso de uma vez só ou tamanho do meu Corpus são sei lá eh 5 qu trilhões de tokens eu não tenho como processar tudo isso de uma vez só eu tenho que ir processando aos poucos né Vocês lembram do da completação lá no início eu dou um tamanho de entrada e ele vai completando essa saída então óbvio
que a qud contexto eu definir um contexto aqui ó tamanho 4 meu contexto vai ser o qu vai ser essa entrada de tokens Ou seja a janela de contexto é a quantidade de tokens quear por vez faz sentido Não faz qu você v agora aqui a você GPT contexto Quanto que é ah GPT contexto são tokens então é essa janela de contexto aqui vai são 128.000 Coloca esse em vez de qu aqui 128.000 então você vai ter mais informação aqui dentro Beleza massa se eu tenho j 1 milhão janela de contexto aí eu vou ter
1 milhão de tokens aqui dentro Tá bom veja qual é a diferença veja agora a pergunta capital hein Qual é a diferença entre embed e janela de contexto Olha que pergunta consegue ver aí visualmente aí ó galera da mentoria Qual é a diferença entre janela de contexto e embedding qual é a relação né a janela de contexto vai vai conter uma quantidade x de embedding seria isso isso garoto matou a janela de contexto vai conter uma quantidade X em beding aí você tá vendo visualmente a gente não tá vendo isso sim não é tranquilo de
entender né então você consegue definir o que que é uma janela de contexto consegue definir o que que é um embedding ou seja o embedding é essa informação aqui ó isso aqui é um token certo que eu defini de o número para ele aqui tem o token eu só que o o computador não vai enxergar eu vai enxergar quem Zero Certo vai enxegar zero na posição zero a informação que representa esse token tá aqui e a janela de contexto é o agrupamento de tokens só que na verdade eu estou agrupando é em beds certo em
Bed de token legal né então é assim que ele é assim que ele aprende é assim que ele aprende e assim que ele responde pra gente a janela de contexto visando o tamanho da entrada de p por ISO ter essa coisa pesada né exatamente Daniel Imagina aí então a quantidade de informação né a quantidade de informação se eu tenho 1 milhão de ó 1 milhão de tokens pergunta né Por que que o por que que a Open coloca 128 eh 1000 de to tokens de janela de contexto E não coloca 1 milhão como por exemplo
a Google faz uma pergunta por causa de acurácia para ter mais acurácia não gasta gasta valor é preço exatamente energia de exatamente processar 1 milhão de tokens por vez gasta muito brother e o Google tem processador para isso é o caso da Open lembre-se que a Open ela é ainda uma Startup Beleza ela é uma Startup ela não é ela não é uma eh bigtech tá então o Google tem grana o Google tem máquina sandeco por por sandeco pelo amor de Deus por que que o Jam n não consegue ser como o GPT 4 ou
GPT 4 ou ou um review lá aquela parada toda por quê Já que a janela de contexto é maior tenho mais texto tenho mais contexto quanto tenho mais contexto melhor define o assunto concorda lembra da história do avião com gol quanto mais contexto mais palavras consigo definir o assunto por isso que o contexto grande é bom tá mas por que que ela não consegue ser igual ser igual ao ao Open OK aí algoritmo não é vai entrar não é algoritmo vai entrar na questão da arquitetura da rede que é uma coisa mais para dentro entendeu
é o próximo passo da arquitetura que é porque aqui isso aqui que eu tô fazendo fazendo é só a entrada de dados entendeu lá para dentro do transformer tem mecanismo de atenção tem uma série de coisas né Tem eh redes residuais tem eh Fit forward lá para dentro tem uma série de coisas que vocês que vocês eh que a gente não sabe como é que a Open fez e que a Google não consegue fazer igual Então por mais que ele consiga ler muito texto ele entende pouco o que tá acontecendo lá dentro tô pensando nas
imagens aqui se a gente pega uma imagem faz um upload sem escrever nada a LM vai ter que interpretar retirar dessa imagem gerar as Ed para ter essa janela nos modelos normalmente esses modelos multimodais eu tô fazendo uma rede multimodal agora pro pessoal de Guarulho certo Porto a rede multimodal você Você trabalha com paralelismo de rede dentro dela quando entra um tipo de informação você jampe para um lado jia outro entendeu então a rede a rede multimodal é a GPT for Vision ele é um pouco diferente da GPT para texto entende então o que que
acontece ela consegue entender tudo porque aí ela pega a parte de texto A parte interpreta a parte de texto interpreta a parte de imagem lá no fim ela combina certo combina mas os dados eles vão sendo processados diferentes tá Apesar de que tem Transformer no meio dessa mas são redes paralelas certo são redes paralelas aí então ela acontece de forma paralelo pergunta também aí pessoal a Pedro Caetano lev não posso em frente então pode sim beleza então então vamos em frente aqui pra gente concluir essa parte aqui a questão é a mão na massa né
Qual é a completação desse texto e pode ser assim né Ó amor 45% carinho ou força né Eu já te dei amor 45% eu já te dei carinho 12% já te dei força 0,023 por. só que o detalhe aqui ó é que o gp o o Transformer que tá dentro de GPT aí começa a brincadeira a ficar bonita né E essa fórmula aqui é até facinha de entender tá E é o mecanismo de atenção que faz uma na entrada que eu tenho aqui junto com a pesquisa que é a query né as chaves de entrada
que é a própria próprio vocabulário ele começa a fazer para cada token Zinho dessa para cada palavra ele começa a fazer fazer esse cálculo Zinho Bacana aqui ó bonitinho E aí no final das contas eles determina essa saída aqui para cada tokinho vai a próxima baseado nesse mecanismo eu vou explicar mais para frente como funciona e não é difícil entender cara por iní pareça a matemática é fácil sabe uma uma explicação pausada com animação é fica tranquilinho de entender agora se eu te der essa fórmula dizer é assim você vai dier assim isso né sei
para onde vai mas eu garanto que eu eu já testei os meus alunos gostaram demais da expli das animações que eu criei para poder explicar o Transform mecanismo de atensão além do mecanismo de atensão né o a o múltiplo os múltiplos mecanismos de atenção que é chama de multihead atention né seja várias cabeças de atenção aqui entra a similaridade ó similaridade Entre palavras para terminar pra gente poder começar a escrever o nosso codozinho lá eu quero falar um pouquinho sobre os chunks que é o seguinte porque a gente vai usar esse esse conceito de chunks
aqui para poder a gente agora já é a questão da criação de eds de texto então o que que eu faço eu vou pegar um texto grandão aqui ó certo e ao invés de eu gerar o embed de texto do texto inteiro completo O que que eu vou fazer eu pegar e vou criar chunks são esses pedacinhos aqui ó sabe pedacin de chocolate esse negocinho aqui chunks né chunks de chocolate aqui eu peguei uma coisa e partii né Chin aqui mais bonito pedacinho coagem agora aqui o seguinte ó eu tenho essa esse Chun esse texto
aqui que é um texto sobre H né e chunks eu vou pegar o seguinte eu vou dividir esse texto em pedaços táp por exemplo eu posso pegar a cada 1000 caracteres divido o texto em 1000 e 1000 caracteres em pedaços de 1 e 1 caracteres entendeu simples não precisa se preocupar muito isso seria alguma coisa mais ou menos assim concorda Então essa primeira parte aqui teria 1000 caracteres aqui teria mais 1000 teria mais 1000 teria mais tem 1 2 3 4 C chunks aqui então vou pegar esse chunzinhaa e vou passar para dentro do transformer
e e o Transformer vai me vai me retornar um vetor que a gente chama de embed que representa esse texto aqui representa esse texto aqui só que aí eu vou ter também um vetor que representa esse texto aqui vou ter um vetor que representa esse texto aqui vou ter um vetor que representa esse e esse vou explicar com mais calma matematicamente esse essa técnica como funciona depois mais paraa frente no no no livro de CR sobre rag que vai ser a terceiro terceira terceiro Volume né mais calma então tem uma outra coisa que eu que
eu vou fazer aqui é o seguinte ó seria interessante quando eu tivesse esse primeiro texto aqui eu terminar e for pro segundo certo segunda parte e Exatamente esse é o banco de dados vetorial Tá eu vou salvar a parte os números que representa esse texto aqui porque eu não tenho números que representam um token Então eu tenho números que representam um texto tá então eh eu eu vou fazer o seguinte vou guardar esses dados aqui né em bed e texto num banco de dados vetorial só que aqui acontece o seguinte ó seria interessante fazer ass
eu tenho o início do texto aqui tal dividir esses 1000 caracteres aqui o segundo eu também peguei 1000 só acontece seria interessante se eu pegasse só um pouquinho só um pouquinho o anterior para ter um contexto Zinho entendeu ter uma sequência para ter uma ligação entre uma coisa e outra certo porque de certa forma eu fazendo isso eu eu meio que conceno esses dois digo que ele está em sequência né eu verifico que ele está em sequência quando eu faço esse overlay aqui tá então overlay o que que é é pegar esse tanzinho e subir
um pouquinho para trás aqui é muito inho né de novo Tô falando inho bonitinho tanzinho T deinho chega deinho mais uma vez esses chunks e vão pegar pedaços do Chunk anterior pequenos certo pedaços pequenos para meio que dá uma ligação de um com o outro ó aí esse carinha aqui ó esse vermelhinho vermelho aqui ó ó vai pegar um pouco do anterior também e o roxo vai pegar um pouquinho do anterior também e esse aqui vai pegar um p e assim que a gente vai montar os nossos pedaços aí eu vou pegar esse pedaço aqui
vou passar dentro da rede Transformer ela vai me retornar um vetor eu guardo isso base Vet eu pego o primeiro crio o vetor passo na base vetorial vou guardando assim beleza dúvida ô ô sandec lá e quando a gente fala do edgings tanto no token quanto no texto ele já passou pelo back propagation ou ele é ainda um um vetor de números aleatórios quando eu pego esse texto aqui e passo dentro do transformer o Transformer já passou pela aprendizagem de textos back propagation já não tá mais na jogada aqui porque é o seguinte ó entendo
o seguinte a intelig incia artificial como eu já falei ela é feita de dois momentos primeiro momento é quando você treina o Inteligência Artificial é a hora dos especialistas certo o especialista de Inteligência Artificial ele sabe pegar o dado trabalhar aquele dado melhorar ele limpar os dados fazer todo o pré-processamento criar uma arquitetura de rede neural passar esses dados dentro dessa arquitetura treinando o modelo certo no final vai sair um arquivo arquivo mesmo certo um arquivo que a gente chama de modelo pegou modelo Uhum Então eh esse modelo é o que a gente chama toda
vez que você fala a palavra modelo a parte técnica nome técnico que a gente usa na Ciência da Computação a gente tá falando da Inteligência Artificial baseado em Machine lear certo Inteligência Artificial é muito maior que isso muito mais antiga do que gente aqui certo 50 então quando eu tenho um modelo tá treinado esse modelo tá treinado Então agora eu posso pegar esse modelo e posso usar por exemplo quando você conversa com o chat PT você está usando o modelo que já foi treinado com textos você escreve uma coisa ele cosp é o momento da
completação certo a completação é o o modelo em Ação é a inteligência artificial em ação por ex exemplo você treina um carro autônomo com imagens de entrada tal aquela coisa informação de direção informação de pedal informação de tudo depois que você treinou a rede neural você coloca a rede neural no carro e faz o carro andar sozinho é hora de usar e essa certo então é quando eu vou treinar Inteligência Artificial Eu uso o algoritmo back propagation caminho ali agora quando vou fazer nesse caso aqui eu estou fazendo um processo que é de uso da
ia então eu não vou usar aqui back propagation porque agora eu não o back propagation mexe nos pesos da rede para melhorar a rede como eu já treinei a rede eu não preciso mexer nos pesos ela vai só ela só vai só vai viajar por dentro da rede uhum dentro das Comunicações neurais dentro da rede são aqueles pezinhos que você vi só que esses pezinhos já foram ajustados certo pelo propag é isso então a partir desse momento o que que eu faço eu Gero em beds tto a saída da minha rede neural vai ser uma
ao invés de eu sair com uma completação de textos eu eu vou pegar um um momento antes da saída certo e é Lembra que eu falei que tem lá Brasília Lia e bos Ares não tem aqueles uns valorzinho antes ali então ele pega esses valores antes de sair entendeu Esses são os embeds que representam aquela entrada de texto entendi é isso que eu vou usar para guardar como informação e esses embeds representam o texto que eu passei representa um promo que eu escrevi representa o texto que eu tô lendo Ok entendi obrigado Professor como esses
embeds T um tamanho vetorial a eu faço matemática do da s série é distância entre vetores certo a distância entre vetores eu posso usar distância de cosseno a famosa distância euclidiana C ISS isso aí mais dúvida pessoal vamos partir L Flow agora nessa última hora última hora de última hora a última hora da nossa mentoria de CR tá lembrando pessoal do certificado hein vamos lá desse livro desse livro A gente ainda tem outros deste livro exatamente boa boa garoto boa garoto vamos fechar as explicações agora é que a gente vem para cá tá eu vou
botar você nós vamos começar um novo projeto agora aqui com l FL já tô com l FL aberta aqui você não sabe como funciona leg Flow instalar aquela parada toda lembre-se que eu Já ensinei como é que passado você ficar com dúvidas aí do YouTube tá tudo tranquil cara táo parece que tá todo mundo assistindo mesmo é muito bom isso cara é muito bom já são Ok deixa o tanto de a quantidade tempo de transmissão já já estamos tem mais tem o qu 7 2 horas né transão horas de transmissão quase vamos lá vamos criar
então o nosso projeto rag Então eu tenho aqu ele Prontinho eu vou criar um novo pra gente poder trabalhar tá tem aqui Um exemplo interessante que é baseado nesse exemplo que trabalhar eu vou criar do zero para vocês entenderem como é que funciona o r 53 tá aqui em cima de mim 1ora 53 de transmissão beleza vamos em frente então aqui ó como é que eu vou começar eu a primeira coisa que eu tenho que fazer é dizer o que que eu quero vou vou usar o termo aqui hagar né que que eu quero hagar
Então vou começar aqui ó eu quero eu quero fazer um hag de um arquivo tá claro pode ser depois pode ser um lote de arquivos mas a princípio é isso eu quero eu quero ler aqui então o meu livro novo de Python beleza aqui o novo livro de Python para Inteligência Artificial dia 5 agora sábado dia inteiro a gente vai ter mentoria gratuita sobre o Liv quer participar com a gente tá o grupo do WhatsApp aí basta você entrar conversar com a gente aí você vai mais grupo do WhatsApp entra tô lá galera tá to
lá conversando quem está nos outros grupos por favor não entrem nesse grupo aqui deixa com quase 500 pessoas lá é muito rápido né então Ó vou colocar então aqui esse esse componente tá lembra que eu já mostrei para vocês como é que funciona né O componente aqui código Python ó posso modificar por isso que é importante saber Python porque depois você pode criar um componente próprio seu tá muito simples de fazer você pode ver que o c aqui é tranquilo Ó depois eu vou explicar Esses códigos tudo aqui pro pessoal Entender no curso Python aí
como é que você pode criar seus próprios componentes por isso que é importante você saber o Python porque aí você vem para cá o começa a criar suas próprias coisas como a gente já fez na aula passada Néo Oi eu só tirar uma dúvida com você sobre o long Flow é o seguinte toda vez que eu tô abrindo executando o long Flow aqui ele tá abrindo uma nova porta e a porta que eu tinha criado desde o início eu perdi meus dados aí toda vez que eu abro abre uma nova porta como é que eu
faço para voltar na porta que eu tava antes você tá abrindo nova porta por não sei vamos ver esse detalhe depois deix fechou vamos lá então ó eh agora eu tenho meu arquivo né e eu quero eu quero fazer o seguinte eu quero pegar ele aqui e vou e vou fazer uma divisão de chks Tá bom então venho aqui ó escrever aqui né para dividir o texto ó show de bola olha exatamente que eu expliquei ó eu tenho a entrada de dados aqui lembra que link Flow conecta aqui veja que é bola vermelha com bola
Vermelha para combinar certo tá tudo certo aqui e eu tenho aqui ó o meu Chun vai ter de vai ser de 1000 caracteres com um overlap lembra do overlap com um overlap de 200 Ó você sabe o que que é levantou a mão pode pode falar aí Rodrigo Oi professor a minha dúvida ficou mais no no conteúdo que já passou mesmo por exemplo e depois que você tokena aí você gera oend né Cada aqueles números abaixo eu já t no eu ali tem vários números são são os pesos né Professor exatamente ali são os pesos
da rede já também faz parte é um dos pesos tá dos muitos pesos que tem mais para cima tem outras coisas isso aí aí você falou que o eeden é como se fosse assinatura do Token né sim a pergunta é por que que cada eeden tem vários pesos por que não tem um peso só porque que tem vários porque senão vai ser uma coisa só né imagina que a minha assinatura fosse igual a sua e não teria e e fosse igual a de todo mundo até S uma assinatura noção mesmo então Professor tipo um ID
é não é bem o ID né mas é uma assinatura que a gente chama mesmo perfeito ó o que é como se fosse uma impressão digital ah em cada letrinha é como se fosse um cada token né Cada token cada letrinha não cada token né ó os termos Ah isso cada token cada token vai ter cada palavra cada é né hein Rodrigo cada palavra que vai ter sua sua digital não cada eend né não cada token cada token vai ter seu embedding que é o seu digital e assinatura exatamente que diferencia então nunca vai ter
um eenden um token igual a outro é isso e aquele conjunto de números to serão é porque nunca será Sabe porquê Rodrigo Lembra que eu falei que eles são por mais que tenha a palavra eu e eu e outros lugares que vão se repetir a palavra mas elas estão elas estão localizadas em Pontos diferentes lembra aquele são iniciados de forma aleatória sim então não há garantia que vai ser igual a certeza da da aleatoriedade vai ser que serão diferentes Eles começam aleatórios totalmente diferente um do outro perfeito Aí depois ele vai ajustando até que fica
cada um que representa se back propagation Pedro caetan você quer perguntar ou não baixou a mão baixou vamos continuar então respondi Rodrigo show de bola garoto vamos em frente olha aqui ó agora o que que eu tenho ó se eu rodar aqui ó rodar aqui teremos ainda sair daqu é meu gravado Ah já deu aqui né aí se eu ó ele ele executou aqui agora eu posso lembra que eu posso ver aqui né ó tá aí ó ou tá aqui meus Chunin ó chunks ó tá vendo ó ó Python se tornou a linguagem essencial ao
dominar o Python você parará parará certo tá pegando osos espaços tá pegando o quê os 1000 caracteres mais o overlay se eu rodar para baixo ó Tá T tal você tem aqui Capítulo aí você tem na próxima próxima página são 448 páginas tá vendo ó lá agora Capítulo 8 ó olha Capítulo 8 ó chunks tá vendo ó esse Chun significa o seguinte se eu fizer uma pergunta olha que interessante você ver esse tuninho aqui ó se eu fizer uma pergunta que tem a ver bate um pouco com essas palavras que estão aqui nesse Chun ele
vai trazer esse Chun para poder fazer a composição para passar pro para o para o GPT por exemplo fale-me sobre escrever assim ó escrever assim ó fale-me sobre métodos de Instância e classes estáticas classa estática então ele vai começar o que que ele vai fazer provavelmente ele vai vir aqui no capítulo ele vai como ele vai ter essas palavras que trabalham uma contexto né e eu vou esse esse texto aqui vai ser criado em beding o texto do meu promp também vai ser criado em beding quando eu calcular distâncias entre eles eles não serão exatamente
iguais mas eles ficarão mais próximos do meu texto eu escrevi do que os textos lá do Capítulo 1 de para entender e aí o que acontece o meu sistema de haag vai trazer esse texto certo e vai imputar esse texto para dentro do GPT certo combinado com minha pergunta aí aí a pergunta a pergunta é uma coisa assim né ó ó como foi a pergunta que eu fiz pergunta foi essa aqui ó ó Com base no trecho do livro delimitado por trecho vai ser exatamente esse trecho que eu mostrei para vocês responda a pergunta delimitada
delada por Pergunta aí o trecho ó o o trecho o trecho pode ser ser esse aqui ó recho ó e cadê eixo pode ser esse que a gente viu ess certo e qual é a minha pergunta minha pergunta é eh me diga e qu Qual é aí você vem aqui ó P aí que você escreve uma coisa parecida com quos mas bom pergunta é essa combinei o prompt é esse ó certo É como se eu passasse isso pro GPT vamos fazer isso ó vou escrever aqui ATP e e é o que vai chegar no GPT
vai ser isso aqui ó certo esse prompt dou enter aqui vamos ver o que que ele vai me responder aí já aí ele usou um pouco do conhecimento dele ele já tem certo mas uma contextualização baseada nesse TR de para entender o que acontece como que acontece mas como é que ele busca esse trecho de texto aqui ah ele vai buscar com base na similaridade da pergunta que eu escrevi e como é que ele busca na base como é que ele busca isso base na similaridade ora ele transforma esse texto já temos né esse texto
transformado em beds de texto não é bed tokens em bed de texto comparado com esse embed de texto dessa pergunta entendeu então o sistema que ele vai fazer ele vai usar a pergunta mas vai dar um contexto maior para responder aí agora ele responde com mais propriedade ó certo vai responder com bastante propriedade certo esse texto aqui poderia ser o quê Ah poderia ser um texto jurídico esse texto aqui poderia ser um texto da da Computação esse texto poderia ser eh um um tipos de poesia esse texto poderia ser um query answer né perguntas e
respostas entendeu onde o cara faz uma pergunta você pega essa pergunta converte ele em beding de texto e baseado nas respostas que você também fez em eu tenho uma pessoa que eu bastante ele tem uma série de respostas As pessoas mandam cartas para ele ele responde sabe as cartas e tem várias cartas na internet eu tenho uma base de dados dele e aí acontece é interessante que eu pergunto uma coisa para o meu rag e ele responde como se fosse o cara né respondendo entendeu então de certa forma eu meio que copiei a mentalidade do
cara como ele responde as cartas entendeu É bem interessante esse processo mas usando essa questão de Ed de texto certo Eduardo levantou a mão é porque vai me responder a pergunta que eu vou fazer perguntar vou dizer não não pera aí pera aí cara calma aí é vamos lá levantou a mão Se lascou agora é Vai responder minha pergunta beleza Qual é a diferença entre embeds de texto e embeds de token Olha o Ed que a gente viu anteriormente é o de token né que é onde ele separa os trechos ali da das palavras em
tokens depois ele junta e faz o contexto o eding de texto ele pega o texto inteiro depois ele ele separa isso em chunks pega o overlay né para ele conseguir depois fazer usar esse esse trecho inteiro com overlays do do chunks né com os overlays para fazer as pesquisas é os meus chunks serão feitos em beds de de texto beleza É isso aí que não é em bed de token porque bed de token representa uma um token que não é nem palavra que é nem não é caracter e não é nada é token ponto que
que é um token token é token cer vai estudar com Sand você aprende então a pergunta agora sua pergunta vamos lá é digamos que ele ainda assim ele alucine né ele vai fazer lá a pesquisa do Ed de toking E aí ele traga uma resposta meio alucinada aí você pede para ele confirmar se é aquilo mesmo e aí ele traz a a resposta correta ele vai manter depois essa memória ou ela vai apagar Em algum momento depois ela vai apagar porque cada requisição é feito de uma vez né feito por vez faz requisição a não
se que você alimente a memória é é a não ser que você vai criando uma estrutura de memória e vai realimentando Latin eu acredito que o o leng flow faz isso automaticamente tanto é que no chat dele tem lance de memória ele pega vai aumentando o contexto E aí eu tenho uma uma uma uma janela deslizante de contexto ou seja É como se eu eu eu fosse aumentando meu contexto é 128.000 certo G pto Então beleza mini mini também eu tô usando mini Ok então eu posso posso fazer o seguinte eh eu posso ir pegando
as quatro respostas anteriores e e agrupando para ir dar um contexto maior só que acontece a a janela des diz o seguinte a medida que as perguntas forem aumentando algumas vão se perdendo para cima certo a medida que for extrapolando esse contexto de entrada né eu não posso passar posso passar tudo de uma vez só posso contexto de uma vez só isso é bem bem normal de acontecer quando você tá conversando com com chat GPT mesmo aqui chat V que com um certo tempo lá para trás vai ficando ele vai meio que se esquecendo e
tal algumas coisas que ele acha importante ele vai guardando numa memória dele lá né E aí ele ele ele alimenta com essa memória essa memória nada mais é do que um resumo do que você conversou para trás também pode fazer pode fazer isso só que existe esse resumo que ficou para trás como componente do L flow não existe você pode criar mas o que tem que entender aqui o seguinte é que o rag o que que ele faz ele traz uma informação a mais por exemplo deix eu perguntar aqui para o para o o chat
PT sobre o os membros do canal sandeco né O que é tratado dentro do grupo WhatsApp ele não vai saber o que tá acontecendo P ele não foi treinado com essa informação mas eu posso perguntar ele vai alucinar vai começar a inventar aqui ó me diga eu quero que você por mais que você não saiba diga o que tá acontecendo dentro do grupo do canal sandec ele vai assim não lá o grupo o pessoal tá conversando bastante vai dar aquela resposta genérica né Igual a pai que responde quando um filho pequeno pergunta pai por que
que a terra né ela não cai tipo ela tá sempre perto do Sol espaço mas a terra tá ali o sol tá lá a gente sabe que eles estão soltos espaço mas o sol não a terra não cai para perto do Sol o que isso acontece o miserável o pai vai dizer assim meu filho é porque eh existe uma cordinha separa eles entendeu uma força puxa para lá outra puxa para cá o cara for mais ignorante ele vai inventar um bocado de coisa certo e ele vai dar essa resposta trabal trabalhada meu irmão então os
o o ser humano a inteligência artificial Não esqueça a inteligência artificial tem como objetivo imitar o comportamento humano Então significa o seguinte o quando ela tá inventando até nisso ela tá sendo humana até nisso ela tá imitando o comportamento humano e a gente também faz isso certo Agora imagina aí Rodrigo seu filho perguntou isso para você e eu te entreguei um texto ó uma colinha dizendo como é que funciona a gravidade entre sol e a terra Entendeu Beleza aí seu filho vem e faz o quê a pergunta pai por que que a terra não cai
PR não cai para pé do sol já que estão aí o que que você vai fazer você vem pra colinha certo deu aquela lida sobre gravidade aí você vai dizer pelo menos mais aproximado meu filho eu não é sobre a gravidade é uma cordinha Men per é uma corda não sei o que tal não é sobre a gravidade Então existe uma força forças gravitacionais entre planetas e estrelas e tudo aí você já vai explicar uma coisa melhor se eu te der Eduardo um livro sobre tratado máximo sobre a gravidade né escrito né E você vai
você vai ler ele inteiro depois seu filho fizer pergunta com certeza você será bem mais assertivo E é assim que a gente faz e a ia também a ia também faz assim beleza show né vamos em frente então já entendeu o que vai acontecer aqui né É isso que a gente vai fazer eu gosto eu quero fazer o seguinte aqui esses chunks tô achando vou colocar esses Chun maior Vou colocar aqui 2500 tá esses overlay aqui eu vou colocar 500 vai gastar um pouquinho mais aqui da open aí ó agora você viu que era 448
diminuiu né então quando eu aumento o tamanho do texo do tun ó eu tenho mais dados ó olha que legal né mais dados tá vendo ó mais dados para passar aí isso Depende de quê se a sua rede neural suporta receber esse tanto de dado basicamente e se você tem dinheiro na na bala ag para poder gastar isso aqui né Beleza então tá isso Chan são maiores melhor mais contexto posso aumentar para 10.000 Então veja mais um dilema para você você definir qual é o tamanho dos seus pedaços de texto que você vai entregar para
ser treinado para vetorizar certo para criar os embeds mas in não tema cara vai é o próximo passo eu tenho que criar aqui ó meus em beds e e armazenar ele numa base de dados eu vou criar esse chrom DB aqui ó que é um banco de dados que é um banco de dados eu vou guardar aqueles vetores de informação de em beds de texto certo em beds lembra é uma sequência de valores sequência de valores que serão entregues para esse banco de dados guardar tá quem vai entrar com essa sequência de valores dado que
vai entrar vai ser aqui colocar aqui dentro ó data ele vai consumir esses tzin aqui mas os Ed quem vai gerar a Open vou chegar aqui colocar aqui ó a Open aí eu tenho vários embed aqui E esse esses embed aqui ó por exemplo eu não sei qual é o tamanho desses aqui acho que esse aqui é 1000 e pouquinho esse esse small aqui tá vendo ó 1 e pouquinho e esse L aqui é 3000 e cacetada qual que é melhor hein o pequeno ou o grande por qual que é melhor ter um imbed grandão
ou ter um imbed pequeno lembra do Bert que tinha 7768 E à medida que você foi passando pras outras o imbed foi aumentando deve ter uma relação deve ter um porquê que aumentar o imbed é bacana né será o embed maior dá mais contexto não não é isso não é porque o embed maior Você tem uma uma separação melhor das palavras quando você tem um embed de texto o que acontece é que você tem muitos textos certo aqui teu universo imagina que eu tenho espaço aqui 3D certo tem um espaço 3D aqui espaço de texto
vai est aqui nesse outro texto Vai est aqui em certo e aí acontece esses terços eles estão longe ou tão perto se eu usar no plano 2D Parece que eles estão perto né mas se eu usar no 3D ó eu posso colocar lá atrás ele ficar aqui verdade eles estão longe outro deu para entender essa diferença aí se eu pegar um outro texto aqui converter ele em bed para cá ó para cá para perto desse Então essa é a pergunta que eu fazendo relacionada quanto maior for o espaço ó eu tenho um espaço 2D eu
tenho uma tela tem as informações se eu tenho um espaço 3D as separam mais ainda o espaço 4D as informações se separam mais ainda e como as coisas são buscadas por similaridade esses espaços grandes faz com que as coisas que são muito diferentes fiquem muito distantes das outras e as coisas que são mais parecidas mais perto por isso que esses espaços grandes são importantes né para a inteligência Ed grandes eu vou usar esse Lad aqui colocar aqui eding e agora o que eu vou fazer aqui é o seguinte ó eu vou eu vou mandar gerar
esses meus edins eu tem não posso mandar aqui ó aqui você vai ver que tá trabalhando aqui em cima tá vendo olhando aí tá gerando aí aí você tem que tem que calcular Qual é o c Qual é entendeu tudo isso você tem que saber então eu tô eu sei que eu tô indo aqui pelo melhor possível para o meu texto Ok temos diferença diferent diferenças aqui de dimensões né que ele disse para mim aqui ah ok Aí outra coisa importante aqui é o seguinte ó esse banco de dados L Flow já foi criado tá
essa tabela de dados n coleção de informação eu vou colocar aqui ó L Flow aula certo vou criar uma tabela separada porque a tabela L Flow já fiz um teste aqui com ela já está lá não posso ficar usando outra coisa em cima né só tabela de banco de dados mesmo então agora vou colocar um l Flow aula agora vou dar Play aqui ó acho que agora não vai dar mais problema veja que ele tá trabalhando aqui ó depois que ele der ok aqui pra gente vai est aí que que que que é legal eu
vou e congelo lembra do lance de congelar congelo o componente ele não não faz mais requisição certo aí não precisa ficar pedindo o tempo todo tá a gente vai fazer vamos lá terminou ó eu posso ver aqui ó na hora que ele deixa eu aqui ó retriever Então eu tenho aqui os embeds ó tá vendo ó esses identificadores de texto tá gerando certo B né aqui são os textos efetivamente né Cada um e os arquivos dele onde ele salvou a informação aqui OK agora que tá pronto aqui agora o que que eu vou fazer eu
vou criar uma outra estrutura não vou mexer mais com isso aqui tá não precisa mais eu vou simplesmente congelar lembra lance congelar não quero que mexe mais nisso aqui meu L Flow aula tá travado e eu não vou mais rodar aqui o Open também que ele tá congelado tá vendo congelado Então agora eu vou agora eu vou fazer o seguinte agora vou fazer estrutura de pesquisa tá o bate-papo com o meu livro Ok então o bate-papo para fazer o que que eu faço eu faço input começar com o o chat né que a minha que
é o chat aqui vou colocar aqui aqui vai ser o lance das perguntas vou fazer mas por enquanto é só para dizer que e vai ter essa entr mais uma vez eu vou usar quem eu vou usar o o meu dataset porque eu vou fazer uma uma escrita de informação eu vou converter que eu vou eu vou escrever converter num bed né Vamos lá ó aqui aqui no V Store uma vez eu vou carregar aqui meu banco de dados eu vou carregar o banco de dados aul lá em cima tá congelado só que agora ele
vai ser uma um banco de dados para pesquisa certo seja vou escrever alguma coisa no chat aqui ele vai fazer uma pesquisa ó tá vendo aqui ó search query ao invés de colocar em gestão de dados ou seja colocar os dados para treinar para gerar os embeds agora não agora vou jogar o qu uma search query a minha pergunta que eu vou fazer quando eu escrever aqui no playground é o chat você v ver já ele vai vai vai gerar né uma um embed de pergunta e comparar os embeds que já existem dentro do da
base de dados ó que doido certo para poder trazer quem o texto de saída que representa aquele aquela pergunta beleza para montar o prompt e dúvida isso aí que eu falei muito rápido é então vamos lá ó eu tô usando aqui o chroma Qual é a pergunta Daniel que você fez aí qual é o banco é o chroma DB o mais próximo né Exatamente é é o k mais próximo digamos assim pode ser assim pode ser o distância de cosseno mas sempre a resposta é o o embed mais similar né o mais mais similar exatamente
a ideia é isso aí Ide de mais similar bom meu aluno é ó vamos lá eh aqui eu tenho vou criar mais uma vez então os embeds eu tenho que criar um embed de pergunta e a partir dessa pergunta ó é importante aqui veja o detalhe o seguinte eu tenho que criar o mesmo tamanho de embed sim ou não eu posso comparar 2D com 3D não eu tenho que comparar algo 3D com 3d 4d com 4D 396 com 396 D que é o tamanho desse vetor aqui tá Fala Eduardo eh esse banco de dados ele
pode ser dinâmico pode né Você táa falando assim de entrar informação e você ir retreinar com um api do WhatsApp ali aí a pessoa envia o documento ele sobe e aí começa a fazer todo o processo é aí você tem que ver quantos em quanto tempo você você quer gerar esses esses vetores né formação você tem que tomar cuidado porque você não pode poluir também sua base de dados né Essa é a base de conhecimento certo sim eu treinei ó certo tá aqui ó guardado Zinho aqui passei pelo treinei não né eu extraí né correto
treinar não é s eu extraí osb de cada Chun aqui embaixo é a mesmo base de dados mas que acontece esse esse chroma DB entra a pergunta com o embed ele vai gerar o embed da pergunta e faz a consulta uhum Ok beleza aí eu tenho que fazer uma transformação de dados porque o que ele sai aqui vai ser e data né e eu quero que ele saia texto um tipo de dados aqui ó nenhum dos tipos de dados aqui é é é texto tá vendo e eu e eu não tenho que trazer o texto
que eu tenho trabalhado ali é isso eu faço a pergunta tem o embed faz a consulta eu não quero que ele me saia o valor de embed eu quero que só o texto Então eu vou fazer um parce aqui ó é uma uma parce um parce em em Python exatamente transformação de dados assim eu vou transformar número inteiro para string string para número inteiro inteiro para float Entendeu essa brincadeira né Essa transformação de dados então basta eu juntar aqui ó e agora eu tenho a transformação de dados aqui tá Quando eu fizer a consulta vai
sair o texto vai sair o texto que foi buscado por por similaridade aqui certo e é o quê exatamente essa parte do Beleza o trecho que eu quero muito bem o próximo passo aqui tá mais fácil né Agora eu preciso simplesmente criar o quem ó prompt eu não tenho que fazer esse prompt aqui ó tem que criar esse prompt aqui tá só que uma coisa é a pergunta outra coisa é o qu o trecho Tá ok então vou pegar esseesse prompt aqui que eu já usei ó tá pronto ele tá funcionando já testei no chat
vou voltar aqui no L L L Flow e alterar esse prompt aqui ó primeiro quem é trecho trecho é alguma coisa que vai chegar aqui de forma dinâmica Então coloca aqui ó lemam desse aqui que a gente usou na aula passada é uma passo onde eu vou informar algum string aqui de entrada que no caso é a informação que vem lá da base de dados certo o texto que vem do rag e a pergunta é a pergunta que eu vou fazer pergunta né eu vou fazer no meu no meu no meu chat né Beleza basicamente
é isso então Com base no trecho do livro de p delimitado por trecho responda a pergunta delimitado por pergunta é agora que ele vai esse Prom aqui para passar para Open rpt certo ó não per não perc eu fio da minhada ó uma coisa é pegar a pergunta transformei em bed Consultei peguei o trecho certo e agora eu vou fazer o quê Vou transformar esse texto deixo aqui e a pergunta a pergunta é aonde está a pergunta a pergunta Tá aqui eu vou realimentar a pergunta aqui Eita que agora ficou uma coisa você usar a
pergunta para procurar o trecho outra coisa você usar a pergunta para montar o promp sacou uma coisa é usar a pergunta para montar para procurar o trecho treo tá dentro do banco de dados outra coisa é usar pergunta para montar o prompt dúvida ali no pronto ficou limitada duas vezes escrito ali por delimitada por limitada quê no Prom tá delimitada duas vezes escrito delimitada por delimitada É verdade pergunta dada por Ok Com base no trecho do livro traz no texto por trecho responda a pergunta delimitada por pergunta Tá OK agora o que eu tenho que
fazer é como se eu copiasse o resultado disso e jogasse no chat GPT então agora vou quem Agora sim não tiver o trecho aí a Open se vira para responder aí Open Sea para responder vou colocar o Prom de entrada aqui é o texto de Vou definir o modelo que vai me responder pode ser o GPT mini não H necessidade você colocar mais pancada aqui vou colocar aave da open aqui eu usei aqui a Open duas vezes né uma para criar o embed e uma para fazer a pergunta no prompt essa estrutura anterior aqui ó
Foi só para montar a questão do promt né Fazer o Prom e montar com trecho é o lance da você completar texto seu aqui e agora para concluir ó eu simplesmente ligo o quem vou ligar aqui no meu output coloca um saída de agora o que que eu vou fazer vou para para o playground certo vamos perguntar coisa sobre o livro aqui sobre livro de de Python Ó tem uma dedicatória pro meu pai aqui ó é qual a de aqui ó a dedicatória escrit para José dedico a este meu meu pai jos que fez 70
anos Pai te amo exatamente Em qual em qual qual Cap nesse caso aí esses esses tokens não estão sendo cobrados pela openi a pergunta pergunta e a pergunta promp de pergunta né endeu quando você converte em você converte ele o embed converte o embed converte o texto pergunta em embed para fazer a busca no Mag depois você tem a pergunta beleza Tá sim aí mas a essa resposta da dedicatória que ele buscou na sua base de dados qu a resposta que já tá criada o bed melhor essa pergunta por exemplo a dedicatória em si não
vem da openi ela vem do Banco V livro vem do meu livro mas por qu Então mas veja bem ó eu usei a palavra dedicatória que faz parte desse tto e a palavra josenil que faz parte desse e o contexto que eu dei aqui a pergunta tem um contexto ó esse contexto foi convertido em um embed essa pergunta foi convertido beding e foi comparado com esse emb beding aqui E aí existe uma similaridade principalmente por causa dessas palavras tá palavras aqui mas isso é feito de forma vetorial peral é que é sim Sander pô eh
eu entendi acho que a pergunta dele eh para quem já desenvolveu no passado em outras linguagens usava a tabela de Pesquisas né E aí Não tem tabela então a ia precisa da ia para ela conseguir interpretar e procurar o embedding lá para ele localizar por similaridade senão ele não localiza essa informação né exatamente você pode por exemplo ao invés de usar o GPT tô usando o máximo né para usando o máximo do recurso obviamente a mesma pergunta novamente então eu vou est tendo uma economia de token Aí sim porque aí você já vai ter criado
certo é porque aí já tá na memória né aqui at cria memória tá vendo Ah aí sim tá agora entendi é isso que o que eu queria esclarecer agora que acontece você pode usar modelos gratuitos né e é é essa que é a questão meu por por agora agora Vocês entenderam a briga né Por que que o pessoal fala tanto do lhama a importância do Lhama porque lama eu falar tanto porque ele é opens sor você pode Lar na sua máquina tá se eu melhorar ele um RG com ele pode ser que eu tenha uma
resposta melhor lama vai joar para mim em beds certo obviamente que vai ser em beds igual GPT a qualidade do GPT e a qualidade da rede neural GPT é melhor do que a Lhama mas se ele me trouxer respostas que sejam pelo menos interessantes aproximadas show de bola me responde a questão é e contextos mais críticos contexto que tem um textos que são mais críticos né beleza Eh eu não sei nem se meu pai tá aqui pai tá aqui aí falou anteriormente aqui eu tenho textos mais críticos né e eu uso numa num num na
rede no modelo que é mais mais fraco aí eu terei problemas por exemplo textos jurídicos certo texos jurídicos aí vai ter um problema por quê Porque aí você vai ter menos acurácia certo Ah mas aí eu vou usar um GPT aí eu não posso usar o GPT porque eu tenho dados sensíveis não dá para ficar subindo esses dados Sens para GPT tem que ser alguma coisa privada Ok então se você vai ter alguma coisa privada Você tem que rodar um modelo bom certo quanto que custa rodar um modelo bom localmente Ah então tem que calcular
lá eu quero usar um 70b do Lhama você vai ter que ter uma máquina tem que ter uma máquina tem noção disso essa máquina tem um consumo de energia noção disso mas ela vai te entregar o satisfatório vale a pena então usa então gente na computação Mais Uma Vez é Sempre esse dilema não tem você tem que ficar brigando com isso o tempo todo velho o tempo todo você tá nessa briga aqui entendeu não tem como fugir disso não tem mágica sabe não tem mágica então eu tô usando aqui dig assim tô usando o top
a pergunta aqui por exemplo qual Capítulo se fala sobre orientação objetos Capítulo 8 aí né oito beleza né certo tá trazendo bem tá respondendo bem baseado em quem na informação do meu livro você veja que Capítulo 8 de um livro não é o que tá na Ele leu vários livros sobre Python mas o meu livro especificamente fala da orientação objeto no Capítulo 8 Então ele usou o processo inteiro para para poder entender que aquilo ali é é exatamente isso dei palavras dei palavras chaves aqui importantes ó Capítulo orientação objetos agora se eu perguntar aqui eh
o livro fala sobre a criação agentes sei se eu citei sobre isso mas não é sobre criação de Agentes orientação objet ó texto do livro não menciona especificamente a criação de de Agentes tá tá respondendo certinho no entanto ele discute a utilização de p para resolver soluções menciona a integração são diversas ferramentas bibliotecas que pode incluir a criação de Agentes então assim ele tá respondendo de acordo agora ele tá respondendo um pouco com a inteligência dele ignorando o trecho porque o trecho não tem nada a ver tem trecho que fale aqui livro sobre criação de
agente Deu para entender mas ele tá alucinando Depende de quem da qualidade do modelo se eu tenho um modelo mais fraco Ele vai dizer o quê fala assim ele fala no capítulo tal é o pai da história do sol com a terra Deu para entender então é isso que vocês precisam entender em relação como é que funciona essa porcaria dessa desse rag aí cara não tem milagre existe engenharia sabe existe engenharia você tem que entender como é essa bagaça funciona agora ele consegue puxar o primeiro parágrafo do capítulo 8 por exemplo vamos ver ó e
ô Sand antes de de de de de colocar esse só para ver ver se o entendimento tá correto né então aqui o que tá acontecendo é o seguinte você perguntou se ele fala sobre criação de agente aí ele transformou isso eh o em bed de texto testou com o o que tava feito deed de texto do hag ele não encontrou mas na hora que ele criou o o prompt ele não trouxe nenhuma informação adicional ou ele trouxe um contexto para poder eh conseguir diminuir por exemplo a a Alucinação pera aí Veli deixa eu o Daniel
fez a pergunta fiz a pergunta e pedi sua pergunta não sem problema Rep Pete de forma mais resumida aí vamos lá tá o que eu falei foi o seguinte quando você quando ele quando você ele não identificou nada na comparação dos dois eh do dos dois edgings né do do do do da da pergunta e do e do e do r eh ele não encontrou nada aí não ele encontrou o Denis el en é ele encontrou que não tinha né não é ele encontrou o mais próximo possível então ele levou um contexto então só que
o que acontece veja bem ele encontrou uma um texto sim ele sempre vai encontrar um vai sempre encontrar um texto certo tá só que neste caso esse texto não tem nada a ver com o que eu perguntei cer entende então É como se eu dissesse assim ó imagina que eu eu pego uma receita de de galinhada certo esse é meu contexto Esse é o trecho que eu vou usar n aqui no GPT Ó imagina que eu coloco aqui nesse texto aqui ó parte do at fazer aqui uma receita de galinhada né receita de É uhum
e faço a pergunta o que que o que que tem a ver Python com que tá no no no trecho o cara ele vai dizer assim olha não tem nada a ver uma co com a outra aham entendeu Por isso que ele respondeu olha de acordo com o trecho que você me passou não tenho nenhuma relação que você tá falando aqui que ele se adaptou muito bem sim certo ele se adaptou muito bem ó trexo do livro não menciona especificamente a criação Mas ele tem um trecho certo ele achou um trecho mas esse trecho não
tem nada a ver com o que eu perguntei por qu você veja bem e ele achou o trexo baseado na pergunta e depois Ele montou o prompt foi e voltou e quando voltou ele fal não tem nada a ver outro entendi OK mas como o modelo mas aí que tá aí mas como o modelo é bom ele sabe se adaptar muito bem então ele respondeu apropriadamente um modelo mais fraco Pode ser que ele Diga Olha se eu passar o a pessoa eu pergunto sobre agentes para ele e e passo uma receita de galinha falou assim
olha agentes inteligentes é feito com galinha né arroz piqui Você tá entendendo então é uma loucura isso sabe o nem pode dar uma resposta né Hã ou às vezes ele nem pode dar uma resposta responde assim não não posso te dar essa resposta é ou então é é uma das duas ou ele vai ele vai enlouquecer que eu tô eu já tô ele já tem uma tendência a alucinar quando ele não sabe de uma coisa eu já tô colocando num texto mais louco para ela ainda aham vamos nó vamos na sequência da fila tá acabando
a nossa aula eu acho que deu para entender mais ou menos agora hora de perguntas perguntas gente aqui 240 temos várias perguntas próximo na sequência aqui é o Eduardo lopeso no caso do mchat por exemplo que também é é um no code quando a gente faz perguntas lá ou inserção por get post a gente coloca o arquivo lá dentro da da Open ai o arquivo vamos pô o teu livro e aí a gente não usa o embedding nesse caso ele faz lá dentro automaticamente provavelmente provavelmente tá tá Pedro Caetano fá Pedro Caetano andeco os embeds
Então seria e a gente pode usar para treinar uma uma linguagem no caso uma em de texto ou de TO Tok eu não sei não So ISO que você não saii tomar bomba eu sei a diferença é usado para treinar modelo de texto é usado entendi entendi certo PR Professor eu eu fiz certa vez aí com com Claud sonet E aí eu fiz uma pergunta sobre a legislação com um tema que já tava ali de uma de uma lei específica para ele é o curioso foi quando ele me respondeu era uma pergunta de legislação mas
ele me respondeu corrigindo uma interpretação de língua portuguesa que tinha na pergunta T meio que Ele olhou que não tinha ali a a resposta na verdade seria muito mais adequada se fosse uma correção na língua portuguesa do que diret exatamente o que eu perguntei nesse caso aí foi porque ele ele usou a Ampla base de conhecimento dele para falar sobre língua portuguesa ainda que na na o que eu tenha fornecido para ele tenha sido uma legislação e não livro de português né porque ele tem um nível de conhecimento dele Certo você quando faz o rag
você complementa ó é igual lembra É igual o pai que lembra sem ess essa analogia Ela é perfeita igual o pai respondendo do só da terra pai ele tem uma base de conhecimento em relação ao filho o filho fil a pergunta pai é é o modelo certo é o então ele tem uma base de conhecimento ouvi falar já passou pela escola não sei o que só aqui acontece é quando eu vou melhorar a resposta do pai eu passo um texto para ele ler quando ele não tem esse texto vai usar o que ele sabe aí
depende esse pai ele é um cientista ésta assim da física o cara vai responder super bem né Se o cara foi Trein com texto específico da F percebe esse lance de aí aí eu vou eu já começo a vislumbrar um outra técnica para melhorar esse processo que é o qu o f retreinar ou parte textos específicos ele possa cara fazer a pós-graduação de Valeu Professor eu não tenho nem coragem de ess é pises não pelo é passinho PES é russo esse nome aí profor uh cara é m você como é que é seu pai é
meu meu avô éa Você já foi lá não não não Nem conheci meu avô já P diferente diferente é só tem uma vogal né é pois é que coisa é bem isso mesmo na primeira série eu ralei pro Senor isso n sen sen assim e eh você faz uma pergunta tipo assim me responda tal coisa e me fale o título ou subtítulo em que você achou esse conteúdo e esse título subtítulo tá lá nos primeiros chunks e a posta o conteúdo tá lá no sei lá Chun Opa garoto boa perg fazer essa parada is aqui
é uma al que é isso só tem o aluno que pergunta boa da entendeu o que ele perguntou eu perguntei uma coisa ele achou um texto um ch que fica lá no primeiro capítulo mas a resposta que eu tô efetivamente querendo tá lá no oitavo E aí brother qual Chun que eu vou usar ou não vai usar nenhum Chun como resolver esse problema tem uma técnica já é evolução dessa técnica de ha chamada de graf haag graf haag graf haag né a gente ao invés ter banco de dados vetorial a gente vai ter um grafo
uma estrutura da computação é grafo certo cara aí olha o seguinte trabalha com grafo você pode trabalhar com propriedades de grafo mesmo grafo é tipo a estrutura de dados que você permite fazer metar de cois você tem ideia do que que é um grafo qu modelar por exemplo é guardar isso na base de dados uma modelação de cidades e a e a distância das ruas da as estradas entre cidades isso é um grafo onde cada cidade é um nó e a ligação entre as cidades são as arestas do grafo entendeu então o que acontece no
graf não existe essa questão de Vetor entende que existe são as informações interrelacionadas baseadas no grafo então uma uma informação ou vamos supor que um Chun seja um nó Qual é a relação desse Chun com o próximo Chun que é o Chun lá do Capítulo oito então eu posso trazer para eu posso trazer para o contexto da resposta não somente aquele Chunk mas um número chunks que são orbitados por aquele por aquele nó entendeu e eu melhoro o meu contexto certo eu melhoro o meu contexto E aí quando eu passo esse esse contexto eu começo
a ligar informações estão aqui no no primeiro capítulo a informações que estão lá no último capítulo O graf ha você consegue fazer isso com o reg normal não é possível talvez é por isso que o pessoal da área de jurídica sofre um pouco com essa questão do graf ha com com reg puro né é esse que a gente tá usando veja que coisa interessante não tem graf ha aqui ó a v procurar aqui no Store Ah eu não ten não tem tem que implementar já per professor no Cloud quando a gente se a gente colocar
eu já tive a oportunidade de colocar porque eu cheguei exatamente nessa dúvida e quando a gente coloca lá se você colocar um um exemplo de de grafo ele cria para você e já cria as conexões lá para você ver como que ficaria do ponto de vista gráfico ali naquele artifacts no artifacts que é o que ele cria o código ali na hora para você da pergunta que você tá fazendo e já bota visualmente então ele conectar as palavras você entender o que que significa o grafo na na prática Ah entendi então é uma ferramenta não
é não é o l não não professor é o é o cloud o cloud Son Ah sim que lá ele trabalha né colocando graf lá dentro Teve um aluno nosso da Universidade Federal que defendeu uma tese Doutor sobre o Alex tá na tá na lista terminar tá 10 horas já boa noite pessoal olha só tá falhando o áudio pode fazer pergunta um um uma pessoa chegou e falou para mim o seguinte autora de um livro né olha meu livro tem 1300 páginas eu queria que pudesse ser consultado pelos clientes né E aí foi uma bagunça
no primeiro momento o que que eu fiz então Eh perguntei pra pessoa quais seriam aí os tópicos interessantes aí do seu livro né cinco tópicos no máximo a pessoa me passou cinco tópicos do livro Eu dividi o livro dela toda então em capítulos e pedi pro cloue ó organiza todos esses capítulos aqui em nesses cinco tópicos aí ele falou olha para tópico tal vai o capítulo 1 5 7 enfim eu gerei cinco Suli livros né cada um deles com um tópico e aí subi para Open Ai a resposta passou a ser filé a pessoa ficou
doida falou bicho começou a responder direito agora falei a Ah interessante Então uma das coisas que que o professor sandec sempre falou aqui trabalhar os dados né que a gente entrega pra Inteligência Artificial eh muitas vezes é o que faz a diferença pessoal trabalhar os dados então a gente recebe dados brutos um livro milhares de páginas né Eh a organização pode fazer sentido de repente para o leitor né mas para quem vai fazer pergunta para a inteligência artificial é bem isso a a a resposta tá lá no primeiro capítulo tá no 10º e no quinto
trechos da resposta fica uma zona né no livro de 1500 páginas 1300 páginas então Eu agrupe dividi o livro em partes né e reagrupe a coisa toda de forma tal que ficasse mais próximo né os assuntos ficassem mais próximos passou a dar super certo cara o cara ficou doido Falou você fez um você fez um graf hag manual né por isso que eu tô rindo aqui eu tava ouvindo aqui rindo que pariu fiz um troo que eu nem sabia o que que era legal mas a ideia é essa Eu acho que a genialidade tem esse
lance né você também fazer uma coisa e adaptando que você você tem na mão aí você você vai avançando né no conhecimento vai aprendendo novas técnicas Não isso aí eu já via dá para fazer N é isso basicamente eu lembro eu lembro eu lembro das aulas professor que o senhor falou aqui que sempre organizem os dados você se você penerar os dados entregar os dados de alguma forma organizados você ajuda a resposta ajuda Claro e também tirar a lorota né porque assim a a tem tem os texos tem muita lorota no meio do caminho então
você tira as coisas mais importantes faz resumos importantes e aí com certeza Tomara que a pessoa é tomara que a pessoa não veja isso eu fiz Exatamente isso também falei que pariu isso aqui eu vou jogar fora is aqui não ser PR nada tira lorota do meio do caminho tem mais pergunta como é que tá aí deixa eu ver im gente Evandro pra gente terminar beleza galera Sant Fala meu parecida com a com a questão do Alex eh eu imaginei esse primeiro imaginar direito o problema e e pensar direito sobre o problema antes de atacar
as as respostas em si aí o que que eu fiz eu primeiro eh coloquei uma grande quantidade de informação livro dentro do GPT e comecei a fazer perguntas sobre palavras chaves eh me faça 50 100 perguntas sobre o livro faça resumos sobre os capítulos é como se fosse um graf hag só que manual eh em texto e depois o o texto e assim as perguntas eram muito mais fáceis de serem eh eh respondidas e a retação também era melhor isso veja bem é que é que a gente tá tratando Exatamente isso aí a questão é
a é o pré-processamento de dados entendeu tudo tem a ver com isso quando você melhora fazer isso é quando você melhora a sua estrutura de texto retirando coisas que realmente que eu tô falando Tô brincando é para eu falo as brincadeiras mas para você fixar né que eu falo assim ó tira as lorotas quando eu falo tira as lorotas você acha graça mas na hora que você for fazer o seu pré-processamento você vai lembrar tirar vou tirar essas lorotas você tá dizendo seg eu vou tirar o que é excesso de informação aquela informação que é
desnecessária né então quando você tira essas informações que são a gente chama de lixo né você acaba melhorando A performance e quando você estrutura melhor seus textos aí com certeza melhora bastante mas aí quando você começa a estudar estruturas de informação ou estrutura de dados e as estruturas de dados na computação servem exatamente para facilitar o caminho entre a informação aí fica mais potência é o caso do graf ha Então você eu me lembrei muito que é interessante é que vocês quando vocês vão vão tocando as coisas assim né Vocês vendo a medida que você
vai criando memória física do da da ferramenta da linguagem e tudo mais tal você vai criando eh [Música] perguntas sobre aquela estrutura que você tá criando e respostas para melhorar ela e vai começando a se assemelhar ao que os as grandes técnicas US que você não sabe que intuitivamente você percebe que é melhor fazer de determinada forma É isso aí o grande segredo nessa hora é o seguinte e é ir atrás do ouro do conhecimento Onde está o ouro do conhecimento ouro do conhecimento estão nos artigos científicos você vai fazer você pega essa intuição que
você tem de algumas palavras chave sobre o que você tá fazendo joga numa base de dados de artigos científicos você vai encontrar uma série de coisas lá você começa a ler os artigos E o pessoal tá preparando de informação tem gente que gente que sofreu com esse problema mesmo problema que você tá passando tem uma série de pessoas que também sofrer da mesma forma né né E aí elas vão começar a publicar que que é um artigo científico é interessante né e eu falo sempre de artigo científico é alguém que teve uma dor certo teve
um problema ele tentou resolver esse problema beleza e aí ele achou uma possível solução pelo menos assim uma taada na solução colocou esta solução de forma pública para você ler e aprender com aquilo e tentar fazer igual ó graça em alguns alguns casos né de graça tá lá aí o cara isso é ouro puro cara é ouro puro você transforma você pega essa coisa e transforma no seu conhecimento Olha a potência que vai ser seu projeto na sua empresa alguma coisa assim entendeu E é isso então o ouro da da do conhecimento tá exatamente aí
então você pega pela sua intuição Você acha que tem um caminho aqui e a partir desse caminho eu vou achar se soluções que alguém fez aí eu eu tô sofrendo alguém também sofrendo Será que essa pessoa será que o pessoal não fez alguma coisa acha lá é que você começa a aprender e começa a colocar em prática isso é legal demais cara no dia que eu fiz isso eu só tinha visto o livro do h de canva Uhum E no h de canva sempre batia vamos fazer o pré-processamento dos dados eh e aí eu peguei
a mesma coisa para tentar dados para o sistema digerir melhor eh a saída dele show de bola tem mais uma pergunta essa tem que ser a última mesmo Alex olha lá não é não é nemuma pergunta é é é bem essa questão de de passar uma peneira né então eu perguntei pra pessoa do livro né o autor do livro falou olha só aqui você tá tratando também sobre os efeitos da de uma mordida de cobra eh o veneno né da cobra na pele isso é interessante para o que você tá Não isso aí não isso
aí não me interessa não opa já jogo Fora esse capítulo enfim e essa essa esse essa interação com o cliente muitas vezes torna possível a gente deixar de fora uma montanha de coisas sim que enfim acabam se a gente passa paraa Inteligência Artificial ela acaba tendo que processar aquilo ali porque você passou para ela né Então as primeiras sem for do livro era assim bem isso a história da minha família com a dermatologia e não sei o que BL você lemb mas você lembra que eu Mas você lembra que eu venho falando que o principal
o principal componente de uma de um grupo de inteligência artificial é exatamente a pessoa que é dona do negócio lembra ex Exatamente isso aí porque primeira coisa é ela que vai pagar tua conta [Risadas] C iso é perfeit isto é muito bom isto é muito bom segundo ela vai te fornecer os dados né terceiro ela vai validar se aquilo é aquilo mesmo está fazendo tem tem tem compli com aquilo que você que ela tá precisando né Então veja é com certeza pessoal acha que o o o principal eh principal papel dentro da equipe de Inteligência
arcial é é dos Engenheiros não é mas exatamente essa essa pessoa tem que tem que é a dona do negócio entende do negócio senão você não consegue veja bem especialista no negócio né o que que acontece a nossa a área da computação é uma área meio Ela não é uma área fim é uma ciência que apoia as outras ciências certo então o objetivo dela qual que é eh resolver problema então eu só consigo resolver problema se eu tiver problema e quem é que tem o problema exatamente o especialista no problema entendeu Esse cara é o
cara que você tem que sair com ele tem que pagar janta para ele tem que fazer tudo para ele entendeu porque é esse cara que vai resolver teu problema entendeu por exemplo tem problema aí e sei lá tem aí pneumonia como eu já falei né A questão do pneumocare lá o radiologista é o cara entendeu tem grudar no cara para entender o que que significa pneumonia em radiografia Chegamos em 3 horas de transmissão Eu acho que já deu né caramba a gente se encontra sábado beleza intensivo de Python Eu espero que você tenha gostado dessas
3 horas que nós passamos junto só para você entender como é que é feito as mentorias nossas aí nossos encontros né E então assim uma alegria muito grande é muita discussão muita pergunta muita dúvida e assim era para ser 1 H me todas essas aulas 1 hora me no máximo 1 hora no máximo mas nunca fica só 1 hora me todas as min todas as minhas mentorias agora vou voltar meus eu não tô vendo eles direto um pouquinho para você mas muito obrigado a vocês que tiveram com conosco aí junto esse esse primeira essa primeira
fase aí do n como eu digo eu só tenho aluno só um aluno bom brincadeira todo mundo aqui é de uma área diferente da Computação tem gente da Computação mas a maioria do pessoal não é da Computação mas o objetivo principal aqui como eu já falei para vocês e nunca foi ter algum tipo de ganho financeiro até porque nem dá para ter né cara vende vende o livre por R 100 e entrega tudo de graça depois vendendo curso aí de 10.000 de 8000 de 12.000 ent andeca entrega de 100 tem um master de 15.000 mas
o que acontece é o objetivo do canal nunca foi a usura no dinheiro né a ideia principal é transmitir conhecimento etiv fazer com que as pessoas saibam da Inteligência o Mig grila às vezes é a pessoa vim pega meu conteúdo e é gratuito a maioria dele e pega e vende caro aí que eu fico sinceramente porque o que era para ser entregue de graça de graça paraas pessoas pra gente transformar as pessoas danado lá tá vendendo caro para PR PR para ficar com usura E aí a gente continua esse esse círculo de dominação né de
alguns que tem o conhecimento de alguns que tem o dinheiro todo mundo se lascando isso eu quero quebrar a ideia então por isso que os livros são um valor justo mais simbólico do que tudo com certeza cheg nem perto do do fse pagar aqui por um conteúdo esse que a gente fez aí em dois meses com aqui paga nem por Cent do conteúdo desse valor do livro E além disso tivemos duas aulas a mais eram só quatro aulas né temos duas aulas a mais por minha conta que essa questão né então você veja que realmente
ente eu poderia ter dito para vocês né ó não é o seguinte vai ter um acréscimo aqui não é quem vai querer objetivo aqui não é ganho financeiro Já falei para você tem que não acredita cara não acredito mas tudo bem não tem problema né tem problema eu sigo eu não vou eu sempre digo isso isso eu digo sempre uma frase aqui em casa eu vou repetir para vocês eu Eu nunca vou deixar quem eu ser quem eu sou porque a pessoa não sabe quem ela é beleza é isso tá bom valeu pessoal um grande
abraço a todos aí o pessoal do YouTube Um beijão para vocês Beijão a galera do crui e até a próxima sandeco Parabéns obgado sensacional sandeco at até sábado valeu até sábado aí viu é sábado obrigado Sábado 8 horas da manhã para Inteligência Artificial entre no nosso grupo do WhatsApp aqui seja bem-vindo com a gente desfrute de forma gratuita todo o conteúdo de top para a gente entrega o melhor valeu pessoal até mais tchau abço Parabéns boa noite valeu termin a transmissão