Entendendo Como ChatGPT Funciona - Rodando sua Própria IA

401.44k views15057 WordsCopy TextShare

Fabio Akita

Não, AGI não está próximo de acontecer. Quais são os limites da atual tecnologia de transformadore...

Video Transcript:

Olá pessoal Fábio Akita Esse é um episódio que eu tava tentando evitar fazer primeiro porque eu acho que vai ser um dos temas onde parte do vídeo vai acabar ficando obsoleto meio rápido já que as tecnologias de a tão acelerando e mudando bastante ainda e segundo porque eu mesmo nunca trabalhei com ya a maioria das coisas que eu explico nesse canal eu já me envolvi em projetos reais de alguma forma por isso não é só teoria a experiência mas e Ah eu brinquei mas nunca trabalhei nem fiz pesquisa acadêmica nem nada disso por isso nunca

me senti adequado para explicar mas considerando que quase a totalidade de vídeos feitos sobre o assunto hoje são de pessoas com menos conhecimento ainda fazendo afirmações cada vez mais absurdas até eu certamente consigo fazer muito melhor para variar os oportunistas já saíram lançando cursos e afins E no fim do vídeo eu vou explicar porque todos são uma droga e você deve evitar e eu também vou explicar de novo porque ela não vai substituir programadores hoje eu vou explicar o que de fato é um chat GPT e onde estamos quando se fala então vamos lá esses

dias eu resolvi brincar de iar e o objetivo era ter o meu próprio chat GPT rodando offline totalmente local na minha máquina sem conectar com nenhuma API de terceiros como da operar isso ficou fácil porque agora existem diversos esforços da comunidade de código aberto em particular projetos de Open llm ou lar de laind models que é a categoria de a onde se encontra um GPT esses esforços ganharam força quando a meta decidiu abrir seu modelo Lama em fevereiro de 2023 as Big tag tem diversos modelos prontos cada um para algum uso específico desde respostas Gerais

ou mais focadas em código e assuntos específicos por exemplo a operar tem os modelos GPT 3gpt-4 codex a Microsoft tem o zero Megatron em conjunto com nvid o Google tem modelos como Uber Palma lambda Minerva e outros e a meta de novo tem o Pt Galactica metal mlama alguns desses modelos são citados mas são fechados como o novobard do Google ou o próprio gpt4 da opeai mas o lançamento do lama ao público foi um evento importante e a meta parece que liberou vários outros como opt e galáctica e a primeira parte do vídeo de hoje

vai ser entender o que diabos são esses modelos Isso foi em fevereiro esse vídeo tá saindo em junho só quatro meses e de lá para cá a comunidade usou o lama para criar derivados mais otimizados e menores para rodar em computadores menos parrudos surgiram diversas variantes como alpaca vincula dipt for coala Dolly e dezenas de outros literalmente dezenas o site hugin Face que é um repositório de modelos e ferramentas para inteligência artificial tem estado uns 200 modelos diferentes e o que dá para fazer com esses modelos abertos deixa eu mostrar eu queria um chat GPT

pessoal offline que ninguém sabe o que eu tô conversando com ele sem filtro sem controle sem nada só eu e a ferramenta existem vários projetos abertos que implementam interface web similar ao chat GPT Onde eu posso digitar perguntas ver as respostas daí a e fica conversando com ela sem precisar estar conectado na internet Olha só esse exemplo [Música] [Música] [Música] [Música] se assistiram meu Episódio sobre games em máquina virtual sabem que eu tenho uma máquina que alguns consideram parruda uma AMD 5950x de 16 Kors 32 treads por cor mais 4 GB de Ram ddr4 uma

GPU nvid rtx 3090 com 24 GB de memória gddr5 fora meu nasci nolo de 60 terabytes conectado em rede de 10 GB e meus testes foram feitos uma máquina virtual que emo rodando Ubuntu normal com pé frio de PSA para ter acesso direto a GPU nvid todos os detalhes sobre essa aqui emo eu mostrei no vídeo de games em máquina virtual sem nenhum motivo em particular eu escolhi o projeto aberto Texx de Generation web que é uma aplicação web escrita em Python ela simula a interface web de chat do chat GPT por baixo carrega bibliotecas

como Beat stand de bikes e outros que eu vou explicar depois Daí podemos baixar modelos e fazer ele carregar um deles e no caso eu tô vincula 30b quantizado e de novo eu já vou explicar o que significa dizem que tem uma qualidade parecida com gpt4 mas para mim pareceu mais um gpt3 as respostas que eu consigo no GPT quatro ainda são mais completas do que nesse vicuna mas mesmo assim é impressionante tão vendo eu tô conversando de boas e não tá conectado com nenhum serviço online de ninguém nem da Microsoft nem da Open ai

nem do Google tudo rodando offline local dentro da minha máquina virtual e eu vou repetir porque quando postei sobre isso no Instagram é muita gente ficou confusa sim dá para rodar um programa similar ao serviço de chat GPT da operar num computador normal e não se trata de uma demonstração hellow World realmente funciona não precisa de um monte de servidores parrudos para conseguir isso ué mas eu achava que precisava ter o tamanho de uma Microsoft ou Google para fazer isso o que que mudou a exigência de hardware depende da complexidade do modelo como eu falei

eu tô usando vicona de 30 B de parâmetros mas existem modelos menores Como o próprio vicona de 7 bilhões de parâmetros ou a Ada da Microsoft só 350 milhões e se o modelo for pequeno suficiente é possível até rodar no Bom Smartphone Android ou iceberry Pie com upgrade de Ram e o tamanho do modelo é um dos fatores que pode afetar a qualidade das respostas portanto quanto menor o modelo mais simples seriam as respostas eu simplifiquei esse tamanho Guarda essa informação que eu já já vou explicar mais deixa eu recapitular um pouco o que diabos

é isso de modelo honestamente Eu mesmo não sei dizer em todos os detalhes pra isso precisaria ter estudo e treinamento e inteligência artificial em particular redes neurais muita gente aprendeu isso em optativas ou iniciação científica na Faculdade de Ciências da Computação eu não vou tentar dar explicação acadêmica mas sim dá uma intuição para a maioria de vocês conseguirem ter uma imagem na cabeça e acadêmico sejam compreensivos e se quiserem complementar sintam-se à vontade nos comentários abaixo pense em redes neurais como uma simulação do aprendizado que acontece no nosso cérebro sabemos que temos neurônios aprendizado e

memória acontece quando temos sinapses conexões desses neurônios ou comunicação ou melhor ativação de um neurônio que é como se ele escolhesse um caminho dentre muitos e um neurônio pode ter milhares de conexões dizem que umas 7.000 e de novo explicação grosseira mas é mais ou menos isso que temos em redes neurais assista os vídeos do canal true One Brown sobre redes neurais para entender em mais detalhes no caso específico de texto poderemos pensar que a forma de fazer computadores aprenderem a interpretar e gerar texto seria cadastrando regras gramaticais ortográficas vocabulário dicionários e assim ele conseguiria

construir frases gramaticalmente corretas mais ou menos como você pensa que é o jeito certo de aprender uma língua nova como em inglês ou francês num curso qualquer Esse parece ser um jeito intuitivo certo mas se você assistiu o meu vídeo de como eu aprendi inglês e a minha live com o sobre aprender japonês já sabemos que não é assim não se trata de decorar dúzias de regras nem no aprendizado em geral nem é inteligência artificial não existem regras como um monte de IFES Pense por dois segundos quando foi a última vez que você escreveu um

texto 100% gramaticalmente formalmente correto concorda que um texto assim seria super estranho sem gíria sem maneirismo sem colonialismo com palavras consideradas rebuscadas exatamente o que associamos como um robô falando eu já falei isso nesses outros vídeos mas eu vou repetir como você aprendeu português foi lendo um livro do tamanho da Bíblia lotado de regras gramaticais quando eu tinha um ou dois anos de idade como um bebê que nasceu nos Estados Unidos aprendeu inglês como que um bebê que nasceu na China aprendeu chinês nenhum deles usou nenhum livro nenhum curso nenhuma regra simplesmente passaram um tempão

ouvindo os pais e pessoas ao redor e começaram a repetir o que ouviram bem errado No começo todo mundo vai dando feed quando o bebê tinha uma intenção sei lá dizer que tá com fome ele tentava juntar palavras que já tinha ouvido antes e que parecia descrever o que queria se os adultos ao redor dessem comida é o feedback que o que ele falou fazia sentido e assim ele vai associando as combinações de palavras com comportamentos vai refinando seu aprendizado fazendo Novas sinapses Novas conexões e pouco a pouco melhorando a comunicação e se fazendo entender

melhor a Grosso moda é como seria o que chamamos de Treinamento supervisionado no mundo de Inteligência Artificial nós não programamos regras gramaticais nem cadastramos palavras num banco de dados manualmente ficamos fazendo e fiz IFES para montar frases em vez disso começamos com o corpo de dados gigante por exemplo todos os artigos da Wikipédia todos os códigos abertos disponíveis no github todos os papers acadêmicos disponíveis publicamente todos os livros digitalizados no Google books bastante texto dezenas ou centenas de sites de texto puro para entender isso deixa eu fazer uma tangente e explicar um conceito relacionado que

não é em si só Inteligência Artificial mas faz parte da matéria na Faculdade de Ciências da Computação se aprende sobre processos estocásticos que estuda aleatoriedade probabilidade ou melhor a evolução de um sistema ou fenômeno ao longo do tempo de forma probabilística ele descreve o comportamento de um sistema ou quantidades que mudam aleatoriamente ao longo do tempo em particular eu quero falar de cadeias de markov eu não tô falando que o chat GPT é uma cadeia de markov é só para ilustrar um ponto cadeias de markov é uma das formas de representar e analisar sequências de

eventos ou estados onde a probabilidade de transicionar de um estado para outro depende somente do Estado atual é um sistema sem memória ou backtrack sem considerar a sequência de todos os estados anteriores só o último em resumo é um conjunto de Estados e probabilidades de transição se parecer o vamos ver um exemplo prático Digamos que em vez de ter gigabytes de textos como descreviantes nosso corpo de Treinamento sejam só três frases em português eu gosto de comer maçãs e daí ela gosta de jogar tênis e finalmente ele prefere ler livros Podemos construir um modelo baseado

nessas frases onde os estados são palavras ou tokens e as transições entre estados representam a probabilidade de mover de um Token para outro Vamos Construir esse modelo simplificado as transições são probabilidades Esses são exemplos mas Digamos que a transição do Token ou estado eu para o estado gosto é probabilidade um ou seja 100%, mas a transição do Estado D para comer é 0.5 ou 50%, porque poderia ser para jogar que é 0.5 também para ficar claro na primeira frase temos de comer mas na segunda frase temos de jogar por isso a probabilidade do Token temos

duas possibilidades 50% de chance para cada como temos poucas frases treino as transições são quase 100% de uma palavra para outra porque esse modelo só conhece três frases num treinamento de verdade com gigabytes de textos teremos trilhões de possibilidades diferentes e probabilidades pequenas e fracionadas como 0.0000 um dois três quatro blá blá finalmente Digamos que começamos a digitar um texto e queremos que esse modelo continue completando a frase para gente podemos usar o modelo da cadeia de markov para prever o que seria a palavra mais provável baseado nas probabilidades de transição que vimos na lista

anterior por exemplo começo digitando eu e a probabilidade da próxima palavra ser gosto é 100%. então é isso que ele dá de previsão se digitar ele a probabilidade segundo a lista é 100% para prefere por causa de smartphones todo mundo já viu isso em ação de verdade é a funcionalidade de autocorreção que nem todo teclado olha nesse exemplo começa digitando uma palavra e o teclado sozinho vai sugerindo a próxima palavra e podemos só aceitar a sugestão ele vai sozinho completando a frase e claro se ficar fazendo só assim a frase vai ficando meio sem sentido

nenhum mas ele consegue gerar uma frase que mais ou menos parece um humano que escreveu não acha eu vou repetir isso é uma explicação simplificada tem várias outras técnicas em cima de cadeias de markov mesmo para um tecladinho simples de IOS ou Android mas em linhas Gerais pense que em vez de três frases o modelo desses teclados foi pré treinado com milhares de frases e o modelo é essa lista de combinações de palavras e as probabilidades da próxima palavra dada uma palavra anterior essas probabilidades é o que chamamos de pesos e mais importante em nenhum

momento usamos quaisquer regras hard code de gramática ou ortografia ou IFES ou templates ele vai completando a frase puramente usando esses pesos aprendidos no treinamento e nada mais agora vamos voltar para o chat GPT ou para mim a versão local do Tex de Generation com vicona vocês nunca acharam estranho que as respostas sempre demoram e ele vai escrevendo uma palavra de cada vez alguns poderiam achar que é só uma animação arbitrária para fazer parecer que o chá que GPT é uma pessoa digitando mas deixa eu rodar uma versão fora da interface web na linha de

comando mesmo prestem atenção para ficar mais claro eu vou colocar do lado monitoramento da minha GPU a ferramenta da nvid é chamado NVIDIA smi que faz o monitoramento dos recursos sendo usados na GPU notem que durante a composição da resposta a GPU tá em uso constante processando alguma coisa sem parar eu não sei porque usa só 50% do processamento disponível mas de qualquer forma a resposta não é instantânea não é uma animação feita só para fazer graça é que ele demora isso mesmo palavra a palavra cada palavra nova que vai aparecendo tá gastando o processamento

da GPU se elevou cinco segundos para dar resposta foi 5 segundos que a minha GPU ficou processando sem parar conseguem ver assimilaridades entre o auto corretor do seu tecladinho de celular e o processo de resposta do chat de PT internamente ele tá fazendo algo similar a procurar a probabilidades na cadeia de markov mais claro o modelo de GPT lama micona bar e outros é mais complicado que um mero o modelo de markov vamos entender uma das primeiras notícias anunciando o chat GPT saíram gerou Muita confusão que persiste até hoje por exemplo quando o chat gpt4

foi anunciado eles mencionam uau o chat GPT 3.5 tinha 175 bilhões de parâmetros mas o chat GPT 4 tem incríveis sem a 170 trilhões de parâmetros a única coisa que o jornalistas e Vocês entenderam foi uau bilhões para trilhões de whatever trilhões é absurdamente maior que bilhões então o GPT novo é milhões de vezes melhor e o GPT 5 vai ser mais milhões de vezes melhor E é assim que todo mundo mente e se auto engana com números sem saber o que significa esse meu vicona rodando localmente na minha máquina tem meros 30 bilhões de

parâmetros Putz quer dizer que ele deve ser pelo menos cinco vezes pior que o chá de GPT antigo né Nem chega aos pés do gpt4 só que se olhar alguns artigos que descreve o vico na menor o de 13 milhões de parâmetros muitos que rodando diversos testes os mesmos que a própria Open a usa para avaliar o GPT deles Dizem que o vico na 13 B chega a 90% do nível de qualidade do gpt4 ou Google Barbie e eu vi cuna sendo derivado do lama do Facebook nesses mesmos testes ultrapassa o lama original como que

pode isso antes de mais nada o que diabos são esses Tais parâmetros no contexto de machine learning parâmetros se referem aos pesos que o modelo aprende durante o processo de treinamento de forma simplificada e grosseira lembra a lista de probabilidade de transição de estados da cadeia de markov que eu mostrei no exemplo aquilo poderíamos chamar de parâmetros no nosso treinamento com só três frases gerou um modelo de 16 parâmetros Pense numa lista como Aquela só que com bilhões de linhas 13 bilhões ou 30 bilhões no caso do vicona ou 170 trilhões no caso do chat

de gpt-4 e lembra como no exemplo dado uma palavra podemos ir na lista de probabilidades e ver qual poderia ser a próxima palavra o nosso modo é como GPT ou vicou na fase só que em vez de considerar só a palavra anterior e procurar a próxima ele vê Quais foram as palavras anteriores e leva todas em consideração para tentar prever a próxima palavra lembra como minha GPU fica processando sem parar enquanto monta a resposta é isso que ele está fazendo pesquisando no modelo pela próxima palavra mas considerando parte ou todo o texto anterior incluindo as

palavras que ele mesmo sugeriu aí vai ficando cada vez mais pesado e por isso demora e antes que o pessoal acadêmico me crucifique é melhor eu me corrigir aqui eu repeti várias vezes a grosso modo a grosso modo porque o modelo do GPT não são probabilidades de pares de palavras daquele jeito bonitinho como no exemplo intuitivamente poderíamos pensar que quando se quebra um texto longo teremos conjuntos de palavras mas vamos Recordar metáfora do bebê aprendendo todo mundo já deve ter percebido que um bebê não houve um adulto falar uma palavra e sai repetindo bonitinho igualzinho

certo parte da diversão é justamente ver ele errado no começo e ir ajustando o bebê tenta reproduzir o que ele acha que ouviu daí você dá o feedback negativo e ele vai tentando de outras formas até uma hora acertar no mundo de machine learning e Deep learning podemos usar isso como metáfora no treinamento ele não isola palavras isola paternes funcionalidades ou features do material de Treinamento fora de ar no mundo de full Tech de search ou em processamento de linguagem natural temos ferramentas como elástico que eu expliquei no episódio do Twitter eles não quebram os

textos indexando palavras mas sim gramas quem já leu a documentação deve ter visto o termo andream que são sequências de n itens ou tokens pode ser uma palavra inteira mas pode ser só parte de uma palavra uma sequência de só uma letra seria um unigrame duas letras um baile três letras try e assim por diante quando indexação texto é mais útil indexado do que palavras inteiras é o que nos permite coisas com mais palavras parecidas ou que som parecido que tem mesmo sufixo ou mesmo prefixo como conjugação de verbos mesma coisa com o teclado de

auto-correção ele indexa n grams por isso você digita a pesquisa tudo errado no Google mas ele diz no resultado Você quis dizer x o mundo de indexação de textos é todo baseado no conceito de Andreas vale a pena estudar isso depois quer dizer que o tal modelo do GPT são pesos em cima de Andreas Infelizmente também não é assim fácil Eu mencionei and Granny só para explicar como Podemos dividir palavras de outras formas não intuitivas agora o problema com sinapses no nosso cérebro ou redes neurais é que os pesos não são aplicados em cima de

ideias discretas como palavras ou letras ou imagens inteiras e de novo para entender Tecnicamente como redes neurais funciona procure material de universidades como não é machista ou lugares assim e de novo acadêmicos peguem leve comigo no fim do dia um modelo é como se fosse um banco de dados contendo probabilidade ou pesos de um elemento para outro elemento parecido com exemplo da autocorreção mas o principal é que não são necessariamente palavras não são também só and gramms pode ser qualquer tipo de paterno que foi identificado no aprendizado pode ser uma letra para uma palavra pode

ser um by gram para um trygram pode ser muitas coisas por exemplo poderia ser ef para yw probabilidade 0.01234 que que isso significa isoladamente não significa absolutamente nada ela só vai fazer sentido dentro de uma rede de pesos a probabilidade final é uma composição de múltiplos Passos pelos nós dessa rede o modelo não é uma lista provavelmente é mais comum espaço vetorial Monte dimensional tipo matrizes de matrizes eu expliquei espaços vetoriais no episódio do Twitter também similaridade de cosseno álgebra linear lembram e de novo para visualizar não pense no modelo como sendo uma lista como

uma raiz simples Pense como uma rede a Reis dia Reis multidimensional se multidimensional não é intuitivo para vocês pense num elemento simples primeiro tipo uma variável de tipo inteiro Isso é o que chamamos de valor escalar com zero dimensões representa um único valor agora uma rei de escalares como uma rede inteiros isso é um vetor uma lista de uma única dimensão e em seguida em vez de escalar se eu fizer uma rei de Arrais onde cada elemento do Arreio é outro Arreio e esse unidimensional agora temos uma matriz que é um retângulo ou uma grade

de valores escalares finalmente e se esse R é Interno também tiver a raiz como elementos agora temos uma rede arreios de Arrais tridimensional e podemos ir adiante esse último arrai também pode ter a rede de elementos que tem a rede de elementos que tem a rede de elementos Aí temos matrizes multidimensionais ou mais corretamente tensores de alto ordenamento ou tensores nidimensionais aliás tudo isso que eu expliquei são tensors sabe do tal tem surf do Google um escalar é um tensor de 0 dimensões um vetor é um tensor de uma dimensão uma matriz é um tensor

de duas dimensões e acima disso é um Hi Order tensor ou and Dimensional tensor então voltando para o modelo do GPT ou vicona não pense como no exemplo simples do autocorretor que foi somente um vetor um arreio único dimensional de pesos pensa que esses pesos estão estruturados intensores nidimensionais todos esses conceitos que eu venho explicando não são a ponta do iceberg são raspa da conta do iceberg Pode parecer que eu quero dizer com chat GPT não é mais que uma cadeia de markov só que maior e não é isso é só uma metáfora para explicação

deixa eu tentar explicar Qual foi a tal revolução que permitiu o salto de um mero alto corretor para um chat de GPT mas entenda redes neurais e depilary existem faz décadas a comunidade de Ciências da Computação vem fazendo descobertas e refinando as tecnologias faz muito tempo não foi do nada que isso apareceu seguindo o exemplo do o corretor deve ser fácil de perceber Um dos problemas ele só usa a palavra anterior para tentar descobrir qual a próxima palavra por isso fica muito rapidamente a frase sem sentido da impressão que foi um humano que escreveu mas

um humano bem burro é diferente de um punhado de palavras completamente aleatórias mas as frases que gera são bem inúteis quanto maior tentar fazer a frase pior vai ficar claro o certo é que a próxima palavra leve em consideração não só a palavra anterior mas todas as palavras anteriores para manter a coerência é isso que poderíamos chamar de backtrack ou recorremse isso tem que ser levado em conta durante o treinamento não basta quebrar o texto em palavras e só fazer o peso da palavra seguinte tem que ser o peso da palavra seguinte dado as palavras

anteriores e é aí que nasce coisas como RN ou recorrent New Networks rn's foram desenhados para lidar consequências de tamanhos variados como sentenças dados de séries de tempo sinais de discurso eles conseguem processar inputs como um um passo de cada vez e ao mesmo tempo mantendo um estado interno escondido que mantém informações dos Passos anteriores ou seja ele mantém memória durante o aprendizado é como a gente aprende também uma coisa é aprender por exemplo a palavra dependendo do contexto pode significar coisas diferentes Pode ser que significa Putz que esse Macbook novo ou seja positivo ou

pode ser Putz que trampo de difícil ou seja negativo e várias outras variações precisamos de contexto e contexto precisa de memória para gerar pesos diferentes para contextos diferentes consegue imaginar o trampo de processar pensando dessa forma rn's usam técnicas como BTT ou back propagation free time literalmente propagação reversa através do tempo para comportar gradientes e atualizar os parâmetros do modelo então não é um processamento que você pega um texto ele é só uma vez do começo ao fim e já gera um modelo escrito linearmente do começo ao fim tem que ficar para trás no modelo

para ajustar e já que é para dificultar em todo paperdia por aí vamos barrar nesse termo Gradiente deixa eu resumir Gradiente se refere a derivada da los function função de perda ou de custo e Putz Akita eu nunca vou usar cálculo na vida é perda de tempo bom Eis um pequeno exemplo para que que serve derivada ela serve para medir a taxa de mudança de uma função e em resumo a derivada nos diz como o resultado de uma função muda a medida que fazemos pequenas modificações nos valores de entrada lembra de física cinemática no colegial

fórmula para saber o espaço ao longo do tempo fórmula de velocidade ao longo do tempo a de velocidade é derivada da fórmula de espaço porque velocidade é a taxa de mudança da fórmula de espaço ao longo do tempo aceleração é a taxa de mudança da fórmula de velocidade em particular gradientes em cálculo de múltiplas variáveis é um vetor que aponta na direção da ascendente mais íngreme da função isso é super importante em otimização de ritmos como greating decente ou descida de Gradiente que interativamente atualiza os parâmetros para encontrar a função de custo mínimo dado que

Gradiente nos ajudam a entender a taxa de mudança de resultados de uma função podemos usar para encontrar os pontos de máxima e mínima para otimização e esse conceito é importante em otimização de machine learning em machine learning tem um troço que chamam de Loss function também conhecido como função de custo que é uma função matemática que quantifica discrepância entre resultados previstos de modelo com os valores de verdade e lembrando uma das formas de treinar é dar um monte de dados de Treinamento daí pedir para um modelo devolver respostas a várias perguntas e ver se as

respostas estão corretas justamente para calibrar o aprendizado lembra do bebê aprendendo a falar e olhando para nossa cara para ver se a gente entendeu Tipo isso o objetivo do tal treinamento é ver quão bem o modelo performa determinadas tarefas a escolha de qual função de custo usar depende do problema que queremos resolver como regressão classificação geração de sequências por exemplo em tarefas de regressão uma função de custo popular é o ms-e ou me Squared Air erro quadrado mediano ou o mae que é mim é Absolut Air erro absoluto mediano em tarefas de classificação tem custo

de entropia cruzada e assim por diante o importante é entender que treinamento não é um troço aleatório tem funções de métrica e controle para calibrar e otimizar durante o treinamento parâmetros do modelo são ajustados para minimizar essa função de custo usando algoritmos de otimização como o Green decente agora vocês entendem uma das formas que cálculo influencia a qualidade do treinamento de um modelo de rede neural e para hoje pense em rede neural como uma caixa preta que nem uma função que você programa na sua linguagem de programação ela tem variáveis de entrada e algum retorno

a entrada seria as Tais toneladas de texto por treinamento daí no meio nessa caixa preta esses dados são processados de alguma forma e o retorno vai ser o modelo um monte de mencionar essa etapa no meio é o processamento dos textos e materiais de Treinamento que passamos processos como tokenização quer quebrar o texto em listas de sequências de palavras são uma série de transformações para massagear esses dados em diversas camadas escondidas essas transformações envolvem cálculo por exemplo soma ponderada cada neurônio de uma camada escondida recebe inputs de uma camada anterior e a cada empute assinalado

um peso um neurônio computa a soma ponderada dessas entradas onde os pesos determinam a significância da contribuição de cada input para saída do neurônio daí é só uma ponderada pode ser passada para uma função de ativação que introduz não linearidade e determina a saída da função não linearidade e sistemas complexos é um assunto gigantesco nem vou tentar explicar mas para ter uma intuição pense assim você tá acostumado a pensar em sistemas lineares por exemplo se um litro de gasolina dá para andar 15 km então 10 l gasolina vai dar 150 km mas não linearidade é

que nem tentar prever o tempo só porque temos 80% de umidade no ar e no passado Vimos que isso indicava uma chuva de sei lá 20 MM não quer dizer que se eu medir Hoje 80% vai dar os mesmos 20 MM pode ser 40 pode ser zero tem uma rede de outras variáveis algumas mensuráveis algumas desconhecidas uma influenciando a outra variáveis minúsculas podem amplificar resultados completamente inesperados é o famoso caso da borboleta de lorens aquela história que uma borboleta bate as asas no Brasil e tem um tsunami no Japão não foi a borboleta que causou

o Tsunami não é linear Não tem causalidade direta mas quer dizer que essa minúscula contribuição somada milhares de outras pode ter causado do tsunami depois parem pra ler sobre Teoria do Caos é fascinante e o mundo real é cheio de efeitos não lineares e levamos isso em conta em redes neurais o nosso cérebro tem aprendizado não linear e é o que tentamos simular com redes neurais agora Deep learning Como o próprio nome diz é aprendizado profundo e profundidade se refere a várias camadas de aprendizado aquela função caixa preta que Eu mencionei imagine várias delas em

série uma chamada a outra várias camadas de profundidade lógico explicação simplificada mas só para dar uma noção enfim a parte importante é que processar texto em Deep learning usando técnicas como rnn e BTT seria absurdamente caro para manter toda a memória e fazer todo esse backtrack na força bruta E aí que entra o famoso paper do Google literalmente atenção é tudo que você precisa publicada por vasto One e equipe em 2017 é o paper que introduz a arquitetura de Transformers os famosos transformadores que permitiram essa geração de llls como GPT em pouquíssimas palavras ele introduz

o mecanismo de selfie atente ou Auto atenção também conhecido como atenção escalada de produtos escalar eu expliquei escalar no contexto de espaços vetoriais no episódio do Twitter eu não vou explicar de novo mas esse mecanismo permite o modelo pesar a importância de diferentes posições na sequência de entrada possibilitando capturar efetivamente as dependências longas eu sei é difícil de entender isso e também para eu explicar mas lembra como RN precisa manter um Estado em memória para lembrar o contexto selfie atento é uma otimização disso em vez de ser recorrent nível ele passa poder usar feed forward

Nero Network da forma como eu entendo em vez de um processo onde você dá um passo para trás antes de poder dar um passo para frente agora é só passos para frente o que possibilita isso é auto mecanismo de auto atenção elimina a necessidade de recorrência ou com evolução e ainda permite paralelizar o processamento antes Como passo o seguinte dependia do passado anterior que é que isso é feito em série em sequência linear e parte da dificuldade de conseguir rodar coisas em paralelo eliminar as dependências que o passo seguinte compasso anterior isso vale não só

para ir a mas qualquer coisa tornando o processo feed fold evitando com evolução podemos paralelizar o processamento O que levaria chutando um ano para treinar poderia ser feito em um mês e o importante é entender que essa arquitetura de Transformers é uma otimização massiva é mais ou menos o tipo de impacto que você vê num desenvolvimento web comum quando coloca um índice numa tabela gigante ou quando coloca um Cash na frente do banco de dados e ganha cinco 10 vezes a performance Independente de como funcionando detalhe o importante é entender que foi um Salto Grande

toda hora eu fico falando com os acadêmicos vão me matar vendo essas minhas explicações grosseiras mas eu mesmo fico doído de ficar toda hora falando a grosso modo simplificando é metáfora porque cada parágrafo que eu falei até agora são dúzias de papers de formalidades matemáticas eu tô tentando trazer um pouco desse vocabulário para vocês entenderem que não é um chute do nada mas também re são poucas palavras que ajudem a dar uma intuição para a maioria de nós os detalhezinhos não importam tanto tem mais valor ter a noção desse processo em linhas Gerais para entender

que não é mágica E principalmente Qual é o limite dessa mágica Mas com tudo isso que eu falei vamos tentar entender o que é o chat GPT então como é um projeto proprietário fechado secreto da operar temos que acreditar nas informações que eles disponibilizaram então sempre Leiam isso com vários quilos de sal e isso dito parece que o treinamento foi baseado num corpo de aproximadamente 570 gigabytes de texto quais textos exatamente não sabemos mas ele mencionam Wikipédia artigos de pesquisa e papers websites e outras formas de conteúdo escrito na web com o limite até 2021

isso é arbitrário pessoalmente eu achei pouco texto eu teria chutar mais mas 570 gigabytes só de texto puro é bastante coisa na real por exemplo algo Wikipédia inteira dá um total de 21 GB e isso eu acho que é contando com o HTML que monta as páginas se fil limpar só os textos puros vai ser bem menos mas Digamos que seja 21 GB precisaria de mais de 30 wikipédias inteiras para completar os 570 gigabytes de dados de treino é um volume respeitável esse tanto de texto dizem que deu um total de 300 bilhões de palavras

entre aspas mas acho que o jornalista entendeu errado um dicionário de inglês como marrion webster online não tem meio milhão de palavras eu acho que são 300 bilhões de tokens que incluem palavras mas também Anne brands como eu falei antes e seja lá quais outros paternos o Deep learning identificou nesse material daí passa por semanas fazendo todo o processo que eu falei de transformação esse processo que levaria meses agora parece que dura mais ou menos um mês rodando e não sei Quantos servidores usando hardwares como usar agora famosos NVIDIA Grace Hopper os gh100 Lembra que

eu falei que internamente não estamos lidando com valores escalares e sim contensores multidimensionais cpus como uma Intel AMD no seu PC mesmo zemu ou m2 da Apple são chips com instruções feitas para cálculos em cima de valores escalares uma função de soma pega dois valores inteiros de 64 bits e cospo resultado inteiro de 64 bits eu explico como isso funciona nos Episódios de emuladores como do Super Mario com processadores de 8 bits então depois deem uma olhada cpus modernas incluem instruções para lidar com vetores instruções símide single literalmente uma instrução para múltiplos dados começou com

as instruções MMX nos primeiros Pentium nos anos 90 hoje temos conjuntos de instruções como sse4 ou Av x 512 para até a intuição em vez de uma função que recebe o inteiro Pense numa outra função que recebe dois a Reis soma os dois a Reis e cospe uma Rei resultante tudo numa única instrução gpus diferente de cpus não tem capacidade de rodar qualquer programa genérico lembram do meu Episódio de Turim complique a grosso modo uma máquina de turing basicamente qualquer programa em particular para se tudo incomplete para ser um computador moderno ele precisa ser capaz

de rodar um programa que consegue simular ser um computador como exemplo mais Óbvio Pense numa máquina virtual ele nem precisa conseguir rodar na prática mas tem que ter a capacidade teórica não CPU arm m2 da Apple é possível simular uma CPU Intel usando Roseta e esse programa de Intel roda achando que tá no PC de verdade isso é possível porque uma CPU arm m2 é tudo incomplete já uma GPU não tem essa capacidade diferente de cpus que são genéricos que pode simular qualquer coisa mesmo que lento uma GPU é um hardware especializado para executar um

conjunto pequeno de tarefas bem definidas uma GPU não consegue rodar um sistema operacional genérico nem simular ser outra GPU tipo uma MT é um tentar simular ser um nvid de rtx não funciona assim quando existe camada de abstração quem cuida disso é a CPU a GPU é boa numa única coisa fazer cálculos de vetores e matrizes uma CPU Intel costuma ter selar 8 16 32 núcleos com duas trades cada rodando a 4 ou 5 GHz hoje em dia mesmo chips de servidores como intelsion ou AMD Epic não tem muito mais que isso de cortespou é

diferente uma novíssima rtx 4090 tem nada menos que 16 mil núcleos para cheio de cuda 128 ducos para Ray Trace nada menos que 512 núcleos exclusivos só para tensors uma GPU diferente de uma CPU tem milhares de núcleos que rodam em coques baixos como um gigahertz para funções altamente especializadas o que eu falei que é o resultado do treinamento de depilando o modelo de tensors nidimensionais o que foi feito para calcular tem suas multidimensionais gpus processar áudio processar vídeo processar polígonos ou Fox tridimensionais é tudo processamento de matrizes multidimensionais uma tela de computador ou do

seu smartphone como que é representado no monitor full HD é uma rede 1080 colunas onde cada elemento é uma rede 1920 elementos para cada linha se eu quiser escurecer essa imagem inteira pode ser uma subtração em cada valor desses arreios fazendo isso adicionando ou subtraindo uma matriz por outra que chamamos de um filtro ou Kernel numa CPU você programaria como um loop nas colunas e outro loop nas linhas para calcular a nova cor Pixel a Pixel seria 1920x 1080 operações ou mais de 2 milhões de operações numa GPU eu passo a matriz inteira e ele

calcula tudo numa única operação e de novo eu não vou conseguir entrar em detalhes Mas essa é a diferença fundamental de curiosidade um dos maiores problemas dessa arquitetura de CPU controlando GPU é o compartilhamento de memória Entre esses modernos a CPU tem um conjunto de rã e a GPU tem um conjunto de Veran separados a CPU prepara os dados e tem que mandar para GP ou processar daí uma vez calculado da CPU precisa puxar o resultado de volta pra própria rã frigir dos ovos essa comunicação é um gargalo não é raro vermos jogos por exemplo

que perde frames mesmo a GPU não estando em 100%, mas te olhar CPU ela que está em 100%, Então vira um gargalo e a GPU fica um tempo parado esperando por isso desde a nona geração de consoles de videogames com PS5 e Xbox se falou tanto em loads instantâneos e tecnologias de melhorar esse gargalo como Microsoft Direct Storage também é por isso que a estratégia da Apple com os chips M1 e m2 é são s ou se ou System na tip um único chip que muito CPU GPU e ram tudo junto pra minimizar ao máximo

esse gargalo juntar tudo no mesmo lugar garante o uso mais eficiente de memória e caminho mais curto de comunicação ajudando a evitar gargalos na velocidade que estamos hoje a distância da sua CPU Intel para os pentes de Ram é gigantes e comparado a soldar tudo junto no mesmo chip como a Apple faz e é um saco porque não dá para aumentar rã depois mas a razão Não é porque Isso é uma corporação querendo arrancar mais dinheiro de vocês mas sim porque tirar esse gargalo faz muita diferença a mesma coisa acontece na solução para data Centers

da NVidia a tal arquitetura Grace Hopper que eu falei começa com o super chip Grace Grace tanto Intel quanto arm que eles mesmos desenvolveram no único pacote com nv-link que é um barramento de altíssima velocidade entre eles e a alternativa Grace Hopper que é outro super chip que junta uma CPU Grace como a GPU H100 hoper são soluções que juntam todos esses tipos juntos comer interabyte de memória RAM lpddr5 de 32 canais estamos falando de 96 núcleos de Três nanômetros É um monstro é esse o produto que tem feito as ações da nvid é disparar

porque eles encaixam perfeitamente para acelerar processamento de Transformers o meu PC não é parrudo esse da nvid é assim é a verdadeira definição de parrudo o atual estado da arte em 2023 é como ser desse tipo não sei quantos que se pega meio terabyte de dados quebramos em 300 bilhões de tokens e no final a opea e consegue gerar um modelo de gpt4 com os tais 170 trilhões de parâmetros conseguem entender melhor agora essa frase daí a mídia os jornalistas ficam assustados e noticiam como o gpt4 se igual ao cérebro humano que tem 100 trilhões

em sinapses lembram sinapses mais ou menos são os pesos ou parâmetros entre neurônios e agora que entendemos mais ou menos o que são esses parâmetros vamos discutir a premissa errada parâmetros não são equivalentes a sinapses do cérebro humano quando se joga números arbitrários assim no título de uma matéria todo mundo fica empolgado vamos entender o erro para começar o nosso cérebro em média tem uns 100 bilhões de neurônios e de novo eu não sou um neurologista Então já Assuma que minha explicação vai ser simplificada de alto nível e em pesquisa de Iá estamos tentando igualar

neurônios biológicos quando neurônios digitais numa rede neural e falamos em bits como computador mas para começar neurônios não são exatamente binários assim o único neurônio é capaz de lidar com múltiplos sinais e conexões em termos de sinapse pode ter até umas 7000 isso eu acho que seria o máximo mas em média o cérebro é capaz de ter até um 600 trilhões de sinapses Eu Não Sei Porque dependendo de onde você pesquisa falam em centrilhões ou outros falam em 600 trilhões e de novo precisa pesquisar um pouco mais a literatura de Neurologia para entender o que

isso significa mas não é um valor absoluto tem vários fatores doenças como Alzheimer por exemplo afeta Justamente a capacidade de fazer e manter sinapses em crianças quando o cérebro ainda é muito mais elástico e não foi limitado pelo crescimento o potencial é de um quadrilhão de sinapses é um número absurdo mas mais importante o 170 trilhões de parâmetros do gpt4 não se equipar a quantidade de sinapses que nosso cérebro é capaz ainda portanto é falso que hoje é pt4 Já se igualou ao cérebro humano em quantidade de sinapses a para me encerrada um parâmetro de

modelo de GPT não é equivalente a uma sinapse do cérebro humano nem de longe usamos vocabulário neurológico para simplificar a descrição em termos de Inteligência Artificial como redes neurais é uma metáfora e nenhum momento nenhum cientista da Computação vai te dizer que o neurônio de rede neural é idêntico Ou você quer próximo de um neurônio biológico é só uma abstração e no caso de a parâmetros de modelos de Transformers diferentes tem pesos diferentes parâmetros não são iguais entre modelos vamos voltar ao meu vicona rodando localmente na minha máquina lembrando da afirmação do povo que fez

teste de otimizou esse modelo um modelo de conta de 13 bilhões de parâmetros em muitos casos chega até 90% da qualidade de resposta de um chat de gpt-4 de 170 trilhões de parâmetros como que isso é possível e por isso Eu mencionei não linearidade Teoria do Caos um único parâmetro isolado Se tentar ler interpretar não tem como inferir nada só funciona se combinado com vários outros parâmetros numa rede o resultado final depende da interação de múltiplos parâmetros e por isso se gasta processamento da GPU para gerar uma resposta parâmetros são pesos probabilidades e tem várias

formas de otimizar isso por exemplo probabilidades para ter o máximo de precisão podem ser valores escalares de tipo fonte de 32 bits é isso que se gera no modelo depois do treinamento porém Pesquisas mostram que podemos trocar esses valores para float 16 e a qualidade das respostas não cai drasticamente é uma forma de otimização simplificando é parecido com o conceito de música em MP3 que dados das frequências que o ouvido humano não é capaz de ter que estar são cortados fora Tecnicamente isso tira qualidade do áudio mas na prática a maioria dos humanos não sente

em termos de armazenamento economizamos sei lá 10 vezes o espaço fazendo isso eu expliquei isso no episódio de 25 Tera para 5 GB onde pegamos uma imagem bruta em bitmap reduzimos para onde ele pega a qualidade cai mas o olho humano sem treinamento não nota de diferença tão grande assim otimizações e compressão são formas de simplificar os dados diminuir a qualidade de forma que nosso sentido sem treinamento não sintam tanta diferença significativa fazermos isso com modelos de a também reduzir os valores de fold 32 para float 16 é uma forma de quantização Existem várias formas

de quantização que são otimizações dos modelos para exigir menos processamento para gerar respostas sem danificar demais a qualidade isso ajuda a conseguir fazer um cone de chat de PT como vicona rodar numa máquina caseira como a minha parece que minha rtx 30 90 já é quase topo de linha mas não por isso eu expliquei sobre a Nvidia GH 100 que é o tipo de hardware necessário para rodar o chat GPT de verdade Mas respondendo como é de 13 bilhões de parâmetros consegue competir com o GPT 4 de 170 trilhões e é porque além de quantização

os algoritmos de auto atenção tem evoluído também em alta tensão que acontece no processo de Treinamento cada touca em uma você precisa ser considerado com todos os outros tokens para capturar dependências e relacionamentos tipicamente Auto atenção é computado dentro de uma janela de contexto onde cada token é considerado com tokens vizinhos agora tem uma variante chamada autoatensão Global onde cada token é considerado Independente de posição ou distância que permite o modelo capturar dependências no contexto mais Global na prática é assim custa mais caro para treinar mas os parâmetros resultantes do modelo tem mais qualidade então

com menos parâmetros conseguimos chegar em expostas de qualidade similar entendeu a qualidade de um parâmetro não é universal nem estático Ele tá mudando a medida que a aperfeiçoamos os algoritmos de treinamento e estruturas de dados redes neurais mesmo depilami com alta tensão Global ainda são representações rudimentares e grosseiras do nosso cérebro para um GPT eu vi quando a da vida conseguir escrever um texto com estilo de Shakespeare precisamos treinar com todos ou quase todos os textos shakesper para conseguir gerar uma música parecida com Moser temos que dar o máximo de composições de Moser quanto possível

o processo de Treinamento vai encontrar patterns ou padrões e queria pesos para eles registrando no modelo mas isso ainda é bem ruim se comparado ao cérebro humano pense você se tiver treinando em Literatura ou música mesmo não lendo nem perto de todas as obras de Shakespeare mesmo não estudando nem de perto todas as composições do Moser rapidamente consegue começar a copiar o estilo deles veja você como programador não precisou ler todos os códigos já feitos em um react para começar a escrever códigos bastões dois tutoriais o nosso cérebro consegue aprender muito melhor que um transforma

com muito menos dados e produzir resultados similares ou melhores dentro de um mesmo determinado assunto e ah hoje em dia ainda depende muito de força bruta desde que o lama foi lançado em fevereiro de 2023 estamos Só em junho já temos dezenas de modelos diferentes com vários níveis de quantidade de parâmetros desde 65 bilhões até só 7 bilhões com vários tipos de otimização como gptq para quantização ou fonte 16 isso permite rodar algo parecido com esse meu vicona local no Android ou até no redberg pai é o que eu acho ideal um transforma rodando localmente

offline sem compartilhar nenhum dado pessoal meu nenhuma conversa com nenhuma Corporação por aí quanto menos dados meus eu tiver que dar para alguém melhor especialmente se esse alguém não me paga por isso pelo contrário para usar o operar eu preciso pagar assinatura e sabe sei lá o que fazem com as minhas conversas bacanas significa que se o jornaleiro fala que o gpt4 É próximo já de um ser humano e os nerdões da Ciência da Computação já compactaram e tornar deficientes até esse ponto do vicona Então já era tá fácil fazer Skynet né Afinal GPT quatro

já consegue escrever código de programação basta eu carregar o código do GPT quatro e mandar ele melhorar o código em geral GPT 5 daí eu pego o novo GPT 5 que faça ele fazer uma versão melhor gpt6 e assim sucessivamente até eu ter o guigachad GPT T1000 Skynet que vai dominar o mundo certo errado no final do dia um GPT 5 10 20 continua não sendo mais que um alto corretor do seu teclado em versão maior tirem da cabeça a noção de que é uma inteligência ela não é inteligente tentar definir Inteligência é um buraco

de coelho profundo demais vai ter gente masturbando filosofia aqui até o fim dos tempos e ninguém vai chegar numa conclusão Vamos só assumir que até hoje não temos uma definição exata de inteligência humana na verdade quando chamamos de Inteligência Artificial só quer dizer que os resultados para o ser humano podem parecer com algo inteligente mas não que de fato é inteligente entende a diferença não ter uma definição exata é ruim porque não temos um plano exato de pra onde Na neurologia de verdade apesar dos avanços não temos uma receita exata de como neurônios Anápolis funcionam

100% temos uma boa ideia mas muita coisa ainda é especulativo mas podemos dar alguns chutes educados baseado em tudo que eu falei até agora e aqui vai ser minha opinião pessoal se alguém tiver pesquisas que discordam cintos é a vontade para linkar nos comentários abaixo opinião por opinião cada um pode ter a sua e a maioria para estar pulando rápido demais para religião do agi e eu vou ser Advogado do Diabo e dizer porque isso não tá nem perto de acontecer Vocês entenderam até aqui quando vamos na interface web do chat GPT houve cuna ou

qualquer outro derivado o tal do prompt a pergunta damos um segundo e ele nos traz uma resposta mas na realidade não é isso o que vem na verdade é uma continuação do texto do prompt tem uma diferença importante aqui ele não tá tentando te responder acontece que com os parâmetros treinados o modelo a probabilidade maior das próximas palavras esse parecer com uma resposta Essência realmente o que tá acontecendo é similar ao alto corretor do teclado do seu celular dado o texto acabou de digitar quais palavras têm mais probabilidade de serem continuação entendam essa sutileza por

isso eu falo que não é uma inteligência GPT ou vicona não são pessoas e nem entidades com cognição tentando se comunicar é meramente um completador de textos ou mais Tecnicamente um Transformer para treinar dogenerativo um gerador de texto uma pergunta ou prompt é um texto que se digita na expectativa que o modelo consiga continuar completando é por isso que o texto da resposta vai aparecendo aos poucos não há uma animação arbitrária é igual você ficar clicando na próxima palavra sugerida pelo teclado um dos parâmetros que afeta essa continuação se chama a temperatura nós não temos

controle da temperatura do chat é pt pela interface web mas no Bing da Microsoft tem esses controles de mais balanceado mais preciso ou mais criativo e no meu vicona eu tenho esse campo numérico novamente do jeito que todo mundo escreve parece que estamos configurando uma pessoa para ser mais cria Mas isso é só parte do showzinho um Transformer não é mais ou menos criativo ele é mais ou menos aleatório temperatura controla a aleatoriedade do complemento de texto sendo gerado o que você chama de resposta o modelo assinala probabilidades para cada possível token que são candidatos

para ser a próxima palavra na sequência alta temperatura valores maiores do que um ponto zero significa que o modelo assinado a probabilidade similares a um conjunto maior de tokens se vários tokens tem probabilidades parecidas as respostas podem variar mais quando se repete a mesma pergunta quanto maior a temperatura mais você vai achar que ele está sendo mais criativo mas também aumenta a probabilidade dele começar a dar resposta sem sentido temperatura média entre 0.5 A1 é a resposta balanceada do Bing é a mesma coisa que a alta temperatura mas ele assinala a probabilidade similares para um

conjunto menor de tokens controlando um pouco mais o que você perceberia como criatividade e baixa de temperatura que abaixo de 0.1 faz o modelo assinalar a probabilidades similares para palavras que realmente tinham mais chance de ser o próximo token isso faz a resposta parecer mais focada determinística previsível respostas sem sentido muitos chamam de Alucinação eu não gosto desse termo porque implica que se Alucinação é temporária nas respostas então No resto do tempo ele está sendo sóbrio ou racional e não tá todas as partes das respostas foram geradas mediante probabilidades do modelo eu só Ajusta a

quantidade de aleatoriedade nos candidatos para a próxima palavra nada mais nada menos ele nunca alucina assim como nunca é sóbrio ele não é uma entidade consciente para ser nenhuma das duas coisas é só um programa obedecendo probabilidades armazenadas no modelo entenda no frigir dos ovos criatividade no mundo de Transformers é só uma métrica de aleatoriedade não tem nada a ver com criatividade humana assim como inteligência artificial não tem nada a ver com cognição de verdade Transformers e todo tipo de machine learning ou Deep learning são meros sacos de probabilidades eles não tem de fato cognição

para pensar hum os dados dizem que a probabilidade desse evento é x mas realmente faz sentido tem alguma coisa que eu não tô percebendo deixa eu parar para pensar que seria o que um ser humano inteligente consegue fazer Transformers não refletem só cospem exatamente o que as probabilidades do treinamento do modelo dizem para ele cuspir e nada mais quando um transforma consegue pegar uma equação e achar a resposta ou pegar até uma planilha de balanço de uma empresa e dizer se tá indo bem ou mal ela não tá sendo inteligente simplesmente existem probabilidades no modelo

que levam a resposta porque materiais que ele usou de Treinamento tinham já a resolução de equações parecidas da mesma forma que eu disse que não existe um monte de IFES de regras gramaticais para conseguir escrever textos também não tem um monte de IFES de regras matemática para fazer contas sempre volte a imagem daquela lista de pares de palavras e probabilidades do exemplo do teclado com auto-corretor aquilo é tudo que ele tem um conjunto gigante de probabilidades toda a resposta que te dá por mais inteligente que parece não teve nenhum tipo de raciocínio ou lógica Ou

inferência nem nada só a probabilidades um texto gerado por um transforma às vezes pode parecer simpático se você for uma pessoa carente vai parecer que o Transformer Responde se importando com você mas nada disso é intencional é você projetando nele o que gostaria que ele fosse todo mundo faz isso com animais de estimação Isso se chama antropomorfismo você pode atribuir emoções humanas para animais objetos inanimados tem gente que Jura que mais cultura sorri pra ele quando passa na frente obviamente não um exemplo simples disso são as nuvens do céu Vira e Mexe você olha pro

céu e vê claramente escultura nas nuvens dependendo da sua inclinação ideológica poderia pensar uau Deus realmente é criativo Olha que obra maravilhosa nos céus que ele tá me dando ou uau a Mãe Natureza é especial mãe Gaia continua a demonstrar sua genialidade criativa no céus ou uau a droga que eu acabei de tomar é da hora só esse último pode estar certo o fato é que a nuvem em si não tá em formato de nada se passar um avião por cima da mesma nuvem não vai ver nada vai ver outra imagem da posição que você

tá na sua cabeça sua sinapses para treinadas sugerem que você tá enxergando a silhueta de Algum objeto um animal que já viu antes é um efeito colateral da nossa cognição poderemos chamar de bug Essa é o cérebro primitivo o cérebro rápido automático e meio burro ninguém moldou essa nuvem ela aleatoriamente acabou numa determinada posição que parece ter um determinado formato não houve foi aleatório eu diria que a hiato pouco se para você mas isso implicaria que ela tem consciência Então ela nem tá se para você Ela não pensou em você mesma coisa com o Transformer

ela não tem consciência ela simplesmente é uma mera ferramenta uma chave de fenda que sabe cuspir palavras segundo uma matriz de probabilidades nada mais nada menos por acaso você tá olhando para chave de fenda e achando que tá sorrindo para você não tá isso diz mais sobre o seu estado emocional do que sobre a ferramenta significa que ela não tem Insight não tem momento Eureka de descobrimento de coisas novas ela só é capaz de sugerir uma palavra depois das outras palavras que vieram antes seguindo uma tabela de probabilidades que vieram do treinamento feito com esses

gigabytes de texto de vez em quando a impressão que ela criou algo que não existia mas não é criação é aleatoriedade pura sorte é a nuvem no céu não é um processo e ela não sabe refletir algo como uau isso que eu inventei é da hora nunca tinha visto antes ela não tem emoções para conseguir dizer uau se você deu o código de uma ia feita com rn's como eu falei antes por gpt-4 analisar ela não vai magicamente conseguir chegar no paper de Transformers se esse paper não tava no material de treinamento ela não vai

concluir sozinha que esse era o próximo passo portanto ela é incapaz de conseguir chegar no GPT 5 novas descobertas precisam ser feitas por humanos documentadas alimentadas no treinamento de ar e só aí ela vai saber cuspir o texto desse paper ela é incapaz de usar o que aprendeu para gerar descobertas novas de forma intencional existe uma historinha que é chamado do teorema dos Macacos infinitos o teorema sugere que se tiver um macaco apertando teclas uma máquina de escrever por uma quantidade infinita de tempo quase com certeza vai conseguir digitar qualquer tipo de texto incluindo todas

as obras do Shakespeare na prática estamos falando de quantidade tão absurda de tempo que seria impossível até de vocês terem noção estamos falando provavelmente de mais tempo que a idade atual do universo desde o Big Bang mas é um conceito que demonstra que sim sem nenhuma inteligência só com aleatoriedade dado um tempo absurdo uma hora tudo que já produzimos vai aparecer sem nenhuma intenção Só via aleatoriedade é uma história para dar noção de conceitos como infinito e aleatoriedade essa história é creditada a uma temática francês Fênix e mil Borel de 1913 ou seja desde o

começo do século 20 já se tinha essa noção que muitos de vocês mais de um século depois ainda tão com dificuldades de entender repetei e derivados são macacos modernos dessa história só que em vez de totalmente aleatório damos um modelo de probabilidades para facilitar o trabalho dele só isso mas chamar de macaca meio ofensivo pro coitado do macaco que ainda é mais inteligente que qualquer dia falando em século passado Deixa eu aproveitar para voltar lá atrás na história das inteligências artificiais o estudo de algoritmos e técnicas que contribuem para esse Campo existe desde os anos

50 pelo menos mas nos anos 70 surgiu um programa que até hoje ainda deixa os desavisados meios surpresos o nome do programa é Elisa Existem várias versões inclusive rodando online deem uma olhada [Música] Como podem ver é um chatbot também que nem o chat GPT e parece uma pessoa bem desconfiada fica dando umas respostas Meio grossa o Ibis de anime chamariam ela de sundere mas se hoje povo fica empolgado com chat GPT respondendo Imagina isso nos anos 70 só para dar contexto isso é antes da Revolução dos microcomputadores de 8 bits como Comodoro ou Apple

2 isso é antes da Microsoft ou Apple existir nem internet existe ainda quando eu rodei uma versão de Elisa para nós lá no começo dos anos 90 lembra que eu fiquei fascinado e pensando como eu faria minha própria versão E aí vocês podem se perguntar Caraca mas como era possível ter isso nessa época bom quem faz Ciências da Computação o programa um tempo já deve ter entendido funcionamento o modelo é super simples é baseado inteiramente em patterniting basicamente encontrar palavras chaves ver se tem uma resposta pré-programada e montar essa resposta na mão é um sistema

de templates Quando eu digo na mão aqui sim ao contrário de modelos de Transformers é realmente um monte de ifs quem já montou agentes ou robozinhos tanto de chat de suporte ou e-mail marketing já fez coisas similar para respostas automáticas é um bom exercício de faculdade para iniciantes no github vai achar várias versões Veja essa é uma versão feita em Java e vamos ver o tal modelo entre aspas é uma lista de Chaves e valores e os valores Como podem ver são frases pré-prontas por exemplo se durante o chat você se desculpe escreve algo como

I am sorry ele quebra essa string encontra a palavra sorry e nessa lista olha só tem três respostas para programadas ela pode responder por favor não desculpas não são necessárias e vai escolher aleatoriamente para não parecer que está se repetindo só isso já é suficiente para passar no teste de turing que é um teste feito para identificar quando uma inteligência artificial consegue enganar um ser humano numa breve conversa Elisa é a voz Espiritual do chat GPT mas o ponto em apresentar Elisa é para vocês verem que para enganar seres humanos não precisa de muito por

alguma razão Nós seres humanos somos muito fáceis de enganar e somos propensos a acreditar em qualquer coisa acho que somos animais com fé excessiva é um ponto forte mas é um enorme ponto fraco também eu pessoalmente só cético mas aí me chamam de do contra vai entender vou continuar não sendo trouxa só isso um chat GPT Se eu quisesse simplificar bastante não é muito diferente da Elisa em conceito é um programa que usa um modelo um dicionário de probabilidades que mostra frases de acordo com que você digitou antes robóticamente automaticamente pegando palavras cujos valores de

probabilidade de fazer mais sentido dado as palavras anteriores e não existe nenhuma emoção envolvida não existe simpatia não existe compaixão não existe amargura nada não tem uma linha de código nem de dados no modelo que representam qualquer emoção é apenas uma calculadora que em vez de devolver números devolvem conjuntos de palavras só isso mas e asias que geram imagens inéditas vídeo próprio dale 2 da operar vídeo midi Journey vídeo stable de Fusion vídeos novos plugins de geração e ajuste de imagem proprietário da Adobe que começaram a ser distribuído no Creative Cloud classificação de imagem geração

de novas imagens são Campos diferentes dentro da Inteligência Artificial e só para não perder o gancho deixa eu jogar na mesa mais alguns conceitos um campo que existe desde pelo menos dos anos 80 é o estudo sobre CNN e não não é esse não é uma CNN que é útil com Evolution que é um modelo que dizem que é bom para processar dados que se parecem com grades como uma grade de pixels que é como representamos uma imagem as Tais camadas convolucionais não seja assim que fala em português aplicam vários filtros ou kernels aos dados

de pixels para criar mapa de funcionalidades em resumo esses filtros extraem características da imagem o equivalente a tokenizar um texto e gerar palavras ou Emigrantes mas CNN ficaram super famosos só depois de 2012 quando saiu a Alex net de Alex crises que iria e Jeffrey Hilton eu devo ter arregaçado os nomes Mas beleza era um concurso que todo ano o vencedor ficava um pouco melhor do que o do ano anterior mas em 2012 o salto foi uma ordem de grandeza melhor não lembro os números mas faz de conta que todo ano os melhores algoritmos conseguir

identificar 85% das imagens no ano seguinte de 86%. Aí do nada deu um salto para 99%. isso gerou um enorme interesse na comunidade de pesquisa em cima de classificação de imagens em paralelo em 2014 surgiu o conceito de Guns jennerativa adversário Networks ou redegenerativas adversárias desenvolvido pelo inhango de Feller e seus colegas foi um avanço no conceito de geração de imagens de forma simplificada é como se fossem duas ias uma competindo com a outra um gerador cria imagens indiscriminador avalia por exemplo Digamos que quero gerar imagens de gatos o gerador faz as imagens e o

discriminador tem que identificar se é um gato mesmo é um processo que acelera o processo de aprendizado por fornecer feedbacks muito mais rápidos do que um treinamento supervisionado por humanos cnnis e Guns Eu mencionei mais para vocês saberem alguns nomes importantes mas o vale da opinião não usa Ganso ele usa um derivado do modelo de Transformers do GPT só que é aplicado a imagens assim como geração de resposta de texto onde ele vai prevendo uma palavra após a outra levando o contexto anterior em consideração o dá-lhe também usa uma arquitetura de transformas criando e mais

um pedaço atrás do outro ou seja também usa mecanismos de auto atenção em vez de camadas recorrentes ou comvolucionais tradicionais Essa não é a única forma de se criar um gerador de imagens mais do que o Dali que é fechado Eu gosto do stable de Fusion que é assim como lama da Meta também foi liberado publicamente como modelo aberto quem me acompanha no Instagram viu quando eu fiquei brincando de usar o Estevo de Fusion com outras ferramentas abertas para fazer remasterização up Scania de vídeo assim eu pegava um vídeo super antigo com qualidade de DVD

ou VHS e conseguia fazer ele redesenhar uma versão 4K se não viu isso vejo destaque usando Iá no meu Insta e enfim diferente do Dali que usa Transformers o extremo de Fusion Como o próprio nome disso usa um modelo de difusão esse modelo já era imagem simulando um processo aleatório rodando em Reverso ou seja o processo de geração começa com uma simples distribuição como um gacha nóis E literalmente um gerador de barulho aleatório mesmo e vai gradualmente refinando esse barulho passo a passo até chegar numa imagem que parece com os dados que o modelo foi

treinado é meio que como parte de um punhado de argila tudo bagunçado e passo a passo isso com o pino e refinando até chegar numa escultura esse processo de refinamento é dirigido por uma rede neural que aprende a predizer o próximo passo da difusão e por isso ele se chama esse table de Fusion ou difusão estável um site que parece que tem ganhado relevância da comunidade de pesquisa e desenvolvimento de ferramentas e modelos de a é o rugging Face ele serve como um repositório é de lá que podemos baixar os modelos de lama alpaca vicona

em todos os diferentes tamanhos e formatos existem modelos específicos para texto como vicona específico para imagens tempo de Fusion conversor de texto para áudio como Speed five do Facebook muitos outros o ponto é que não existe uma única inteligência unificada que faz tudo existem modelos isolados e Independentes feitos para tarefas específicas um GPT não sabe converter texto em áudio isso é outro modelo portanto quando vê produtos web que parecem uma única inteligência não é é o integrador que divide o que você pediu entre diversas inteligências diferentes o que me leva a outro tema que eu

queria tocar de leve mesmo porque eu só comecei a estudar Isso recentemente eu expliquei como as coisas funcionam superficialmente por baixo dos panos mas agora precisamos falar do que fica por cima dos panos o que o usuários normais como eu e você enxergam a interface não só interface gráfica web de chat mas interface de apis e tudo mais surgiu um framer que tem ganhado cada vez mais relevância da comunidade que está investindo para construir ferramentas Integradas com os diversos serviços de yakumencionei como GPT bar distribuidor e outros esse Framework que se chama landchain a grosso

modo Pense em um framer como Jungle Lara velha ou raios ou Spring mas feito para construir aplicativos que usam essas ias eu gostei particularmente da documentação para um projeto de código aberto novo tem material suficiente de estudo quando pesquisa de papers acadêmicos sendo publicados agora em particular eu queria tocar no ponto de prompts a moda dos parasitas sanguessuga agora é criar cursos online de prontos já viram por aí vire um engenheiro de prompt é a coisa mais idiota que eu já vi seria o equivalente a você se chamar de engenheiro de pesquisa no Google já

deixa a dica para vocês não faça nenhum deles sem nem olhar eu posso garantir que quase todos são pega trouxa lembra aquele ditado todo dia um malandro e um otário acorda e vão pra rua e quando se encontram rola negócio não seja o otário enfim o langchain é um Framework extenso não pensa em algo simples como um Express de Now DJs isso está mais para um Spring de Java tem diversos conceitos como models para interfacear com os diversos serviços de como chá de GPT agora nosso modo esses modos seriam como um rydernation uma urna para

ias mas tem outras Abstrações tem agentes tem correntes tem índices mas uma das partes interessantes é que tem diferente desses cursinhos idiotas por aí que ficam mais no esquema eu sou eu testei uns prompts aqui e vou compartilhar com vocês ou então povo que fica copiando teorias da conspiração de prompt que surge no Reddit de fato existem pesquisas acadêmicas sendo feitas no estudo das melhores formas de se fazer perguntas para passar para um transformador generativo como GPT lembra que eu falei os Transformers só continuam adicionando palavras na frente do prompt que você escreveu quanto maiores

as probabilidades conseguir as respostas que procura ele vai conseguir prever melhor as palavras seguintes o melhor prompt não é escrever um textão aleatório mas assim conciso e estruturado na documentação eles fazem links para diversos papers acadêmicos como o estudo para cada tópico eu não levaria 100% a sério nem todos os papers tem consenso muita coisa é só teoremas e hipóteses mas é melhor do que chutes de youtuber com Lang chain eu poderia fazer um modo que se integra como eu fico na rodada daí poderia não depender de serviços de terceiros e também manter a privacidade

dos meus dados Já que eu não preciso compartilhar nada com ninguém se alguém tiver interesse de estudar pesquisar ou até empreender com essa nova geração de transformadores Essas são ferramentas que podem ser muito úteis esquece curso idiota que é olha só como eu sou inteligente sem integrar com a api da Open sério isso é básico do básico do básico você aprende 10 minutos no blog post não tem absolutamente nada demais aliás um curso de arte se preza tem por obrigação ter tudo que eu falei nesse vídeo só que explicado com 10 vezes mais detalhes no

mínimo caso contrário não vale seu dinheiro e muito menos o seu tempo não perca tempo com esses cursos caça níquel são todos perda de tempo veja os links que eu deixei na descrição do vídeo e estude um a um que no final você vai aprender muito melhor e de graça o Hype em torno de ata fora de proporção um prato cheio para os oportunistas de plantão para finalizar eu acho que vale a pena voltar na questão que incomoda todo o programador iniciante Mas será que com essa evolução rápida de Transformers Não é questão de tempo

até ele substituir todos os programadores eu já tinha feito um vídeo só para responder isso e recomendo que assistam mas considerando que eu expliquei hoje eu vou explicar porquê Tecnicamente isso não vai acontecer primeiro um Transformer é incapaz de gerar texto sobre assuntos que nunca viu na vida isso é importante de entender vamos recordar o que é um modelo é um banco de dados de tokens retirados dos textos de treinamento e mais importante as probabilidades de um Token para outro token dentro de uma rede o modelo não contém o texto original só pesos eu vou

repetir porque isso é importante nenhum texto aparece da sua forma original dentro do modelo para ter na cabeça pensa assim já viram que vários livros no final tem algumas páginas com índice remissivo todas as palavras importantes que aparecem no texto do livro e as páginas onde aparecem é que nenhum índice rudimentar de banco de dados quando fazemos um prompt pedimos sei lá para ele citar um trecho da peça King leard Shakespeare vai gerar o trecho se não igual muito próximo ao trecho de texto original isso confunde Pois parece que então ele tem o texto inteiro

guardado em algum lugar mas não por exemplo eu pedi para ele citar um diálogo entre Albany e cordilha e corretamente diz que não existe o diálogo entre os dois na peça e sugere Outra cena ato quatro cena dois onde Albany fala com sua esposa agonia e segue o trecho exatamente como tá na peça novamente é muito difícil tratar o caminho exato dentro do modelo indo de probabilidade em probabilidade para reverter o processo e descobrir como o GPT conseguiu escrever o texto mas podemos dar um chute educado a sequência de palavras do Diálogo tem altíssima probabilidade

primeiro no meu prompt tem todas as palavras-chave é importante para contexto como Shakespeare Albany e tudo mais quando ele começa digitando o trecho e o ar no contexto do Diálogo a chance maior é da próxima palavra ser note depois da palavra ser worth depois você dá e depois Duster são as probabilidades mais altas dessa sequência ele não tem o texto original mas tem as probabilidades que permitem remontar uma boa parte do texto original até certo ponto a grosso modo o modelo acaba servindo como uma versão comprimida dos textos originais mais com perdas quebramos todos os

textos em tokens e gravamos os relacionamentos de forma que é possível recuperar alguns desses textos mas não podemos garantir que é possível recuperar tudo porque a mistura de alguns textos similares vai desajustar as probabilidades no final teríamos no máximo uma versão mesclada de dois ou mais textos quanto mais repetidas vezes um determinado texto aparece em diversas Fontes no material de Treinamento maiores crianças de conseguir reconstruir depois Shakespeare tendo obras que foram analisadas discutidas e citadas inúmeras vezes em várias Fontes tem maiores chances de ser reconstruído sobre mim Fábio Akita já vai ser mais difícil porque

no contexto geral da web eu sou extremamente pouco citado mesmo assim o gpt4 até que consegue fazer uma descrição super genérica sobre mim fala coisas certas por exemplo que eu sou brasileiro que fundei a cor de Maio né que palestra em eventos e ajudei a divulgar o Rubem raios mas aí fala que eu também ajudei a divulgar a metodologias que não é mentira mas nunca foi um ponto importante ele fala que eu fui que não te speaker Ou seja que nem palestra de abertura e muitas conferências o que não é verdade Ele já começou a

misturar informações de outras pessoas similares Mas isso não é acidente é porque comparado aos Shakespeare não tem quase nada sobre mim na web e as probabilidades são muito parecidas com outros palestrantes de Tecnologia da mesma área por isso também é difícil para ele citar Fontes exatas que cada palavra do texto que gera pode ter vindo de um lugar diferente não tem como saber exatamente para ter links para fontes como Bing faz eu especulo que precisa de um processo em duas ou mais etapas primeiro geral o texto da resposta como um GPT já faz depois pegar

esse texto e fazer alguma pesquisa tradicional no bingue antigo daí cruzar as duas informações e ver se os textos minimamente batem finalmente apresentar juntas como se a resposta já tivesse saído pronto com os links para as fontes não é o Transformer que dá os links necessariamente é um segundo processo separado porque o modelo do Transforme ele em si não tem como garantir exatamente qual parte veio de onde quanto mais um certo assunto tiver textos para treinar mas precisas vão ser as respostas por isso é mais fácil conseguir informações sobre celebridades do que sobre alguém como

eu ou vocês no nosso caso nossas informações você misturadas com de outras pessoas similares porque as probabilidades não vão ajudar lembra a temperatura de criatividade ela garante que mesmo sem saber a resposta exata o chat GPT vai continuar tentando responder baseado nas probabilidades que tem no modelo atual mas não tem jeito toda a resposta sobre coisas que não tinha no material original de Treinamento ou tinha muito pouco vai ser uma Alucinação probabilística só isso e vai estar errado isso acontece com tudo que for novidade no dia 1 Todo transforma vai ser praticamente inútil outra coisa

mesmo sendo capaz de ler código explicar código dos outros e gerar códigos ainda não vai ter a capacidade de gerar um projeto inteiro lembra os códigos vazados do Twitch ou o código de ranking do Twitter que eu analisei estamos falando de milhares de arquivos centenas de milhares de linhas de código sabe qual é um dos calcanhares de aqueles de toda e a backtrack e memória as respostas costumam ser boa hoje porque ele deve em consideração o texto anterior em partes existe um limite de quanto consegue voltar atrás no anterior no caso do gpt3 e 4

atual ele se limita a enxergar uma janela de contexto de no máximo 2048 tokens e as respostas também tem o limite quanto mais longo foi esse limite mais caro fica para processar o resultado seguinte do gerador de palavras maiores as chances dele esquecer o contexto e muito maiores as chances de rapidamente perder a coerência de respostas longas entenda o GPT atual não tem capacidade de ler mais de 2048 tokens então jogar o código inteiro da Kernel do Linux para ele analisar por exemplo é impossível e pedir para ele escrever um código desse mesmo tamanho é

mais impossível ainda lógico nada é impossível mas é altamente Improvável no meu vicona rodando no local tem essa tela de configuração para justamente configurar o tamanho da janela de contexto e de resposta e não é um número muito grande não num teste não científico eu tentei Abrir duas janelas do projeto textos de Generation que é a interface web que eu tô usando em cima do vicona não sei se é uma a função da interface web ou uma limitação do próprio vincula por baixo mas só tem capacidade de responder uma pergunta de cada vez se eu

abrir outro navegador tentar fazer outra pergunta enquanto na outra janela e ainda não terminou de responder a primeira vai ignorar e não deixar rodar em paralelo e mesmo se conseguisse só com um único processo de resposta tá consumindo no mínimo 50% da minha GPU consumindo mais de 18 GB de Ram e enquanto responde esse consumo continua aumentando ou seja uma máquina como a minha ele só consegue responder uma pergunta de cada vez você tá pensando em fazer um serviço online SAS para vários usuários acessarem vai sair super caro porque só vai possibilitar uma resposta a

cada dois a cinco segundos um servidor web pequeno tem capacidade para responder sei lá mil requisições por segundo ou mais mas não vincuna tá mais para 0.2 requisições por segundo é ridiculamente pesado e não escala eu não lembro quem é artigo que a operar e falava que cada dia de operação no chat PT custa sei lá 1 Milhão assim um milhão por dia mais ou menos faz sentido dado o custo de GPU necessário para responder todo mundo mas claro novas técnicas de otimização tem Aparecido como exemplo de quantização que eu expliquei antes mas estamos falando

que precisa melhorar ainda umas 10 mil vezes para ficar economicamente viável para casos como escrever um livro de 500 páginas sem perder coerência ou escrever um projeto de verdade com milhares de arquivos de código no estágio atual da tecnologia é impossível Essas são só algumas das razões de porque um chat GPT não vai substituir programadores e outras profissões a partir de um certo ponto fica tão caro que não compensa Especialmente porque como eu já expliquei essa inteligência não é inteligente ela só cospe probabilidades não tem criatividade não sabe tomar decisões baseadas em coisas como custo-benefício

ou bom senso não vai ter coerência em respostas longas não tem noção se o código sendo cuspido tem segurança ou escalabilidade ela tem memória menor com peixinho 2048 tokens mesmo se aumenta 10 vezes esse limite ainda é super pouco o script deste Episódio tem 15 mil palavras o chat GPT é incapaz de escrever meus scripts Mas tudo bem como uma ferramenta de auxílio é super boa trechos pequenos e repetitivos código trivial que facilmente encontramos no stake overflow repetidas vezes o estado atual de Transformers é mais que suficiente para acelerar um bom profissional Hoje é impossível

e vai continuar sendo o impossível alguém que não é programador conseguir fazer um projeto complexo inteiro qualquer um que diga o contrário não tem a menor noção do que tá falando considere como os algoritmos funcionam e Considere os pontos de máximo e mínimo Não basta dizer ah eu tenho esperança eu só ter fé precisamos de números e os números dizem que é extremamente Improvável Eu uso o kit rabicopailot faz meses em vários vídeos toda vez que aparece trechos de código eu usei a ajuda do chat GPT ou com o pai ambos têm plugins para vários

editores como neovin houvesse code e funcionam super bem tem a capacidade de ler o código do arquivo que se está editando não consegue usar o projeto inteiro de contexto pelos limites que eu acabei de explicar mas só de usar o trecho próximo do que tá digitando já ajuda muito ou seja parte do prompt é o código do arquivo aberto naquele momento para mim vale cada centavo e todo desenvolvedor que quiser ter vantagens de produtividade deveria considerar usar esses plugins de novo não vai conseguir fazer tudo para você e por causa da aleatoriedade e alto risco

de alucinações você nunca deve aceitar o código que ele sugere sem ele com muita calma antes mas para tarefas bem braçais tediosas Onde faremos muito copo e peixe como fazer testes unitários simples ajuda testem com tudo isso que eu expliquei minha conclusão pessoal é que não estamos nada perto do que o povo chama de agi ou Inteligência Artificial geral que vai superar todas as ias aí Ah que vai pegar o código inteiro do gpt4 e geral GPT 5 melhorado coitado malemalha tem capacidade de lembrar o único arquivo de código que Dirá milhares e mesmo se

conseguisse ele não estaria analisando ele não Analisa nada ele não sabe analisar ele não sabe as regras de cálculo as regras de programação só sabe juntar Pedaços Que viu repetidas vezes de muitas Fontes 100% via probabilidade e quando não sabe vai pegar as probabilidades mais próximas e cuspiu que der e vai ser um texto sem sentido nenhum eu vou repetir Transformers não tem inteligência nenhuma de análise cognição ele não sabe porque dois mais dois é quatro só leu muitas vezes que é e as probabilidades fazem ele repetir isso repete quer dizer transforma generativo para treinado

hoje você entendeu que esses termos significam e se ficou até aqui eu espero que tenham entendido por mais impressionante que pareça os textos que gera é só um gerador de textos um alto corretor de teclado de celular glorificado um gerador de textos nunca vai ser inteligente só vai parecer inteligente assim como o formato de animal que você viu numa nuvem foi totalmente um acidente ninguém teve a intenção de desenhar um animal na nuvem se quer nenhum animal é só um formato aleatório foi você que escolheu entender assim e foi por isso que no outro Episódio

de chat PT eu afirmei e repito o seu grau de empolgação com a Iah em inversamente proporcional ao seu entendimento de quanto menos entender mais empolgado vai ficar vai acreditar que as ações da nvidiane há mais de 400 é normal porque acredita que negócios de avó aumentar absurdamente em breve a ação vai atingir mil dólares vai investir todo o seu dinheiro nisso já eu acho que a ação da NVidia tá hiper valorizado por puro Hype o preço justo da ação deveria ser abaixo de 300 e vai voltar para isso uma hora eu não sei quando

vai estourar Mas eu já estou precavido eu não tenho dúvida que transforma são úteis várias ferramenta já estão usando em particular um cliente vi-cloud da Adobe tá tirando Bom proveito a Microsoft vai embutir em Office Windows e tudo mais mas no final é isso que a gente vai ter um Alexa melhorado um template mais inteligente de Excel mas não acha que vai substituir o seu diretor financeiro e que ele vai conseguir tomar decisões inteligentes só parece por sorte e por Acidente quem apostar em mais do que isso nas tecnologias atuais vai perder pessoalmente eu acho

que as tecnologias de Transformers e outras que eu nem mencionei hoje que compõem o que é o GPT Assim como tudo Segue uma curva em S passamos pela parte do S que é o crescimento que parece exponencial mas a curva tem um teto em cima quando pulamos de bilhões de parâmetros patrilhões de parâmetros vamos começar a ter retornos diminuídos de minishing britânicos se a mãe sair um GPT 5 com o dobro de parâmetros sei lá 300 trilhões não vai ficar duas vezes melhor talvez melhores sei lá 20%. cada melhoria custa mais caro do que o

retorno isso é de mini Shiny Turner não existe crescimento infinito e quanto mais rápido você força só chega mais rápido no teto precisa acontecer novas descobertas novas invenções que ainda não conhecemos obviamente para ter uma nova etapa de evolução significativa enquanto isso não acontecer isso só insistindo o que temos até hoje não vai ser muito melhor que isso não já estamos perto do limite e ajeita e não tá no horizonte ainda é a mesma coisa ficar especulando estamos perto de conseguir construir uma ioss enterprise é irrelevante Beira ficção científica Eu acho que eu já me

estendi demais como eu falei no começo do vídeo eu não sou nem de longe uma especialista no assunto você quer ter experiência prática de trabalhar em projetos relacionados o meu conhecimento até agora é puramente teórico eu só pesquisei o que existe publicado online se eu entendi até aqui em poucos dias quem dedicar algumas semanas vai acabar sabendo muito mais do que eu muito rapidamente não é tão difícil assim eu espero que tenha dado para quebrar alguns mitos que tinham na cabeça e finalmente tenham conseguido separar o joio do trigo se ficaram com dúvida ou quiserem

complementar fiquem à vontade nos comentários abaixo você curtir o vídeo deixa o joinha assine o canal e não deixe de compartilhar o vídeo com seus amigos a gente se vê até mais conseguem ver a similaridades entre o auto conseguem ver a similaridades entre o outro alto que alto dizem o de 13 milhões de parâmetros parâmetros parâmetros probabilidade final RN bptp seria absolutamente absurdamente difícil de entender isso e eu também vou explicar o tem metáfora porque cada parágrafo parágrafo para as instruções CPU diferentes dgp usamos vocabulário neurológico neurológico neurológico temos que lá temos que 65 milhões

até nada mais nada mesmo nada menos menos que pariu conceito de ganso genera generative generatives o que me leva a outro o que me leva mas é melhor do que chutes do youtuber chutes de youtuber a cidade dos meus dos meus dados Chaves importante o código de ranking ranking ranking ranking que vídeo longo da