A Verdade sobre a IA que Ninguém Conta

7.34k views2456 WordsCopy TextShare
Sandeco
DeepSeek Explicado de Forma Simples! Você já ouviu falar do DeepSeek e quer entender como ele funcio...
Video Transcript:
de psique explicado para sua avó não é possível que agora você não entenda como funciona por dentro de psique e como ele foi treinado para conseguir um baixo custo e uma capacidade intelectiva semelhante ao o1 e ao O3 da Open ey Olá tudo bem eu sou o sandeco professor e pesquisador pelo Instituto e Universidade Federal de Goiás Além disso eu sou embaixador da Campus par Brasil tenho seis livros escritos na área de Inteligência Artificial e agentes inteligentes e meu objetivo aqui é fazer que você entenda como é que funciona e como é que foi o
treinamento do de psic explicado de forma bem simplificada usando animações muito bem esse aí é o de psic então explicado para a sua avó né explicando para a sua avó beleza e o tpsc tem basicamente três Passos aí importantes no seu treinamento o primeiro passo é exatamente o aprendizado por reforço essa questão de aprendizado por reforço é importante no de psic e eu vou comparar a técnica aplicada no Deep psic com as técnicas aplicadas pela Open outra técnica importante é exatamente o model destillation no Model destillation ele coloca um modelo mais forte conversando com o
modelo mais fraco para poder melhorar o modelo mais fraco Eu até tenho um prompt sobre isso chamado prompt Matrix eu vou falar já já para você como é que é isso Beleza terceiro passo é cadeia de pensamento no meu livro sobre engenharia de prompts eu falo bastante sobre essa técnica e eu vou mostrar um pouquinho para você para você ter uma ideia de como funciona o CD de pensamento Vamos focar nessa técnica então aqui de aprendizado por reforço nós vamos usar uma analogia bem interessante que é o jeito de aprender xadrez de cada rede né
é o modo vamos chamar de modo de aprender da openni e do de psic com essa analogia do xadrez Olha que interessante que vai ser Vamos então começar com a Open Eye vamos supor que a Open Eye quer aprender xadrez né ser que é analogia que vai valer para todos os dados tá bom E como é que a rede neural ler todos os dados de texto de tudo para poder aprender só que eu vou usar só a ideia do xadrez para você contextualizar né fica mais fácil o entendimento quando ela vai aprender xadrez o que
acontece é o seguinte é mais ou menos assim ó imagine tá aqui nesse tabuleiro tá esse tabuleiro tem uma posição só que ele não sabe aprender o que que ele faz ele pede para alguém ajudá-lo né qual seria o próximo lance Você tá jogando com as pretas ele tá jogando com as pretas né E aí ele precisa de alguém que possa dizer para ele externamente se aquele lance tá bom ou não entende então o que que faz é como se ele chamasse um especialista em xadrez existe uma rede super especialista em xadrez que é essa
aqui ó stock Fish tá quando você passa uma sequência uma tabela né uma imagem de uma um tabuleiro ela te retorna Qual é a melhor pontuação ali para algum determinado movimento certo para algum determinado movimento então a openai é mais ou menos assim Então imagina que agora eh eu vou trocar as posições eu tô jogando com as pretas tá E aí em determinado movimento que eu quero na verdade jogando com as brancas nesse caso aqui né ó em determinado movimento aqui então qual seria o melhor lance qual seria a melhor pontuação nesse caso tá então
ele vai entregar para mim uma pontuação ele vai consultar mais uma vez o stock Fish né e o stock Fish vai entregar pra gente uma nova pontuação toda vez que aparecer uma nova situação né a Open digamos assim vai atrás do especialista para saber a posição esse aprendizado então você pode perceber que ela precisará de muitas pontuações e de muitas situações de jogo entendeu e para cada situaçãozinha de jogo dessa existe uma resposta que é a melhor resposta digamos assim e então esse tipo de aprendizado é como se alguém tivesse supervisionando esse aprendizado né como
se tivesse um professor aqui o tempo inteo dizendo ó Isso aí não é legal aquilo ali não é legal só que para essa questão de supervisionado o que acontece ele tem que receber uma quantidade gigantesca de informação primeiro para depois treinar né para depois a gente poder ter aí montar todos os parâmetros da rede imagina que cada coisa dessa é como se fosse nossos parâmetros de rede Então esse treinamento é chamado de aprendizado supervisionado que gasta muito mais mais dados gasta muito poder de processamento para isso já o deeps é um pouco diferente olha só
como acontece ó no deeps quando ele vai aprender a jogar xadrez nessa nossa analogia de como as redes neurais aprendem é um pouco diferente porque na verdade o jogo acontece na hora certo o que ele faz é o seguinte basicamente quando ele vai jogar Ele pega a primeira partida e já começa jogando só que veja quando ele vai jogar a primeira partida como qualquer novato ele vai errar bastante só o que que ele faz ele copia ele mesmo certo ele faz uma cópia dele mesmo aqui ó e aí ele começa a jogar ele contra ele
por várias e várias e várias e várias partidas certo a medida que ele erra alguma coisa ele é punido quando ele faz uma coisa legal ele recebe uma recompensa da mesma forma como é feito aí né e no treinamento dos cachorrinhos né digamos assim então é isso aí a ideia é exatamente essa o de psic ele joga com ele mesmo com os dados entendeu Então ele começa a aprender com esses dados e quando ele vai aprendendo com esses dados à medida que ele vai jogando ele vai adquirindo as informações e vai treinando a rede ele
vai cada vez mais melhorando o seu processo esse processo é que a gente chama de aprendizado por reforço tá aprendizado por reforço né tem essa analogia essa ideia da C do cachorrinho pulando aí o bambolê não sei se vocês sabem mas a minha cachorrinha Mafalda Eu já mostrei em um vídeo daqui do canal quando eu falei sobre aprendizado por reforço e ela realmente pula Bambolê porque eu ensinei por reforço como é que eu fiz eu coloquei primeiro Bambolê perto dela dentro da cama né para poder ela entender que é uma coisa boa depois eu coloquei
o bambolê no chão e usei um petisquinho para fazer ela passar de um lado pro outro depois eu fui aumentando um pouquinho mais o bambolê e ele foi passando de um lado pro outro e a medida que eu vou reforçando o comportamento reforçando cada vez mais ele aprende aquele comportamento da mesma forma são as redes de psique Tá bom olha só depois que é feito o treinamento por reforço o que acontece é que a rede fica uma super rede né Essa rede grandona aí ó tá vendo com a r1 com 671 bilhões de parâmetros ele
é quase um trilhão de parâmetros a menos do que a Open 4 por exemplo né então é uma rede muito poante nesse caso e bem menor uma com a qualidade técnica muito parecida com as da Open o que acontece é que essa rede neuro especificamente não é possível colocar ela dentro né do seu computador essa roda em grandes servidores Deu para entender é por isso que o pessoal do DPS resolveu fazer o seguinte Eles resolveram eh fazer um lance engraçado como se fosse o irmãozão certo que tá treinando o irmãozinho ou seja por que que
eles fizeram isso porque exatamente como você não consegue né Colocar essa rede no seu computador eles criaram redes menores com menos parâmetros entendeu então é para treinar essas redes eles fizeram uma sacada muito interessante que foi exatamente isso aqui ó eles pegaram uma rede pequenininha criaram uma rede pequenininha com menos parâmetros e colocaram essa rede para conversar com essa a rede grandona né Eh essa 671b essa R1 671b então elas conversando entre elas uma foi passando o conhecimento pra outra foi muito interessante porque a medida que foi acontecendo É como se eu tivesse um irmãozão
que fosse ensinando ao Irmãozinho a jogar xadrez nesse caso aqui tá certo só que imagina que xadrez é textos né então a medida que o tempo foi passando né a rede foi aumentando de capacidade técnica aumentando mais e por fim ela teve aí o seu ápice digamos assim de Treinamento E aí é o que a gente chama da da rede da D psic R1 8 bilhões de parâmetros esta rede neural é capaz de rodar na sua máquina local Tem muita gente que me pergunta qual é a vantagem de usar uma rede desse tipo aqui local
na máquina né bom primeira vantagem é o seguinte você trazendo uma rede dessa paraa sua máquina essa máquina pode estar cerrada né pela da internet pode tá fora da Internet e aí os seus dados privados usados nessa rede ficam totalmente seguros segundo caso que é muito importante é o seguinte eu posso pegar essa rede posso retreinar essa rede com os meus dados privados ou com documentos privados meus entendeu E aí a rede agora vai conhecer toda a estrutura Empresarial ou as minhas os meus documentos meus arquivos né e ele vai me responder diretamente é como
se tivesse sido Trein né pela de psic com meus documentos só que eh você não vai colocar isso aberto na internet né vai só você vai ter acesso a ela e só você vai ter acesso à sua documentação vamos supor que você queira colocar isso num Tribunal de Justiça ou em alguma empresa de cunho que tem segredos industriais treina a rede neuroc com aqueles dados protege a rede deixa só você acessar E aí você consegue a mesma potência né a mesma capacidade selectiva das redes neurais eh de modelo de linguagem na sua própria máquina local
beleza isso é muito bacana cara e essa técnica aqui é o que a gente chama de Model destillation né Ou seja eu vou eh vou refinar esse modelo usando um outro modelo que vai servir de auxiliar nesse caso aí a rede 671 vai ser a a o teacher né o professor né e da rede 8b isso é muito bac bacana porque faz com que as redes neurais cresçam muito rápidas as pequenas né É isso aí cadeia de pensamento é a última técnica do Deep siic e eu vou usar o meu livro prompts em Ação engenharia
de prompts para leigos você quiser comprar esse livro O link tá aqui na descrição ó nesse livro certo eu falei exatamente sobre é a técnica de cadeia cadeia de pensamento tá aqui em cima ó pode ver que é um é um Capítulo Capítulo 5 fala esse desse desse dessa técnica né no livro diz o seguinte ó a cadeia de pensamento baseia-se na premissa de que a explicação né a explicitação do processo de raciocínio leva a uma melhor compreensão esse lance é o seguinte quando ele diz explicitação você pode ver que quando você usa o de
psic web ele mostra para você vários pensamentos em cada AD já viu isso e a partir desse pensamento encadeado ele consegue resolver problemas mais complexos em vez de fornecer respostas mais diretas essa técnica instrui o modelo de linguagem a detalhar cada etapa do raciocínio envolvido em uma resolução de uma única tarefa então o que que acontece você passa uma tarefa pro modelo ele vai raciocinar usando cadeias de pensamento ele vai encadeando né vários pensamentos até chegar numa conclusão que seja interessante para ele entendeu Vou dar um exemplo para vocês agora ó bom vamos para exemplo
aqui que é o seguinte ó eu tenho uma pergunta certo e eu dou a resposta dessa pergunta Só que eu monto uma cadeia de raciocínio certo para que e para que eu eu usei para poder atingir objetivo e depois eu faço uma pergunta muito similar muito similar aqui eu quero que ele efetivamente pense sobre ela tá E aqui é a resposta então vamos lá ó eu vou ler para vocês primeira pergunta é aqui ó Roger tem cinco bolas de tênis ele compra mais duas latas de bolas de tênis cada lata contém três bolas de tênis
Quantas bolas de tênis tem agora aí para responder o que que eu vou usar ó Roger começou com cinco bolas duas latas de três bolas de tênis resulta em seis bolas de tênis então 5 mais iG 11 Isso é uma resposta usando o a cadeia de pensamento aplicada E aí o que que eu faço eu faço a pergunta que efetivamente eu quero fazer para ele eu quero que ele calcule para mim então a pergunta é a cafeteria tinha 23 maçãs se elas usaram 20 para fazer o almoço e compraram mais seis quantas maçãs Elas têm
agora Então veja que a resposta da llm Isso aqui é uma resposta real né ele faz exatamente a de raciocínio ó a cafeteria tinha Originalmente 23 maçãs eles usaram 20 para fazer o almoço então 23 - 20 = 3 eles compraram mais seis maçãs Então 6 + 3 né o 3 + 6 = 9 então a resposta final é igual a 9 isso aqui é cadeia de pensamento aplicado direto na na llm a llm ela raciocina dessa forma quando você usa antes de qualquer coisa de responder ela vai ter o processo de raciocínio para te
integrar a melhor resposta possível beleza e nesse capítulo aqui tem mais outros exemplos e mais outras técnicas envolvendo cadeia de raciocínio se você quiser aprender vem se encontrar comigo lá no grupo do WhatsApp pra gente conversar eu te digo como é que você pode comprar esse livro aqui beleza Tá bom se você quiser aprender mais sobre o Deep siic Ou se você quiser eh instalar o Deep siic na sua máquina Eu tenho um vídeo aqui nesse cantinho aqui ó que vai te ensinar em detalhes como é que você pode baixar a R1 né o R1
a modelo R1 de psic na sua máquina local e usando olama você vai poder instalar e rodando na sua máquina local o Deep siic que é uma rede realmente que fez bastante diferença no nossos dias atuais beleza eu espero que você tenha gostado desse vídeo Um grande abraço para você e até a próxima
Copyright © 2025. Made with ♥ in London by YTScribe.com