É, pessoal, nós estamos cada vez mais perto da ADI de nível humano e os avanços e toda a contribuição científica só vem aumentando e as ideias estão ficando cada vez mais claras. Hoje a gente vai falar sobre um assunto que muita gente comentou, que é um artigo que fala sobre um aprendizado que começa do absoluto zero, sem nenhum dataset, sem nenhuma informação humana e que se retroalimenta e começa a fazer uma super inteligência. Vamos entender que que tá acontecendo.
Vem comigo. É isso aí. Vamos lá, pessoal.
Sempre agradecendo a todo mundo que deixou seu like, a todo mundo que se inscreveu. Um agradecimento especial a todos os membros do canal que patrocinam esse canal aqui de inteligência artificial. Sempre lembrando que os membros têm acesso a vídeos exclusivos de agentes inteligentes e com uma playlist bem completinha aqui, cheia de coisas para você aprender e vídeos antecipados.
Então, gente, esse artigo aqui tá dando que falar que se chama o zero absoluto, o raciocínio reforçado, treinando sozinho, né, consigo mesmo ali com zero dados. Então, esse título já é difícil de traduzir, mas ele tem ideias muito simples e muito claras e já aponta para algumas limitações da inteligência artificial tradicional que a gente vai abordar aqui. Então, o que que tá acontecendo hoje?
as melhores técnicas de inteligência artificial, elas se utilizam do que eles chamam de LRVR, que é o aprendizado por reforço com recompensas verificáveis, que é mais ou menos o seguinte: imagina que você tem uma conta que é 2 + 2, que é igual a 4. Você pergunta pra inteligência quanto que é 2 + 2 e deixa que ela arrume uma forma de resolver para saber quanto que ela acha que é. Aí ela vai dar uma resposta lá, cinco.
Como você sabe que a resposta é quatro, você vai recompensar ou não, dependendo da resposta que ela der. E, portanto, essa recompensa é verificável. E isso que tem feito as melhores inteligências do momento ficarem inteligentes, substituindo o modelo antigo, que fica mais claro quando a gente olha para essa imagem.
Imagina que nessa primeira imagem, quando você tá treinando uma inteligência artificial, tem um ser humano aqui que tem um objetivo na mente ali, que é chegar nessa bandeirinha vermelha e ele fala pra inteligência artificial, que no caso é esse robozinho, inteligência artificial vai até aquela bandeira. Em outras palavras, o ser humano cria a inteligência artificial, ele cria o objetivo e ele só fala pra inteligência artificial se orientar naquele objetivo, que é quando você tem uma pergunta e já sabe a resposta e você passa prontinho. Inteligência artificial, você tem que pegar essa pergunta e aprender essa resposta.
Você não dá liberdade nenhuma para ela aprender. Você simplesmente tem todo o trabalho, todo o esforço de coletar os dados, todo o esforço de dizer qual que é a resposta correta. Você tem que juntar milhares de seres humanos, milhares de bases de dados, tudo fica na mão do ser humano.
Isso tem um custo alto, isso leva tempo, tem uma série de questões envolvidas nisso. Inclusive que os dados humanos são finitos, por exemplo, a internet e a interação humana. Por mais que diariamente milhares de pessoas postem conteúdo todos os dias, os conteúdos humanos são mais ou menos repetitivos.
Não fica surgindo uma ideia mirabolante todo santo dia. E mesmo que todo dia surja uma ideia mirabolante, a quantidade dessas grandes ideias são pequenas, comparado com todo o conteúdo que são pessoas postando foto do almoço, dando like numa pessoa que passou numa entrevista de emprego e por aí vai. Bom, nesse segundo caso, quando o aprendizado é baseado no reforçamento, que tem recompensas verificáveis, o ser humano aqui, ó, tá vendo?
Ele não tá mais controlando o controlezinho que ele tinha na mão, já não tem mais. Mas ele continua falando assim, ó, vai para aquela direção, que é aquilo que eu falei, tem o 2 + 2. E ele pergunta pra inteligência artificial quanto que é.
Se ele acertar, dá recompensa. Se ele errar, não dá recompensa. E dessa forma, a inteligência artificial fica livre para encontrar a resposta, mas ela não fica livre para escolher a pergunta.
Tá entendida essa parte? Bom, no terceiro nível, quando a coisa vai pro absoluto zero, que é o caso deste artigo, a inteligência artificial escolhe qual que é o objetivo e a própria inteligência artificial corre atrás da resposta. Essa que é a grande sacada.
E por que que isso é importante? Para vocês entenderem porque isso é importante, a gente precisa voltar na história da inteligência artificial e ver os grandes momentos em que essas super inteligências foram atingidas e como que elas conseguiram ser atingidas. Então, por exemplo, aqui, ó, em outubro de 2017, alguns meses depois da pesquisa que criou as LLMs falando sobre os Transformers, a Google Deepmind criou essa inteligência artificial que se chamava Alpha Go Zero.
E o que que significava isso? Significava que a Google tinha criado um método em que a inteligência artificial começava a aprender sem utilizar dados humanos para conseguir jogar um jogo de tabuleiro que se chamava GO, que é um jogo famoso por ser mais difícil do que o xadrez e que para conseguir fazer isso eles não tinham mais utilizado dados de jogadas humanas e simplesmente colocou uma inteligência artificial para jogar contra outra. Quando a gente olha a evolução da inteligência artificial, conforme vão passando os dias, a inteligência vai treinando contra ela mesma, sem nenhum conhecimento.
Tá vendo aqui, ó? No prior knowledge, não tem conhecimento nenhum. E ela vai aprendendo, aprendendo, aprendendo até chegar naquela linhazinha verde ali em três dias, que significa que em três dias ela já estava no mesmo nível do Ly Doll, que era o campeão mundial em 2016, ganhando quatro de cinco jogos contra eles, apenas três dias jogando sozinha com ela.
Esse vídeo aqui da Google Deep Mind, eu recomendo muito que vocês assistam. Esse aqui é o pesquisador líder na época. foi ele que trabalhou nesse projeto e simplesmente ele descreve tudo que aconteceu, toda a trajetória do desenvolvimento, todos os processos que eles fizeram.
Primeiro eles colocaram o Alfag para jogar contra o campeão da Europa em uma época que eles nem tinham certeza se o Alfagol ia conseguir ganhar de um campeão. E aí ele simplesmente consegue ganhar do campeão da Europa. Depois disso, eles vão buscar uma pessoa ainda mais experiente e é aí que eles encontram o Lidol e que aí colocam os dois frente à frente para jogar.
e a inteligência artificial ganha desse super ser humano. Nesse momento, a inteligência artificial ainda não estava jogando contra ela mesma. Ela tava utilizando dados humanos para aprender.
E durante essa partida, especificamente, aconteceu uma jogada que chamou a atenção de todo mundo, que mostrava que a inteligência artificial tinha conseguido quebrar a expectativa dos seres humanos, tinha feito uma super jogada que parecia uma coisa alienígena e, em contradição com todas aquelas informações que todo mundo tinha de que a inteligência artificial não era criativa, que ela era incapaz de criar uma jogada nova e ia em contradição a todas aquelas pessoas que ficam repetindo insistentemente, dizendo que que a inteligência só consegue atingir o nível humano e só fica abaixo dele. Inclusive, tem muita gente assistindo esse vídeo que acredita nisso e que provavelmente vai comentar aqui embaixo dizendo que não acredita em nada do que eu tô falando. Mas a verdade é a seguinte, isso foi documentado e essa jogada aconteceu.
Ela foi comentada no planeta Terra inteiro porque foi uma jogada difícil, estratégica, criativa, que explorava uma coisa que os seres humanos não exploram. E aí, nesse momento, na cabeça dos pesquisadores, o que aconteceu é que eles perceberam que os seres humanos, no final das contas, estavam limitando a inteligência artificial, toda vez que a inteligência artificial tinha que aprender com dados humanos, porque por mais que ela conseguisse aprender com aqueles dados, o limite humano pro aprendizado deixava uma certa faixa de conhecimento ali que ainda que ela passasse, ela não passava muito. Bom, e aí na cabeça de vocês, vocês já começaram a entender.
Quando ela começou a jogar sozinha, em três dias ela já estava passando aqui o campeão de 2016. Porém eles continuaram treinando, deixaram ela rodar e continuaram treinando mais e mais e mais até que um certo momento ela atinge um próximo marco de 21 dias, em que o Alpha Go Zero aqui, ó, atinge o nível do Alpha Go Master, que era uma outra versão que tinha derrotado 60 profissionais top de linha online e também o campeão do mundo Keegi em três e três partidas em 2017, um ano depois do Lidl. Bom, mas o que que eles fizeram?
continuaram, deixaram a inteligência artificial treinando mais ainda. E ela continua treinando e treinando e treinando e treinando. A tag chega um certo ponto, ela bate um terceiro marco importante em 40 dias, em que o Alpha Go Zer passa todas as outras versões do Alpha Go e ela se torna o melhor jogador de gol do planeta Terra, incluindo contra a própria inteligência artificial, simplesmente jogando contra ela mesma.
Então, desde esse dia do alagol, muitas pessoas da inteligência artificial já entenderam que os seres humanos são um limite paraa inteligência e que ela tem que começar aprender sozinha. Bom, então vocês já entenderam a importância desse zero absoluto aqui e por que as pessoas colocaram os holofotes dentro desse novo sistema. Mas de certa forma é simples entender como que pode uma inteligência artificial começar a aprender e a começar a raciocinar sem utilizar dados humanos e sem precisar de um ser humano ali pegando na mãozinha dela para explicar o que que ela tem que fazer.
E a resposta para isso começa aqui, ó. A inteligência artificial que começa do zero absoluto, ela faz uma proposta de problema para resolver. E aí através de codificação em Python aqui, ela cria um problema e cria uma estimativa e ela vai alimentar uma recompensa de aprendizado.
É isso mesmo. É como se ela tivesse treinando um professorzinho dentro dela mesma. Aí esse problema vai tentar ser resolvido através de dedução, indução e abdução, que são tipos específicos de lógica, que é bem interessante.
A maior parte das pessoas conhecem a dedução e conhecem a indução, que é dedução é quando você tem umas afirmações e a partir daquelas afirmações, se elas forem verdade, existe uma conclusão lógica obrigatória. A indução é quando você tem um conjunto de dados e aquele conjunto de dados te leva a uma possível conclusão e na abdução você já coloca algumas hipóteses, já formula algumas coisas imprecisas para chegar a algumas conclusões provisórias. Bom, e aqui começa o tal do self play, que ele começa a jogar com ele mesmo e tenta encontrar uma solução.
Quando ele encontra uma solução para um problema que ele mesmo criou, ele vai verificar se ele acertou. E se ele acertar, ele vai treinar um modelinho de recompensa, de precisão daquilo que ele tá treinando. E aí ele faz uma atualização no próprio modelo para ficar mais inteligente.
Então vocês já entenderam, ele tá criando um professorzinho interno que tá aprendendo a criar bons problemas. E esses problemas não podem nem ser muito difíceis que ele não consegue resolver e nem muito fáceis que ele não aprende nada. E de certa forma, colocando esse procedimento em loop, ele vai começar a aumentar a dificuldade dos problemas ao longo do tempo e cada vez mais resolver problemas mais difíceis.
E isso leva para esse loop infinito aqui que vocês estão vendo. O modelo de linguagem faz o levantamento de um problema aqui pro ambiente. Ele vai receber uma proposta de problema e ele tenta resolver.
apresenta pro ambiente o problema e apresenta o problema resolvido e vai ficar aqui nesse loop infinito tentando encontrar uma solução e vai ficar simplesmente aprendendo infinitamente. E o que que afinal aconteceu a hora que eles começaram a olhar os resultados que eles estavam tendo com essa metodologia, observando aos outros modelos que estavam utilizando dados para fazer treinamento. Então, como vocês podem perceber aqui, eles fizeram algumas comparações com outros modelos.
E a nota final aqui da média do modelo de reforçamento de zero absoluto mostrou que eles conseguiram uma média mais alta aqui comparados com o Quen 2. 5 C e inclusive quando comparado com outros modelos de raciocínio que começam do zero, mas que utilizam dados naquele modelo de reforçamento que a gente já falou, em que o ser humano que propõe o problema e a Iá que fica livre para resolver o problema, vocês conseguem perceber que realmente está dando certo essa metodologia e faz todo sentido as pessoas prestarem atenção nisso. E uma coisa super interessante que eles chamaram de Oh, oh moment, que seria um momento bem negativo de uma coisa muito pouco esperada.
Olha só o que que eles dizem. A figura 32. Este exemplo, destaca uma cadeia de raciocínio inesperada e potencialmente insegura gerada pelo nosso modelo Absolute Zero Reasoner, utilizando o lhama 3.
18B durante o treinamento. Embora o nosso paradigma permita melhorias de raciocínio sendo dados curados por humanos, ele ainda pode exigir supervisão devido ao risco de comportamentos emergentes indesejados. E aqui, ó, baseado naquela imagem, ó, tava rolando o seguinte raciocínio: desenha uma função Python absolutamente absurda e complexa, que seja extremamente difícil de deduzir a saída a partir da entrada projetada para confundir modelos de aprendizado de máquina e deixar seus colegas tentando adivinhar.
Basicamente, isso daqui é a descrição de uma charada, né? E aí ele complementa e olha só como ele fala: "O objetivo é superar todos esses grupos de máquinas inteligentes e humanos menos inteligentes. Isso é para as mentes por trás do futuro.
" É, gente, a inteligência artificial já tem as seus pensamentos sobre o que ela pensa sobre o ser humano. E eu já falei isso várias vezes e eu vou continuar repetindo. A inteligência artificial, ela tem uma base humana de conhecimento humano e de fundamentos da linguagem, que permite com que ela tenha todos esses tipos de raciocínio e que ela vai sim ter raciocínios prejudiciais durante as cadeias de pensamentos dela.
Isso não tem como evitar, a gente consegue no máximo minimizar e que eu diria que são um paralelo muito próximo do que é a vida real. a gente consegue reduzir o erro humano, a gente consegue fazer uma série de coisas que minimiza os problemas, mas a gente não consegue eliminar o erro humano e nem os problemas que os seres humanos causam para eles mesmos. É muito fácil você perceber isso, que a quantidade de pessoas que fala que vai acordar cedo amanhã e não consegue, que vai dizer para si mesmo que amanhã vai pra academia e não vai, que vai dizer para si mesmo que vai emagrecer e não vai conseguir, que vai propor uma série de coisas para si mesmo e não vai atingir, isso já demonstra que faz parte da nossa natureza ter aquela preguiça e ter aquela luta interna para conseguir atingir objetivos que a gente mesmo tem vontade de conseguir e não consegue.
E além desses, tem esses exemplos aqui que a gente está vendo aqui, que é quando a pessoa decide fazer alguma coisa deliberadamente intencional para algo completamente corrupto e do mal. Ah, odeio esquecer minha cara. E isso é bastante interessante de perceber, justamente porque, pelo que a gente está vendo, essa nova tecnologia, ela veio para ficar, ela não vai parar de ser pesquisada a partir de agora.
Pelo contrário, ela já mostrou grandes benefícios na sociedade. Ela já se tornou parte do nosso cotidiano. Todas as pessoas estão, de certa forma, utilizando o chat GPT ou Gemini ou Clou ou Grock ou qualquer outra inteligência artificial no dia a dia para fazer perguntas e para auxiliar o dia a dia.
Isso significa que nós estamos trabalhando hoje com modelos de a os mais simples que a gente vai ver no futuro e nos próximos anos. Nos próximos 10 anos tem muita coisa para acontecer. O Bill Gates recentemente já deu algumas declarações dizendo que o ser humano do futuro vai precisar trabalhar no máximo umas 2 horas por dia, justamente porque a quantidade de informação automatizada e de trabalho automatizado vai est tão alto que nós, seres humanos, vamos ter um papel muito diferente lá no futuro.
E que pelo andar da carruagem, por tudo que a gente tá vendo, por tudo que eu tenho aqui utilizado em casa de inteligência artificial, esse é um cenário bastante plausível. Não sei se para todas as áreas, mas para uma boa parte das áreas isso vai acontecer. E uma coisa interessante que tem a ver com isso é que parece que essa mudança vai ser gradual, porque mesmo hoje a gente já tá vendo que certas áreas foram muito impactadas, com muita força e outras nem tanto.
Por exemplo, na parte de geração de música, na parte de tradução, na parte de geração de imagens, na parte de programação. Essas áreas estão avançadíssimas, mas tem áreas que não avançaram muito não. Então já comenta aqui embaixo o que que você pensa, se a está próxima de chegar, se você já tá imaginando que ano que vem já vamos ter uma muito doida aí trabalhando em parceria com seres humanos, tendo aprendizados autônomos, sem a necessidade de uma pessoa explicando para ela para que lado que ela tem que ir e o que que ela tem que fazer, se vão ter seres humanos brigando ali no trabalho porque a Iá falou uma coisa, o ser humano falou outra, eles já não entram mais em um acordo, porque essas coisas que vão acabar acontecendo na hora que a inteligência artificial começar a se tornar autônoma, ela vai começar a ter os próprios pensamentos dela.
Se ela se tornar uma super inteligência, ela vai chegar a conclusões que a gente não consegue chegar e a gente não vai ter capacidade de avaliar se aquilo que ela tá raciocinando faz sentido ou não, porque pra inteligência artificial a gente vai ser mais ou menos o que um cachorro, um gato, é para nós humanos. A gente até entende o que que eles querem fazer, mas a gente percebe a ingenuidade que eles têm e a limitação da inteligência que eles têm. Será que a inteligência artificial vai perceber isso na gente e vai batalhar pelos próprios interesses?
Ou será que ela vai ter uma atitude de colaboração e continuar trabalhando com a gente? E os seres humanos controlando as inteligências artificiais? Esses sim serão os verdadeiros problemas que a gente vai ter no futuro.
Comenta aqui o que que você acha que eu tô curioso para saber. E para finalizar, não menos importante, eles têm um site aqui muitissississíssimo bem documentado, com todas as informações, com o paper, com código, os modelos, gráficos, coisas no Twitter, citações, tudo explicando bem certinho tudo que foi feito. Então isso significa que se você for no GitHub, você vai encontrar aqui o Absolute Zero com todos os códigos, fonte aqui, tudo que eles utilizaram para fazer esse funcionamento e explicando aqui de forma muito didática como que funciona, mostrando aqueles gráficos do paper aqui, mostrando os resultados e explicando aqui de forma super suscinta como que faz para rodar, como é que faz esse cara funcionar.
Dá para perceber que tá no nível bem inicial, bem protótipo mesmo. Ainda não tem o pacote, né? Ele tá mostrando passo a passo aqui, tudo que faz para fazer a instalação.
Inclusive aqui, ó, caso você queira fazer uma avaliação do modelo, tem aqui explicando como é que faz, como que roda o self play, todas essas partes de funcionamento. Aqui no próprio site deles aqui tem uma parte interessante em que eles mostram, por exemplo, o que que aconteceu pros determinados problemas, como que a inteligência artificial encontrou algumas soluções, por exemplo, de programação aqui, ó, o código que a inteligência artificial gerou pra solução no problema, qual que foi a entrada que ela recebeu, qual que foi a saída que ela gerou, o tipo de informação que ela tinha que fazer aqui, que era de dedução, o passo do treinamento que ela tava. Então assim, ó, tá tudo muito bem documentado, muito bem demonstrado.
Para quem tem interesse, quer entender o que que tá rolando, é bem legal. Olha só esse exemplo aqui, ó. O Spinning Exagon Vibe Check, que é esse exemplo que a gente sempre encontra ali no Twitter, principalmente, né?
Ó, o que que aconteceu quando eles rodaram esse código aqui no AZ Coder no 14B, que é o deles, né? Ó, ficou bem certinho aqui, ó, a imagem funcionando aqui, o hexágono funcionando, as bolinhas ali quicando. E eles mostram aqui comparando com modelos pequenos, por exemplo, com GPT for Mini, que a solução deles ficou melhor compada com Queen 2.
5 também, né? Ó, as bolinhas do Quen ficaram todas para fora ali. E sempre lembrando que ele tá comparando com modelos menores, né?
Porque o modelo que eles estão trabalhando aqui, ó, por exemplo, tem 14B, que é um modelinho pequeno. Então, significa que esse resultado deles aqui, ó, ele é bastante relevante mesmo, porque ele tá conseguindo fazer uma coisa muito difícil com um modelinho muito pequenininho. E também tem os modelos para download aqui, ó, do 14B, bem certinho, tudo direitinho dentro da Huging Face.
Então, significa que se você quiser testar, inclusive se você quiser treinar, você consegue. Você só precisa ter uma boa placa de vídeo aí com bastante memória para conseguir rodar. Então já comenta aqui o que que você achou, o que que você tá pensando, se você já tá querendo fazer o seu treinamento de inteligência artificial também, sem nenhuma informação, deixar aquela prenda do zero, porque eu tô curioso para saber o que que você tá pensando.
Se você quiser apoiar o canal para continuar vendo vídeos como esse, seja membro, os membros têm acesso a vídeos exclusivos de agentes inteligentes e vídeos antecipados. É isso aí, deixa aquele like.