O novo o3 da OpenAI é o passo definitivo para a AGI? | Especialista em IA explica | Anwar Hermuche

6.76k views3684 WordsCopy TextShare

Anwar Hermuche

Neste vídeo, você vai conhecer em detalhes o o3, o novo modelo da OpenAI que revolucionou os benchma...

Video Transcript:

fala rapaziada tudo de boa seguinte nesse vídeo aqui a gente vai falar sobre o novo modelo que a openi lançou que é justamente aqui o O3 e a gente viu o alvoroço que esse modelo aqui causou nas redes sociais muita gente tá falando que esse modelo aqui atingiu a inteligência artificial geral que a gente tá muito próximo de atingir a Adi né Inteligência Artificial geral e primeira coisa esse vídeo aqui eu quero te esclarecer muitos muitos termos esse vídeo aqui eu quero que você saia com mais aprendizado e vai ser diente da maioria dos vídeos

que você provavelmente já viu aqui no YouTube quando o assunto é inteligência artificial não é o vídeo para você ficar somente assistindo desligando a cabeça não esse vídeo aqui é eu tô fazendo justamente para você pensar bicho esse vídeo aqui não é para você desligar a cabeça é para você ficar de fato Atento que eu vou te explicar alguns termos aqui pra gente poder entender o que que foi feito perfeito Então a primeira coisa é o que que é Adi né muita gente tá falando do termo Adi Inteligência Artificial geral General artificial General intelligence General

intelligence então o que que é isso é basicamente uma inteligência artificial é uma teoria Tá bom então no campo teórico é uma inteligência artificial que tem a mesma capacidade cognitiva de um ser humano mesma capacidade cognitiva de um ser humano O que que significa isso ano tudo aquilo que cognitivamente um ser humano é capaz de fazer a ai tem que ser capaz de fazer também então se um ser humano fica 5 anos no doutorado para propor uma nova tese para propor algo novo pra comunidade científica aí de tem que fazer também se um ser humano

consegue por exemplo tirar medalha de ouro na Olimpíada internacional de matemática a Adi tem que ser capaz também perfeito Então tudo aquilo que nós cognitivamente conseguimos fazer uma inteligência artificial geral também tem que conseguir fazer esse é o primeiro ponto e aí o que que a gente viu né a gente viu o seguinte ó se a gente vier aqui nesse tweet que eu separei para vocês ele fala o seguinte Olha só isso aqui é impressionante tá isso aqui é impressionante de vocês podem ver que de 2019 até 2024 mentira é até 2024 a gente teve

um avanço de 5% de 5% nesse datas perfeito nesse benchmark E aí depois eu vou explicar para vocês o que que é benchmark Tá mas isso aqui eu só quero mostrar para vocês o quão bom foi esse avanço então de 2019 a 2024 ou seja 5 anos a gente teve um avanço de 5% uma média de 1% por ano só que em 2024 a gente pulou de 5% para 87 bicho para 87 e o que que aconteceu aqui no meio da história né bom primeira coisa a gente foi avaliado aqui no GPT 4oito então GPT

4oo excelente e do o ele foi pro o1 e do o1 foi pro O3 Ah por que que não foi pro O2 eu vou explicar também depois tá mas a gente consegue notar uma diferença Olha só eu vou abrir aqui o chat PT para você poder ver pra gente poder fazer esse teste junto então quando eu pergunto alguma coisa pro 4 o olha só e Gere um código e para Sei lá uma l page usando react por exemplo react e com sei lá T Wind perfeito então Ó vou pedir aqui para ele gerar um código

Você tá vendo que ele começa a escrever logo de começo então eu já pedi para ele e ele começou a escrever o código não pensou nada só que quando a gente vai pro modelo o deixa eu ver aqui ó deixa eu criar um novo chat quando eu venho pro o1 que que acontece ele pensa primeiro Então olha só ele primeiro pensa para depois responder então uma das grandes diferenças aqui que a gente teve dos modelos é de 2024 é que ao invés de somente responder diretamente os modelos o1 e O3 eles pensam antes de responder

eles aplicam internamente uma técnica que a gente chama de Chain of touch então quando eu venho aqui ó Chain of touch é deixa eu mostrar aqui para vocês inclusive é uma técnica de engenharia de prompt proposta em um artigo científico que no caso é esse artigo aqui ó que eu vou mostrar para vocês então Nesse artigo ele propõe essa técnica de engenharia de prompt que nada mais é do que forçar o modelo a pensar antes de responder perfeito Então essa é uma das primeiras grandes diferenças que a gente teve de 2019 é para 2024 que

a gente todos os modelos aqui eles respondiam logo em seguida que você perguntava alguma coisa e de 2024 a gente teve essa aplicado internamente no modelo essa cadeia de pensamento o Chain of toou que o modelo raciocina antes de responder e geralmente nós humanos fazemos isso né antes de fazer uma pergunta de matemática quando a gente lê uma pergunta por exemplo a gente não sai fazendo direto a gente primeiro pensa Opa Ach que eu vou fazer isso isso aquilo o outro e depois a gente responde então show de bola melhorou bastante aqui e do A1

pro A3 a gente pode ver que ele foi muito bem eh o avanço foi muito grande né aqui a gente teve de 5% para 87 então o avanço foi gigantesco que a gente teve E aí agora que eu vou explicar para vocês os termos de benchmark e os termos aqui que eu tinha falado eh no caso sobre o ar né O que que é galera basicamente o Arc ele é uma competição que incentiva pesquisadores e pessoas que desenvolvem Inteligência Artificial a atingirem a Adi perfeito a inteligência artificial geral inclusive eles têm aqui um prêmio de

1 milhão de dólares para quem fizer um modelo open source ou seja um modelo aberto eh que a gente consegue utilizar qualquer pessoa consegue utilizar não é o modelo pago para quem fizer um modelo aberto open source eh que no caso aqui que consiga atingir essa adi que consiga atingir 100% aqui no benchmark deles e o que que é benchmark benchmark nada mais é do que um conjunto de questões um conjunto de problemas que a ia responde e a gente avalia a porcentagem que ele acertou dessa desse total de problemas que a gente tem ali

no caso desse dataset desse benchmark Arc a gente tem esse tipo de problema então é como se fosse um teste de lógica entendeu a gente tem aqui Opa dado isso aqui a resposta é essa Então o que acontece aqui onde tá faltando um quadradinho a gente coloca um com a cor mais escura e aí o que que ele faz ele dá isso aqui pro modelo poder entender o que que ele tem que fazer e dar esse outro conjunto de dados aqui para ele poder responder perfeito então é basicamente dessa forma aqui que funciona o benchmark

você tem um conjunto de problemas e um conjunto de respostas onde o modelo vai ser avaliado que no caso é esse aqui um conjunto de teste perfeito é E aí o que que eles propõe n a maneira diferente porque que o ar diferente de outros benchmarks inclusive tem um benchmark muito famoso deixa eu deixa eu até pegar o artigo aqui que a Open divulgou a deixa eu ver se é esse aqui acho que não é esse deixa eu ver aqui Open deixa eu ver acho que é esse deixa eu ver se é esse aqui ó

Quero mostrar vocês uma coisa muito interessante deixa eu ver aqui Acho que não hein Deixa eu procurar aqui tem um artigo muito legal que ele fala um pouco sobre o modelo A1 deixa eu ver Open a ã preview isso aqui deixa eu ver é isso acho que é isso Exatamente é isso aqui a gente tem um benchmark que olha só e deixa eu ver se ele vai falar o nome que eu esqueci de fato o nome do benchmark senão eu pegaria ele mas é um benchmark onde a gente tem basicamente perguntas a nível de PHD

de doutorado de física química e biologia e ele foi muito bem o modelo A1 foi muito bem só que esse benchmark aqui o que que ele avalia ele avalia problemas a nível de doutorado ou seja são questões Então você avalia a capacidade de resolver problemas da ia perfeito esse tipo de benchmark avalia a capacidade de resolução de problemas só que o que que o pessoal aqui do ar pensou eles falaram bom é como eu quero medir a Adi a inteligência artificial geral eu tenho que definir primeiro o que que é inteligência inteligência é resolver questão

não por quê Porque se eu decorar a resolução de uma questão eu consigo fazer só que inteligência não é isso Inteligência é a partir de problemas onde você Putz aprendi Qual que é o padrão disso aqui eu consigo replicar para qualquer tipo de problema agora isso é inteligência então eles mesmos falam aqui ó most ai benchmarks measure Skill but Skill is not intelligence ou seja habilidade aqui no caso a maioria dos benchmark de Inteligência Artificial medem habilidade mas habilidade não é inteligência General intelligence is ability toire new sks Ou seja a a inteligência geral é

a habilidade de eficientemente adquirir novas habilidades entendeu é capacidade de aprendizagem que o modelo tem e é justamente isso que eles propõem então It's Easy for humans but hard for ai então é fácil para humanos mas difícil para inteligências artificiais e é por isso que é um é um benchmark tão famoso aí quando a gente fala de Adi significa que quando atingir 100% aqui então a gente consegue ver que o O3 atingiu 88% né 87 significa que quando atingir 100% a gente tá na Edi também não não não significa então isso aqui é somente um

benchmark galera é um benchmark é um conjunto de questões onde ele vai aprender ali se atingir 100% significa que nesse conjunto de dados ele performou 100% ele entendeu 100% Bem Inclusive eu tô falando isso por a gente não precisa de ter o modelo Ultra inteligente para resolver 100% aqui desse Benchmark perfeito a gente não precisa de ter um modelo muito muito inteligente para resolver esse benchmark aqui de maneira 100% correta por quê E é um termo que eu vou explicar aqui agora para vocês que faz muita diferença vocês entenderem muita muita diferença Olha só inclusive

vou até traduzir aqui pr pra gente poder ver é tá aqui o novo modelo né O3 da Open ai treinado no conjunto de Treinamento público Arc ai um Então olha só essa informação aqui que muita gente é não comenta né ele foi treinado no conjunto de Treinamento público do Arc que que significa ele já teve acesso a problemas do Arc antes entendeu então modelos como o A1 aqui que ele foi comparado ao A1 eu pesquisei eu não achei Fontes que dizem que o A1 também teve acesso a esses dados Então olha só a gente tá

comparando o modelo que os problemas do Ark eram totalmente novos para ele com outro modelo como o A3 que já teve contato com problemas do ar antes e problemas com as suas resoluções entendeu então é justo fazer isso a comparação na minha visão não é justa a comparação do O3 com o1 não é justa justamente porque o A1 também não teve acesso ao conjunto de Treinamento público do Arc perfeito isso aqui eu vou te explicar de uma maneira muito muito fácil para você poder entender qual que é essa diferença né O que que tá acontecendo

aqui vamos supor o seguinte e aqui no caso e o que que acontece você tá fazendo uma uma questão de matemática tá você tá treinando para fazer uma prova de matemática E aí o que que você faz você faz um simulado esse simulado tem 10 questões de matemática você decora a resolução dessas 10 questões Então você vai decorar a resolução dessas 10 questões e vai pra sua prova se você chegar na sua prova e as 10 questões de matemática dela forem as 10 questões de simulado Pô bicho você vai deitar Você tá entendendo você vai

deitar porque você decorou a resolução só que se for diferente você vai tirar zero por quê Porque você decorou você não aprendeu entendeu Então você já teve contato com aqueles dados antes no caso de cair as mesmas questões do simulado na sua prova você já teve contato com aqueles dados antes e por isso você acertou porque você decorou aqueles dados só que se vier novos dados que medem de fato a sua capacidade de aprendizagem você não vai acertar Então você na verdade não precisa ter um modelo super inteligente para poder acertar 100% das questões aqui

do Arc basta você ter um modelo que foi treinado justamente com todos os as questões aqui do Arc entendeu E aí você consegue acertar 100% delas no caso caso olha só que interessante né e a gente vê aqui né então o o O3 ficou com um desempenho de 88% isso aqui foi muito interessante é isso aqui é muito legal olha só avaliação semi privada sem tarefas privadas usadas para avaliar overfitting o que que é overfitting é quando você tem um modelo que ele performa muito bem nos dados que ele foi treinado mas ele não consegue

generalizar o aprendizado ou seja por que que eu te falei daquela questão do simulado antes isso significa que o modelo com overfitting é como se fosse você que decorou aquelas 10 questões do simulado Então se cair 10 questões simulados ou seja se você for avaliado nas questões que você foi treinado nas questões que você decorou você vai muito bem só que quando você for avaliado com questões que você nunca viu na vida você vai mal ou seja a sua capacidade de generalizar o seu conhecimento é fraca isso é overfitting perfeito então aqui avaliação semi privada

foram 100 tarefas privadas usadas para avaliar overfitting e avaliação pública 40 as tarefas públicas então aqui tá o resultado Olha só quando a gente vê o modelo público eh no caso aqui definir né o O3 Você viu que ele foi treinado com um conjunto de Treinamento público do Arc então quando a gente avalia ele também com dados públicos você vai ver aqui que ele teve um desempenho de 91% só que quando a gente pega aqui por exemplo o o semiprivado né com eficiência baixa aqui também a gente vê que o desempenho cai por quê Porque

ele não teve acesso à aqueles dados então mesmo que ele ele tenha tido acesso a dados públicos ele não acessou dados privados e ele conseguiu generalizar menos o conhecimento dele perfeito só que ainda assim a gente tem muita muito acerto né Muito acerto a gente consegue ver aqui que o custo foi de 000 né o custo por tarefa foi de 0 aqui 17 aqui enfim é um custo bem alto mesmo é um custo bem alto que a gente teve e uma questão muito interessante é isso aqui olha só aqui descendo um pouco no artigo aproximadamente

9% das tarefas de avaliar ação pública que ele foi avaliado E por que 99% Ah aproximadamente por causa disso aqui ó você lembra que ele foi treinado com essas questões públicas mas se ele viu todas as questões públicas Por que que ele ainda errou 99% delas né aproximadamente aqui mais precisamente 8.5% das questões né Por que que ele errou essas 8.5% questões e é justamente eles até pedem aqui uma uma sugestão do público né Então olha só gostaria gostaríamos de sua ajuda para analisar os resultados então eles querem entender Porque mesmo tendo acesso a aqueles

dados antes ele ainda errou essas questões Então olha só tá aqui o exemplo e ele errou né no caso aqui ele errou ele não conseguiu generalizar e eles querem de fato entender o que que aconteceu se tem algum padrão aqui de erro e ele até pede ajuda do Público aqui perfeito então bom esse é basicamente o resultado que a gente teve e muita gente ficou pensando no Ah por que que foi do um pro O3 Por que que não passou pro O2 né por causa disso aqui cara eu até pesquisei olha só a empresa vai

provavelmente pular né a utilização de O2 para meio que evitar uma certa confusão com uma empresa Britânica de telecomunicação a O2 entendeu então como já tem uma empresa muito grande lá eh Britânica de telecomunicação que também chama O2 provavelmente deve ser por isso porque questão de marca que eles vão do A1 para O3 de forma direta perfeito Então qual que é a minha opinião sobre isso aqui de forma sincera vai atingir Adi não vai cara isso aqui é um benchmark é um conjunto de questões para avaliar a capacidade do modelo de aprendizagem de a partir

de problemas lógicos então de exemplos de antes e depois se ele consegue generalizar perfeito é basicamente isso é aqui igual eles falaram é a capacidade de eh de forma eficiente né adquirir novas habilidades isso é inteligência então eles tentam medir isso e a gente tá caminhando rumo a Idis Sim estamos só que cara ainda tá longe ainda tá longe isso aqui não é motivo para voroso Provavelmente tem um monte de vídeo aqui no YouTube de pessoas falando atingimos aí de títulos bem chamativos e provavelmente esse título aqui também foi chamativo só que eu queria mais

te passar esse conhecimento de que pô eh a gente tem que ter noção dos fundamentos né então o que que é overfitting é um conceito mais técnico de machine learning de aprendizado de máquina né E que a gente tem que ter noção para poder entender esse artigo então é basicamente dessa forma aqui que tá funcionando a gente tá chegando perto da Edi a gente tá caminhando rumo a ela mas mesmo quando atingir 100% aqui é nesse benchmark a gente ainda cara provavel realmente não vai est na Adi entendeu ela tem que ter a mesma capacidade

cognitiva de um ser humano para todas as tarefas Então se o ser humano consegue tirar medalha de ouro na imo né na Olimpíada internacional de matemática Ela também tem que tirar e tem pesquisadores tentando fazer isso né então sabe qual que é o melhor de tudo a gente não ficar com mental ficando assim Nossa será que vai atingir di Nossa o O3 ele tá com uma performance muito boa meu Deus do céu para de mental e vamos estudar Vamos focar no agora dá para desenvolver solução com inteligência artificial cara quando chegar na Edi perfeito bicho

excelente que que eu vou fazer até lá eu vou tentar vender soluções de a para poder fazer dinheiro com isso é isso que eu vou fazer tá entendendo Então chegou na ID a e show de bola Como que eu posso fazer dinheiro com isso também e eu sou um cara que eu pesquisava academicamente sobre inteligência artificial né então eu eu pesquisava a área de retrieval augmented Generation que é área de hag né de recuperação de informações então não sou um cara por exemplo que vende hoje aqui no mercado de a entendeu eu já pô pesquiso

isso academicamente já tem mais de 5 anos que eu mexo com essa área então é bem antes aí do Hype do GPT né e eu gostaria muito mesmo que vocês parassem com mental que de fato pesquisassem entendessem Pô bicho Será que atingiu aqui a a Adi E aí a gente vê aqui por exemplo Nossa eh eu vi aqui um termo que que é overfitting isso aqui tem que ser interessante entendeu você chegar nisso aqui e falar Putz o que que é overfit você vai Pesquisa aprende um novo termo entendeu e parar de tipo assim pô

eh caçar sabe sabe esse negócio de isso vai mudar tudo essas coisas bem chamativas assim é isso não vai levar ninguém a lugar nenhum o que a gente tem que fazer é acompanhar tendências e saber como que a gente pode aplicar isso seja no seu negócio seja em outros lugares perfeito e bom se você quiser aprender isso dentro de um único lugar eu tenho uma plataforma de ensino Inteligência Artificial que é a dácia Academy que é inclusive o primeiro link aqui da descrição você pode criar sua conta gratuita aqui a gente tem cursos tanto gratuitos

quanto pagos tá tem aqui o treinamento de chat PT o treinamento de n onde eu ensino engenharia de prompt e várias outras coisas mas isso aqui Claro se você tiver interesse é gratuita que é a conta que você pode criar e bom Espero que vocês tenham gostado aqui desse vídeo que vocês pesquisem também mais que aprendam mais Leiam aqui eu li todo aqui esse artigo eu não vou passar ele todo por vocês senão vai ficar muito cansativo porque ler você consegue ler em casa né Eh e eu não vou ser aqueles professores de faculdade que

senta na na cadeira da aula e fica só lendo slides eu não quero ser esse tipo de professor eu quero que vocês realmente peguem esse artigo que também tá aqui na descrição segundo link da descrição tá esse artigo aqui para vocês poderem ler show de bola então é isso estamos junto Espero que tenham gostado se gostaram se inscreva aqui no canal se inscreva no canal e deixa o like também que vai me ajudar muito tamos junto e até a próxima