o3 ficou INSANO mas ainda é mais burro que você

15.95k views3220 WordsCopy TextShare

Lucas Montano

🌏 Aproveite a oferta exclusiva da NordVPN aqui → https://nordvpn.com/montano . Sem riscos com a gar...

Video Transcript:

que vocês acham a gente pegar o vídeo de hoje e falar sobre o o quão perto a gente tá de est ferrado como programador a gente vai ver o resultado do modelo O3 novo modelo da Open ai porque é é inevitável né o o progresso das inteligências artificiais nos últimos anos tem sido insano eu sei tem sido insano mas assim como o progresso tem sido insano o que elas são capazes de fazer o custo delas também tem sido insano o o o TRS né o old3 tá saindo agora saindo agora em janeiro né E pode

chegar a custar 000 por tarefa cara tu imagina a ia ela vai manda super bem né um modelo tunado mas nesse teste porém custa 000 por tarefa então olhando só para essa progressão aqui ó do quão bom os modelos da Open eii tá ficando mas o quão caro ele tá também custando a gente vê que provavelmente o emprego dos brasileiros e dos indianos com programadores estão salvos por enquanto mas também assim não sei se tu sabe mas eu tô sendo acusado de de negacionista da Inteligência Artificial né O Júlio comentou aqui no nosso vídeo você

continua negacionista mesmo sendo desenvolvedor experiente ainda não conseguiu vislumbrar os as potencialidades essa resistência toda tem qual origem hein Lucas você percebe que está sendo arrogante você espera aprender algo com essa soberba aí ele me pegou aqui né não não satisfeito né na real teve três respostas mas ele continua né ele começou completamente errado né aqui ele tá falando de eu utilizando o o Devin que eu não sei se tu viu devem tá codando por mim mas eu só faço o Code review e aprovo as modificações dele e aí Olha o o Code review o

PR dele 5000 arquivos modificados em cinco comets não não a ia É isso aí cara a ia ela vai codar por título só vai precisar aprovar depois as modificações 500.000 linhas adicionadas em um por request Mas beleza né Eu tô sendo negacionista eu acho a diferença entre eu e tu é que eu simplesmente consigo programar isso pareceu meio arrogante né como tu falou deixa deixa eu colocar em outras palavras tá Não não é isso mesmo cara hoje eu perco mais tempo por exemplo explicando pra ia O que ela deve fazer do que eu gastaria fazendo

eu mesmo esse é o problema mas Lucas mas Lucas vai ficar melhor e mais barato Lucas não cara antes de ficar mais barato vai ficar muito mais caro e talvez tu não entenda isso porque sei lá tu não consegue enxergar a grana que tá sendo injetada nesse mercado e e não sabe o porquê dos avanços que estão ocorrendo né esses avanços que a gente tá tendo nos últimos meses Talvez tu não entenda Tecnicamente como que a gente conseguiu eles Deixa eu te explicar né sem ser arrogante Deixa eu te explicar nos últimos meses tá a

gente teve um progresso no que no que se diz de de test time compute ttc onde basicamente é isso aqui ó tu tem lá o ow One tu vai fazer um prompt para esse modelo esse teu prompt vai entrar como input Inicial e antigamente o que que o gpt3 GPT 4 eles faziam ele meio que pegava o teu prompt e vias a probabilidade da próxima palavra do teu prompt ele autoc completava o teu prompt te dando a resposta o que o wow da vida que w One One 2 wow 2 não vai existir né Wow

One e wow 3 eles vão fazer estão fazendo é basicamente ele consegue pensar tá então ele pensa um pouco sobre isso mas o que que é esse pensamento antes de mandar para ti a resposta ele vai se autof fazer aquela mesma pergunta de novo com mais informação no contexto tá a Open e pode estar falando fazendo alguma coisa muito diferente aqui mas o Core desse test time compute test time compute é fazer o modelo perceber quanto tempo ele deve gastar nessa tua pergunta então por exemplo se tu pergunta qual que é a capital do Brasil

idealmente tu não precisa fazer o modelo refletir sobre a resposta não a capital do Brasil é probabilidade de resposta ele vai te responder Qual que é a capital então numa única interação ele consegue fazer isso então test time computer ele tentar entender a complexidade do que tu tá perguntando para saber quantas vezes ele tem tem que ficar pensando aqui em loop porque cada pensamento dele ou cada cálculo de probabilidade Ah ele vai custar mais caro o quanto mais caro para problemas complexos chega a ser 000 por tarefa que tu um ser humano resolveria só batendo

o olho e eu já vou mostrar qual a tarefa ele errou e que tu batendo o olho resolveria Então vamos falar do dos Testes desse O3 e porque que todo mundo ficou meio que abismado com ele primeiro na questão matemática né então o na Open aio 3 ele passou aqui no Frontier math que o Frontier math basicamente aqui é um projeto cara que avalia a capacidade desses modelos de resolver problemas matemáticos complexo né envolvendo vários tópicos como álgebra cálculo geometria lógica matemática e por aí vai então o novo modelo da openi no teste Frontier MEF

ele bateu 25% de score né de pontos basicamente Frontier math é um teste que a galera tá fazendo é um projeto que avalia a capacidade dos modelos de Inteligência Artificial de resolver problemas matemáticos complexos tá envolvendo álgebra geometria lógica matemática e por aí vai então os outros modelos antes do O3 Eles simplesmente conseguiam resolver 2% e o old 3 Conseguiu resolver 25% então a gente tem um salto aqui gigantesco de fato esse modelo O3 ele é muito superior ao o1 esse gráfico que eu tô mostrando aqui é um outro projeto para testar Adi para testar

modelos para ver o quão próximo elas estão de ser uma uma inteligência artificial que aprende sozinha assim como nós humanos né mas vamos ver uma das vezes que ele errou então por exemplo isso aqui é um dos Testes tá vamos olhar olha esse desenho aqui vamos ver se tu é burro ou ou mais burro que old TRE ou não tá olha esse teste aqui olha essa imagem aqui e depois essa para resolver essa aqui tá então basicamente se tu olhar essa imagem tu vai ver que a gente tem três quadradinhos pintados aqui de Cinza aí

se a gente olhar aqui o cinza tá mais pro lado e ele tá três vezes mais pro lado o azul ele tem quatro aqui né em azul então se eu a gente olhar esse desenho ele andou aquelas quatro casas então a gente tá vendo que basicamente né Essa seta ou esse essa cor que sai de dentro do bloco né do retângulo vai ser aonde vai ser preenchido por aquele retângulo como se fosse aqui um um Tétris meio abstrato certo então tu batendo esseesse o olho aqui como um ser humano com esse input tu consegue prever

esse output né isso aqui tu treinou com isso aqui agora tu sabe do que se trata se eu te aplicar isso aqui tu vai saber também que o laranja vai descer o Rosinha vai andar pro lado e vai ficar em cima desse azul e é basicamente isso que acontece beleza problema simples esse problema aqui foi que TRS não conseguiu resolver então eles deram esse input ã de exemplo né então basicamente o azul vai andar para cá o vermelho vai andar pro lado vai ter essa imagem aqui de resultado final e agora essa aqui ele basicamente

não conseguiu fazer cara tu como um ser humano aí para resolver isso aqui obviamente tu sabe que o o resultado final vai ser basicamente esse azul vai preencher esse esse espaço aqui o azul vai preencher esse espaço aqui e o laranja e o laranja vai acabar também aqui então o resultado final vai ser mais menos isso aqui cara tu bate o olho e tu consegue fazer o out TR não conseguiu então viu tu não precisa se sentir burro cara tu ainda é muito mais inteligente do que h o o melhor modelo da Open eii que

resolve tarefas complexas mais ou menos ali gastando 000 por tarefa então Nós seres humanos Nós ainda somos muito mais capazes de resolver problemas que a gente nunca viu antes quando alguém nos mostra apenas um exemplo mesmo sem a gente ter estudado sobre aquilo antes eu eu nunca tinha visto esse Arc aqui esse teste Provavelmente tu também não mas ok eu não vou ser negacionista tá a a gente não pode negar que os modelos estão avançando sim e muito e assim cara com esses com esses modelos novos eu eu eu de fato Espero que o samal

tamb entregue Adi embora ele tenha feito esse tweet aqui né o Hype no Twitter tá fora de controle a gente não vai entregar Adi no próximo mês e a gente também não construiu ele ainda a gente tem coisas muito legais para apresentar para vocês mas por favor né fica fica mais calma baixa a bolinha corta as tuas expectativas em 100 vezes mas uma coisa eu te digo eu confio que o Sam altan ele vai conseguir a gente vai conseguir ter ai a gente vai conseguir se aposentar até porque tipo assim cara como é que a

gente vai né e duvidar de um cara que tá fazendo algo por amor né mas dá Open ey eu só acredito vendo agora eu esperei um ano para ter acesso ao Sora vocês lembram do Sora né e eu acabei me decepcionando muito com o resultado meu eu quero mostrar para vocês aqui deixa eu girar uma imagem mas infelizmente tá bloqueado na Holanda né o Sora eles bloquearam aqui só consegue utilizar em outros países como Estados Unidos assim como o que eles divulgaram também agora dia 23 de janeiro o operator né ele tá available tá disponível

apenas para usuários pro nos Estados Unidos então tu só consegue utilizar o operator se tu estiver nos Estados Unidos mas como todo bom deve Cara eu tenho uma VPN e eu uso a Nord VPN eu uso há mais ou menos uns 10 anos eu super recomendo para ti não é só porque ela tá patrocinando esse vídeo cara mas Porque de fato é a VPN que eu tenho utilizado na última década tá então um amigo meu me perguntou esses dias Lucas tu tá usando Sora e o o sor ali né eu falei é soro Sora eu

falei sim cara eu tô DAE falou tá mas como é que tu consegue né porque ele também mora aqui na Holanda eu falei não eu conecto na VPN dele mas é muita mão cara muita mão é literalmente clicar em um botão tá ligado clica aqui para conectar nos Estados Unidos Pronto tô conectado nos Estados Unidos venho aqui no Sora dou um refresh pronto tá liberado para mim então aqui tá o Sora eu fiz Alguns alguns vídeos Ali do tiktok mas olha só a capacidade desse modelo vou gerar um vídeo de 5 segundos tá em qualidade

480p só pra gente ver então a software engineer afraid that ai Will replace him and lose his Job the software engineer Website for food então um engenheiro de software aqui com medo que a i vai roubar o seu emprego e acaba oferecendo seus serviços por comida né trocando serviços um website por comida aqui a Chloe fiz um videozinho dela esse aqui ficou ficou muito viajado né vamos ver o que que ele gera aqui para nós enquanto isso deixa eu falando para vocês da Nord VPN uma das coisas que eu mais curto no Nord VPN é

que a minha velocidade de internet não cai quase nada quando eu conecto com ela meu porque ela tem uma largura de banda de VPN ilimitada Além disso eu fico conectado e protegido contra malware né vamos falar sobre proteção com VPN não preciso falar contigo né Tu é Dev tu sabe onde tu clica então talvez esse nem seja a a funcionalidade que tu busca Ah eu quero ficar protegido contra malware não a a maior vantagem para mim na minha opinião é poder ocultar a minha localização usar bloqueador de anúncios e localizadores e também no caso conectar

tá ali nos Estados Unidos e poder utilizar as inteligências artificiais que só estão liberadas lá então clica no link que tá aqui na descrição ou escaneia o QR Code que tá aqui na tela para testar a Nord VPN sem riscos nenhum tá porque eles têm garantia de reembolso de 30 dias da Nord Então esse aqui é o resultado ó um programador com medo da Iá roubar o emprego dele oferecendo seus serviços na rua por comida aí o que que vocês acharam hum revol revol revolucionário é ou não é revolucionário isso aqui dia cara a gente

esperou um ano por isso e assim como o Sora né o modelo O3 o o operator eles devem estar custando muito mais para openi do que os 200 que tu tem que pagar por mês para usar o plano pro então voltando lá o quão o quão digamos ferrados a gente tá como deve eu diria que tem uma barreira de preço aqui meio que invisível e essa barreira ela vai ser de custo de energia e hardware porque praticamente os modelos estão ficando mais inteligentes porém por meio que força bruta entendeu não se trata de ter um

modelo maior de ter um modelo que consegue digamos de fato compreender as coisas que estão acontecendo mas sim uma evolução nos acertos com base em duas coisas saber o quão complexo é o que tá perguntando para ficar se autop perguntando aquilo de novo mas saber também medir a probabilidade de acerto de cada resposta interna então quando faz uma pergunta complexa o modelo gera né usa o o llm dele para gerar probabilidade de responder aquela tua pergunta ele vai analisar aquela resposta ver a probabilidade daquilo estar correto se a probabilidade tá baixa ele faz de novo

a atualização do contexto e faz aquela pergunta e fica meio que força bruta até que ele consiga achar ali algo que é aceitável Então significa que para acertar um uma ter uma performance nesses testes maior ele precisa de duas coisas ele precisa aumentar o custo de processamento e precisa entender quando que ele tá errado Tem um motivo dele ter parado em 88% e aqui é simplesmente um achismo meu eu acho que o sistema desse desse modelo da Open eii ele tem meio que um limite de custo tá ligado tá Qual que é o percentual aceitável

para esse teste e o quanto que a gente tá disposto a pagar aparentemente só nesses últimos benchmarks a Open gastou 5 milhões de dólares então com 5 milhões de dólares com qual percentual de acerto a gente pretende fazer quanto tempo a gente pretende deixar o modelo rodando mas eu acho que em algum momento ã essa barreira aqui ela vai precisar de mais capital e vai mesmo cara porque bom o trump acabou de anunciar né na verdade a openi anunciou aqui junto com a softbank e a Oracle um programa de investimento de 500 Bilhões de Dólares

para construir uma infraestrutura pro desenvolvimento de inteligência artificial nos Estados Unidos dinheiro que segundo o Elon musk eles na verdade não têm E se a gente voltar aqui pro gráfico vocês vão ver que quanto mais dinheiro a gente injeta e aqui eu vou chegando na conclusão do se a gente tá fracassado ou não agora com esses 500 Bilhões de Dólares que os Estados Unidos vai injetar vocês tem que ver a progressão entendeu pro modelo ficar digamos aqui 12% melhor então de 76% ele foi para 88 ele ficou 12% melhor e esse custo para ficar a

12% melhor foi basicamente aqui de sei lá $2 para 000 então ele ficou 172 vezes mais caro para avançar 12% de performance Ah Lucas mas olha o gráfico dos benchmarks ela daqui a pouco vai bater 100% se se tu tá pensando isso cara tu não entendeu o que eu falei no vídeo até agora volta um pouco e assiste de novo o custo de computação para resolver esses puzzles do arcade e ele eles são insanos cara a gente tá falando aqui de um um custo por tarefa de 3.400 D eu vou começar me preocupar com com

com os empregos e não só com o programador como todos os empregos que exigem tu raciocinar sobre um problema quando a gente conseguir ver essa curva aqui aumentando então o modelo vai ficar melhor que ele tá ficando melhor porém com custo diminuindo então quando o o wow 4 lá da vida o wow 5 vier e a gente vê que ele tá digamos avançando 12% e ele para avançar esses 12% ele ficou 10 vezes mais barato Aí sim a gente tem que se preocupar até o momento a solução para esse modelo super aqui é é tacar

mais dinheiro é tacar 500 Bilhões de Dólares tem um problema também que ninguém fala muito é que cara quando a ya erra ela não consegue saber que errou entendeu ela não consegue refletir ela não consegue cometer um erro agora e depois no banho puts quer saber Cara eu acho que eu tava errado então basicamente esse erro da ia tem que ser corrigido por um humano Porém tem uma outra curva acontecendo Eu tenho utilizado o Devin né e basicamente esse P request que eu te mostrei no início do vídeo ele demonstra muito bem esse problema o

problema é que para fazer sentido utilizar uma ia ela tem que resolver problemas complexos Digamos que a gente consiga resolver Ah o custo tá então ela tá resolvendo problemas complexos e agora não custa 000 por tarefa 000 por tarefa não é um custo razoável é mais barato do que um devis Senior custaria para resolver aquele problema complexo Ok mas como a ia não consegue entender quando que ela errou tu como Dev precisa analisar esse problema complexo que ela resolveu o que significa que tu vai analisar uma solução para um problema complexo que tu não tem

contexto nenhum então as tuas horas tentando identificar os problemas daquela solução complexa também precisa ser incluída como custo e nem tudo se trata também de dinheiro cara o custo energético sobe então uma tarefa doou TR ela foi estimada em mais ou menos cinco tanques cheio de gasolina esse aqui é o custo energético tu sabe quanto que o teu cérebro consome de energia 20 W 20 W continuamente só 20 W Mesmo durante um pensamento reflexivo tá ligado que precisa ficar matutando sobre aquilo o teu cérebro ele consome 20 W E o teu combustível tu sabe qual

que é hidrate-se meu porque assim tu consegue atingir aí a performance do Out TR só na base da água