Escrevendo código desde 2002, atualmente trabalho como Lead Engineer no Disney e falo sobre o que q...
Video Transcript:
então tô tô gravando esse vídeo aqui na correria hoje às 5 da manhã o xai né a empresa lá do Elon musk eles divulgaram o grock 3 já tinham divulgado né mas agora saiu e inclusive Eles fizeram a Live demo que eu quero ver aqui com vocês e também já disponibilizaram para mim então eu tô com grock 3 Beta aqui Ah eles têm uma função Deep search né agora a onda agora é Deep search é é o Quantas vezes a gente consegue deixar a a A Iá em Loop até nos dá um resultado que a gente espera Mas vamos assistir a Live demo tem muita coisa interessante e eu ten uns comentários a fazer Beleza eu vou colocar a legenda aqui para vocês poderem acompanhar mas é a primeira vez que eu tô escutando Então vamos conferir aí tá ok então na frente do El [Música] Uhum eu vou fazer um favor para vocês aqui tá eu vou basicamente assistir e vou deixar tocar só as partes que eu acho interessante para vocês tá então no início aqui o que ele começou falando é que tipo assim cara ele trouxe aquele aquele aquela história né que é importante a gente falar a verdade que é importante a gente poder dizer as coisas né Então essa é a missão deles para descobrir a origem do universo para descobrir todas as outras coisas tu precisa ã às vezes até discordar tipo assim né coisas que que são dat dado como certo talvez não são certas enfim esse negócio de ter mais a abertura né então acho que o grock vai vir com um pouco poucas Barreiras mas eu t bem interessado em saber se isso de fato foi colocado em prática aí ele explicou aqui da onde que vem a palavra grock né o nome grock que é basicamente é o nome de alguém que consegue compreender algo 100% né Ó esse gráfico aqui eu achei bem bem interessante meso wasy Point par and now Progress The Time on performance bench on bem impressionante porque mostra o quão rápido eles cresceram em termos de de reasoning né em termos da capacidade aqui do score da do modelo e quando foi lançado em quantos meses né então tu vê que de fato xai com grock disparou bastante ali em um período bem curto only one we B intellig so we can rec Training flops Ah eu sei onde isso aqui tá indo cara Training flops tá então tipo assim ó uma coisa que a gente tem que manter em mente e quando a gente fala de de ai da capacidade da ai é quantas operações floating Point operations por segundo tu consegue pro treinamento né então isso exige cara data center isso exige muito investimento em gpus Pelo que eu sei a xi ela com compr ela muita GPU tipo 100. 000 gpus das mais top lá das galáxias da da NVidia né E E se eu não me engano elk compartilhou esses dias a como que é a planta do data center que eles criaram né então eles TM o próprio data center agora how many gpus we can Run at Any Given time to train large language models to compress the entire internet so after all Human Part of it all Human é interessante é interessante como o El musk ele fica interrompendo e dizendo que as coisas são maiores NP ass tá certo o um pouco mais sem soft skill parece muito cara vocês já foram a cliente com com com com time de comercial uma vez eu fui a cliente né E aí a gente tinha esse cliente grande grande lá no no R Grande do Sul e foi eu o diretor de tecnologia e um cara do comercial que tava fechando o contrato e eu era o o o carinha de óculos ali no computador tá explicando as coisas como são e o diretor de tecnologia aumentando tá ligado a parte técnica e o comercial falando que não é na real isso é mais incrível ainda tá ligado era essa Vibe aqui de de interrupção muito engraçado ands tá deixa eu ir pulando aqui para ver o que que tem mais de interessante aqui é o Data Center ó cara vamos ver aqui a fase eles tinham que completar em 122 dias né 100. 000 gpus rodando de forma síncrona do de Ground up né de forma Scratch do Zero eles iam fazer isso aí e a fase dois é 90 92 dias para expandir para 200.
000 gpus então Colossus Total gpus 200000 nvao maisu precisa de mais GPU 10 vezes mais poder de computacional não não não é É mais do que 10 na verdade o falou Ah aqui tá cara então o modelo deles ainda tá em treinamento tá mas olha o que eles reportaram aqui já matemática programação tá deixa eu tirar minha a minha cara aqui da frente mas basicamente o grock 3 superou muito aqui o até o dsic V3 né até o dsic V3 é interessante que eles estão comparando ainda com GPT 4 o a gente não vê o o One ou o O3 não vemos os modelos o aqui da da Open n o w 3 que é o último da Open né Isso aqui é interessante talvez porque ainda não é público o não tá disponível é interessante que ele tá falando aqui cara desses benchmarks é tipo assim OK Esses benchmarks são legais mas tipo assim cara isso aqui é decorar ligado é decorar problema e eu já venho falando para vocês sobre isso que cara as empresas elas hoje quando elas vão lanar um modelo Model ar bem nesses benchmarks só que as empresas já estão treinando os modelos com os benchmarks então digamos a a Open eii testa um benchmark ela divulga o resultado o dsic V3 vai lá faz o mesmo benchmark para comparar e publica os resultados então tu acaba divulgando na internet os resultados desses benchmarks o próximo modelo que vier ele já treinou sobre esses dados que são públicos tá ligado eles precisam ser públicos justamente para pessoas acreditar no benchmark senão simplesmente eu vou lá e falar que não eu bati 100% eu não vou te dizer como o que que eu respondi correto então ah é sempre meio tricky tá ligado é sempre meio estranho esses benchmarks acreditar nesses benchmarks o modelo acaba apresentando muito que o desempenho codem incrível mas no dia a dia ele não consegue codar de forma tão incrível como como isso aqui tá [Música] isso aqui é diferente Hot Chocolate então basicamente no chatot Arena é mais dinâmico tá ligado então eles fizeram Blind test Um test cego Então ninguém sabia que era o GR era grock erome dele era chocolate esses testes rotacion muito mais n não são os mesos dos benchmarks cara agora que eu vi eles bateram 1400 Acho que ninguém tinha batido 1400 ainda então basicamente como que funciona o chat poot Arena ele testa Engine da llm o usuário ele escolhe um desafio e ele manda o mesmo desafio mesma query pras dois modelos né E tu não e é cego porque tu não sabe qual modelo tá respondendo Qual que é o modelo que tá respondendo Cara vocês vocês já devem ter visto vocês nunca viram o Um Arena esse LM Arena por exemplo então tu vem aqui tá ligado E aí tu tem o modelo a modelo B tu não sabe o que que é o modelo a modelo b e tu consegue no caso fazer uma uma pergunta aqui usando uma imagem aleatória E aí tu faz uma pergunta tipo assim describe the the image tá E aí ele vai descrever a imagem dois modelos que a gente não sabe quais são os modelos que estão rodando por por detrás dos panos né provavelmente eles têm lá internamente mas o modelo vai ter que fazer esse desafio e eu não sei se é quem que decide aqui daí quem ganhou se é eu mesmo que decido ou não enfim ó os modelos estão respondendo aqui tá então é basicamente nessa nessa linha vamos voltar ali pro pro vídeo tá tu Vot is isso é muito 1400 aggregated Across all the categories inabili coding cara é demais olha só te liga em primeiro lugar aqui tá o X com o grock 3 em segundo lugar lugar o Google com Gini 2. 0 Flash Thinking então aqui ele já tá usando um modelo de de de esses raciocínios lógicos né ah que seria equivalente ao w da da da openi ah Gemini o pro Expert sem o Thinking reasoning tá em em em terceiro depois vem o chat pt em quarto Deep seic em quinto Google de novo cara o Google a gente dá pouco para ele mas ele tá bem acima uma das coisas aqui impressionant do Google do Jini é a janela de contexto né que ela ela é gigante a Mas enfim o grock ultrapassou todo mundo numa curta de tempo cara isso é impressionante mesmo então o modelo ainda tá treinando tá ligado eles acham que el já tem um modelo que tá melhor do que esse aqui aindaa falo aqui tá aqui eles estão falando do reasoning então grock 3 vai ter a mesma coisa do reasoning que é ele pensar sobre a resposta que ele tá dando o quanto de certeza ele tem sobre essa resposta para ele se fazer a mesma pergunta de novo e ele até conseguir uma resposta que satisfaz né então uma coisa que todas as outras empresas já estão fazendo Eles colocaram aqui também no grock 3 o que meu V é bem melhor né Open ey foi para aquele caminho não é GPT 3 4 4,5 ou One ou três daí agora vai mergear tudo no GPT 5 ficou meio meio confuso caso de uso eles vão falar aqui agora tá daí agora aqui eles estão dando alguns casos de uso né Então cara eu não quero isso aqui eu quero eu mesmo testar tá porque eles estão basicamente aqui mostrando para nós o que que é o que me chamou atenção é que eles TM o o Big Brain Porque para mim aqui try Now deixa eu ver porque dentro do do ex não apareceu para mim ah Brainstorm Ok onde é que eu vou eu tenho que logar deixa eu logar aqui eu tô aqui logado agora eu não sei cara aqui para mim aparece o grock 3 mas não aparece aquelas opções que eles estão mostrando aqui de Deep search think Big brain no ex se eu tô lá no Twitter eu até consigo ver search mas não tem as outras opções não sei por are How are in strawberry quantos R tem strawberry aquela pergunta bem padrão né vamos ver se o que que ele responde para nós aqui tá pensando tá bem lento né cara não sei se é por causa da demanda Mas eles precis aumentar o dat Center deles mesmo nenhum de psic no dia do lançamento tava tão lento cara para responder não precisa pensar tanto assim cara quantos RS tem no no morango te liga tá tá demorando demais cara travou o Nintendo aqui tá aí ah pessoal Pois é e aí imagina para fazer uma tarefa para nós respondeu em branco respondeu só nada Vamos regenerate agora sim Let's Break Down Aqui tá o primeiro ar Aqui tá o segundo aqui o terceiro então tem TR ar ok ok foi um bom bom teste give me a list of Words thats Vamos ver me dá uma lista de 10 palavras que contenham TR R irregular referal override override override tem TRS override tem dos ele falou que tem TR Territory 3 recurrent OK 3 Bar 3 el fou que tem TR mas só tem dois dois ele falou que tem três é pessoal o meu o meu teste o meu teste ele não passou Ah enfim o maior modelo aquele que vai Cadê eu aqui ó aqui aqui aquele que vai roubar o teu emprego tá aí o modelo que vai roubar o teu emprego mas enfim no teste aqui eles vão vão falar algo bem interessante né ele tá pegando aqui um um um um jogo em Python que faz ah Tet o o código pode ser muito longo Tu viu que o cara ó olha olha só olha só ó Ele clicou uma vez clicou uma vez não funcionou clicou de novo não funcionou terceira [Música] a aí tirou da tela tá pensando Thinking hard tá pensando bastante Live demo cara Live demo sempre é Um Desafio né não tem reasoning voltaram voltaram pro slide desistiu tá cadê o código Cadê o meu código espera move o ticket o grock tá pensando mas enfim aqui o reasoning Beta reasoning é ainda maior cara daí 96 em matemática 80 encoding esses números são incríveis cara ess esses números aqui são impressionante eu tava na frente ali de matemática mas se liga só eles são os de azul tá o o GR o azul esse aqui é o grock Mini e o outro é o grock real né o grock 3 o maior modelo cara os números são muito impressionantes na real isso aí a gente não pode ficar de deação são são bem impressionantes mesmo e enquanto isso enquanto isso grock tá gerando o jogo em Python lá para nós reasoning mais test time compute tá o que mais tem de interessante aqui eu quero saber que deu o jogo aí terminou ou não terminou [Música] tá Eles mudaram Gener code for anim 3D launch fors esse aqui é outro problemae aqui não é o mesmo aquele aquele L abandonou deixa gerou aqui o agente próxima Fronteira vai os agentes e tu pode procurar na internet também ó cara essa interface aqui é interessante Thinking researching isso aqui é interessante cara eu quero fazer isso aqui funcionar me amor cara eu quero eu quero eu quero ver isso aqui funcionar meu isso aqui seria legal Se funcionasse Vamos botar Deep research e vamos perguntar alguma coisa aqui que que vocês acham que que a gente deve perguntar ah ah eu esqueci que é gravado não tá ao vivo ah When is oh não what is what is the most Incredible não What is new in the new Android version O que que tá o que que tem de novo na nova versão Android o Android lançou né agora então ele tá fazendo Deep search tá researching tá ele tá procurando aqui o Android 15 que foi o novo lançamento aí ele tá buscando Android 15 New features aí OK There is a lot here SW confusion official source falou que achou muita coisa então tá confuso sobre qual que seria a fonte original Ah cara parece ser de fato um Thinking de fato parece melhor do que o chat PT porque o Thinking do chat PT não é Thinking né aquilo lá ele tá fazendo uma prova real do que ele já já te deu Cara isso aqui essa experiência tá bem melhor do que todos os outros que eu já vi tá melhor do que o open melhor do que o deeps melhor que o Jini tipo esse sei lá para mim tá parecendo mais interessante ter esses esse passo a passo bem interessante mesmo parece bem um agente me lembra um pouco do Devin tá o Devin que roubou os 00 de mim né e derrubou produção então ele completou aqui Key points daí ele gerou um relatório novas funcionalidades Death protection privacy navigation notification improvements daí ele trouxe tudo aqui ã para mim interessante cara trouxe um relatório completinho aqui com as citações bem massa bem massa o que mais eles estão falando lá vamos ver então eles estão falando aqui que se tu quer ter acesso ao grock H tu tem que ter o Premium Plus E aí tem o super grock também webcom tá então isso aqui é para quem tá no site bem que eu vi que a experiência do gr. com e é uma e lá dentro do ex é outra então tem diferença aí nos dois interessante cara bom vamos ver mais se eles tem mais alguma coisa aqui não daí que eles entraram em q& bom cara eu vou dar uma testada no grock nos próximos dias fica aí então ah coisas impressionantes até agora o grock bateu 10000 pontos lá no Arena né ficou em primeiro lugar aqui na frente do Gemini na frente do do for0 na frente do de psic números impressionantes também ali na parte de reasoning de matemática bateu 90 e poucos ali de pontos no benchmark mas Lembrando que benchmark cara a gente não pode confiar muito no benchmark não porque o benchmark é errado mas porque eles treinam sobre resultados de outr outros benchmark tá então esses benchmarks aqui não mas essas Arenas estão sendo um pouco mais confiáveis nesse sentido né ah o que mais bom é é isso se tu quer ter acesso tu Provavelmente tem que pagar lá o o Twitter ou ter o plano Premium lá no gro.