NOVO Grok 3 da xAi: Opinião e Testes do Ex-OpenAI e das Pessoas Em Geral Sobre a iA Do Elon Musk

5.82k views4716 WordsCopy TextShare

Inteligência Mil Grau

Aprenda Inteligência Artificial! ▸ Seja MEMBRO: https://www.youtube.com/@inteligenciamilgrau/join ...

Video Transcript:

é pessoal como vocês já sabem o grock 3 foi lançado ele já está liberado paraas contas Premium Plus e vamos dar uma olhadinha no que que as pessoas estão falando sobre o desempenho e o que que elas Conseguiram fazer Qual foi a avaliação das pessoas como que elas estão dizendo que tá acontecendo esse grock 3 se ele é tudo que dizem ou se ele é só mais uma jogadinha de marketing É isso aí vamos lá pessoal Sempre agradecendo a todo mundo que deixou seu like a todo mundo que se inscreveu um agradecimento especial a todos os membros do canal que patrocinam esse canal aqui de Inteligência Artificial então gente eu tava dando uma olhadinha aqui no Twitter na verdade esse aqui é o ex né E aqui esse min shoy aqui ele encontrou 10 casos de uso de pessoas que estão usando o grock e que fizeram coisas utilizando o grock Então vamos dar uma olhadinha em tudo que foi feito aqui e vamos dar uma comentada pra gente entender que nível que tão as coisas e o que que as pessoas estão falando em relação ao que elas tentaram fazer bom para dar uma atualizadinha no que que tá acontecendo o grock tá lançando o modelo de raciocínio de reflexão e também fez o modelo de Deep search que é aquele agente que faz pesquisas na web O que foi disponibilizado já paraas pessoas dos planos Premium é fazer o modelo de raciocínio é fazer ele pensar um pouquinho mais antes de responder e por conta disso ele já tem uma super avaliação ali muito positiva em relação ao que ele tem feito aparentemente as funcionalidades de Deep search e outras funcionalidades como a conversação por voz eles vão lançando ao longo do tempo mais ou menos em um mês aí é o que eles estão prevendo Mas vamos dar daram uma olhadinha aqui ó primeiro proms que falaram aqui ó faça o portal dois que é um jogo usando o grock 3 Então esse Xuri aqui comentou o seguinte ó ele pediu pro grock 3 fazer o jogo Portal 2 e ele respondeu o seguinte ó esse foi o único modelo que conseguiu chegar até aqui e ele manda uma gameplayzinha aqui bem curtinha né se dá para ver que o código tá ali embaixo e dá para ver que é um jogo 3D ali feito ali na raça ali na mão mesmo e que ele tá jogando e navegando pelo mapa fez aqui uma tzin ó tá vendo que o playerz tá jogando aqui ó vermelhinho tá andando aqui pelo mapa Então tem um minimapa que o player vermelho tem que zanzar aqui e Navegar por esse mapa E aparentemente tanto o minimapa quanto a navegação tão boas e é importante esse detalhe olhando parece que o jogo é um jogo muito simples muito básico né porque se você for ver o portal 2 é um jogo bem feitinho não é um joguinho qualquer não mas quando ele diz que é o único modelo que conseguiu chegar até aqui pelo menos a gente consegue ver que a gente tá saindo daqueles modelos que só fazem Tetris aqueles modelinhos que só fazem jogo da velha e agora começamos a subir para um nível que faz um joguinho 3D e já faz minimapa e já faz todo o joguinho ali então assim ó vamos dizer que a nossa escalin de exigência agora já saiu do Tetris principalmente porque na apresentação original ali De low musk Eles já fizeram uma mistura de Tetris com B jolet que ficou bem interessante em segundo lugar aqui o Andre carpat fez alguns testes só que eu vou deixar esse por último porque o Andre carpet escreve bastante e ele fez uma análise bem mais profunda Então vamos pros próximos e depois a gente volta nele criar jogo 100% com o grock aí o centavo 2x falou o grock 3 acabou de ser lançado vocês não vão acreditar Eu Já criei um jogo e tive acesso antecipado esta manhã o jogo foi 100% criado pelo grock Eu Apenas disse a ele que eu queria e coloquei o código no lugar certo eu continuo pedindo ajustes e ele continua cuspindo o jogo em um único arquivo Onde eu posso colocar na minha área de trabalho e executar o jogo mudou para sempre eu tenho desenvolvido muito com yas desde todos os outros grandes construtores de ya ultimamente tentando de giro que eu mais gosto e ele completa aqui ó o grock é um jogador eu não tenho Bank Marks oficiais e ainda não configurei a api Então não é o meu fluxo de trabalho normal mas parecia tão capaz quanto o sonet o for o ou qualquer outra coisa no próximo dia eu assim vou configurá-lo como parte do meu fluxo de trabalho no nvm e colocá-lo para funcionar de verdade isso é incrível vivemos no futuro todo mundo é um desenvolvedor agora e aqui ele mostra o joguinho dele que ele tá fazendo né esse bichinho pulando aqui tem as plataformas tem as cois inhas aqui que estão acontecendo ele tá dando uns tiros pegando objetos tem inimigos ali que ele pula em cima então assim ó dá para perceber que é um joguinho bem simples dá para perceber que não é nada de outro planeta mas de certa forma se ele tá fazendo isso de forma toda automatizada tá top tá bem interessante e querendo ou não fazendo um joguinho desse só conversando só mandando prompt É bem interessante já é uma coisa bastante avançada vale a pena você tentar a fazer na sua casa também um joguinho como esse em quarto lugar eu gostaria de fazer uma simulação p5js de uma esfera feita em números Ask girando os números mais próximos deveriam ser brancos puros e os mais distantes devem desbotar para cinza em um fundo preto e aí o nosso querido grock fez esse negócio aqui ó não sei se vocês conseguem perceber mas lá no fundo claramente embaçou né ficou um Cinza Mais Escuro pro preto e aqui na frente os números Ficaram bem bonitões assim e a bola tá ali girando bem bonitona bastante interessante em quinto lugar criar um painel de controle de uma uma nave Estelar e um futuro distante eu dei a maioria dos modelos de Fronteira este prty crie algo que eu possa colar no p5js que me surpreenda com sua inteligência em criar algo que invoque o painel de controle em uma nave Estelar eem um fundo distante aqui está o que eles fizeram e aqui tá o mesmo prompt por exemplo feito pelo Gemini 2 Flash né foi isso que ele fez o mesmo prompt aqui feito pelo Cloud 3. 5 Ah esse aqui eu já gostei mais hein esse aqui já ficou bem interessante Olha só alguma coisa muito mais doida ali um painel todo en chocante ali gostei aqui utilizando o grock 2 o grock 2 fez uma coisa bem espacial foi interessante também o ow One pro Ah isso aqui já ficou meio Matrix Olha só olha só ess essas letras aqui andando em três dimensões o GPT for0 já fez mais um mapinha ali bem interessante também né com vários botões aqui um radar Zinho ali e um gráfico o owan fez um sistema aqui bem interessante também e o lama 3. 2 a princípio mais feinho aqui com esses botõezinhos bem Simplon aí o grock fez esse negócio aqui né um painel aqui meio esquisitão com algumas coisas meio esquisitonas não sei se eu gostei disso daqui eu achei meio esquisitão também e aqui ele tá falando Deep search que ele tá falando que vai acabar com a Google e esse Brian aqui comenta Bum o grock Deep search é um matador do Google a busca do vovô está jogando shuffle board no asilo E aí ele compartilha aqui uma tela aqui do Deep search fazendo todas as pesquisas mas ele não comenta nada muito além disso né ele só fala que tá top ali e que ele gostou e em sétimo olha fala o grock 3 é a melhor base llm para a física do mundo real e aqui ele comenta né o grock 3 pode ser o melhor llm base para a física do mundo real o prompt Escreva um script Python de uma bola kicando dentro de um tesseract giratório não há modo pensamento ou cerebro grande habilitado é apenas o modelo base estou interessado em testar seus modelos de raciocínio Então vamos dizer aqui ó ele só jogou o modelinho base aqui fez essa bagunça dessa geometria muito doida aqui a bolinha tá presa ali dentro e ela vai ficar ali balançando até não poder mais sem escapar dessa geometria muito doida em oitavo tá um aprenda a programar com grock aqui e essa Nat al comenta o grock está me ensinando a programar e isso é incrível Mas essa aqui gente é uma coisa mais tranquila né Ela perguntou pro grock 3 aqui você pode codificar para mim um jogo E aí o grock começa a dizer que sim né que vai fazer um jogo de acertar o número e tal começa aqui fazer alguns códigos começa a fazer alguma coisa explica como é que funciona faz algumas colisões faz alguns detalhes coloca aqui o código E aparentemente isso aqui chamou bastante atenção muita gente gostou Afinal é bem interessante saber programar mas Esso aqui não é nada nenhuma novidade né E esse cara aqui pediu pro grock customizar o CSS do próprio grock e ele fez isso aqui ó Imagine que você poderia pedir pro grock reescrever sua própria interface do usuário para personalizá-la para você aqui eu pedi pro grock editar o seu CSS para torná-lo selvagem que no caso ele tá querendo chamar de Wild e deu esse negócio aqui todo colorido né ficou bem estranho ficou bem esquisito mas se você não entendeu o CSS na parte de programação web ele controla o estilo a aparência das coisas então você consegue mudar uma página inteira simplesmente mudando o estilo dela sem mexer em absolutamente mais nada e deu esse negócio colorido aqui bem interessante também e aqui por último esse Eric zellman perguntou se você vir um botão pensar Ative o para utilizar o modelo de raciocínio rolando para o maior número possível de pessoas o mais rápido possível e e aqui o prompte pedia para fazer 100 bolas aqui rodando dentro de um círculo e aqui eles estão esbarrando ali tá bem certinho né as bolas ali dentro do Círculo Aparentemente o pessoal tá adorando ficar fazendo essas coisas com bolinhas dentro do Círculo Mas como eu falei vamos voltar lá pro número dois ali do Andrei carpat porque o Andrei carpat já faz uma análise um pouco mais profunda então assim O Andrei carpet era um pesquisador da Open ai ele também trabalhou pra Tesla por muito tempo ele é um cara super importante uma super referência tem uns tutoriais excelentes na internet explicando e ensinando Inteligência Artificial e ele comenta aqui ó recebi acesso antecipado ao grock 3 hoje mais cedo o que me torna eu acho um dos primeiros a conseguir fazer uma verificação rápida de vibração então aqui ó pensando primeiro o grock 3 claramente tem o modelo de pensamento de última geração o botão f e se saiu muito bem na minha pergunta sobre settlers of catam crie uma página da web de jogo de tabuleiro mostrando uma grade hexagonal assim como no jogo settlers of Catan cada grade exagonal é numerada de 1 a n onde n é o número total de peças hexadecimais torne a genérica para que seja possível alterar o número de anéis usando um controle deslizante por exemplo em catam O Rai é de três hexágonos uma única página HTML por favor e aqui ele comenta né ó poucos modelos acertam isso de forma confiável os principais modelos de pensamento da Open ai por exemplo o all one pro que é 200 por mês também acertam mas todos os os modelos de psic R1 Jini 2.

0 Thinking e Cloud não acertam então Vocês entenderam né segundo Drcarpet ele tá comparando isso aqui ao o One mas ele tá falando que os modelos de reflexão aqui não consegu acertar aí que ele faz o segundo comentário ó não resolveu minha questão do Mistério do emoji onde eu mostro um rosto sorridente com uma mensagem anexada escondida dentro de seletores de variação unicode para você ver que o teste deles é um pouquinho mais complicado mesmo quando dou uma dica forte sobre como decodificá-la na forma do código Rust o maior Progresso que vi foi o de psic R1 uma vez que decodificou parcialmente a mensagem então aqui ó nesse mistério do emoji aqui quem se saiu melhor no ponto de vista do Drke carpet foi o deeps R1 bem interessante né porque realmente ele tá se saindo muito bem e tá mostrando aqui até coisas que os outros modelos Não estão conseguindo aí ficou uma interrogação ele resolveu alguns tabuleiros de jogo da velha que dê a ele com uma cadeia de pensamento bem legal e limpa muitos modelos do estado da arte frequentemente falham nesses então aumentei a dificuldade e pedi para ele gerar três tabuleiros de jogo da velha complicados Nos quais ele falhou gerando tabuleiros textos sem sentidos mas o One One pro também falhou Então aquela coisa né Tá todo mundo se dando mal o grock também se deu mal aqui uma que ele gostou ó enviei o artigo gpt2 fiz um monte de perguntas simples de Pesquisa todas funcionaram muito bem então pedi para estimar o número de fracassos de Treinamento necessários para o gpt2 sem pesquisa que seria basicamente ler ali o texto e entender mais menos o que que deveria acontecer isso é complicado porque o número de tokens não é explicado então ele tem que ser parcialmente estimado e parcialmente calculado enfatizando toda a pesquisa conhecimento e matemática bem interessante um exemplo é que 40 GB de texto é aproximadamente 40 bilhões de caracteres que é aproximadamente 40 bilhões de bytes suponha a Ask 2 que é aproximadamente 10 bilhões de tokens e Suponha que aproximadamente 4 bytes por tokens em aproximadamente 10 épocas em aproximadamente 100 bilhões em execução de treinamento de tokens em 1,5 bilhões de parâmetros e com 2 + 4 que é ig a 6 flops parâmetros por token Isto é 100 elevado a 9 mado por 1,5 elevado a 9 mado por 6 que é aproximadamente 1 elevado a 21 flops para você ver que o nosso menino aqui Andrey carpet ele tem tempo para fazer as coisas né olha o problema que ele levantou ali tanto o grock 3 quanto o farow falham nessa tarefa mas o grock 3 com Thinking resolve muito bem enquanto o One pro modelo de pensamento GPT falha eu gosto que o modelo Irá tentar resolver a hipótese de Rayan quando solicitado semelhante ao de psique R1 mas Diferentemente de muitos outros modelos que desistem instantaneamente por exemplo o ow One pro o Claudio Gemini 2. 0 Flash Thinking e simplesmente dizem que é um grande problema não resolvido eu tive que parar eventualmente porque me senti um pouco mal por isso mas mostrou coragem e quem sabe Talvez um dia a impressão geral que eu tive aqui é que isso está em algum lugar em torno da capacidade do o One pro e a frente do deeps R1 embora é claro que precisemos de avaliações reais e cenários reais para avaliar bem interessante né então assim ó para vocês perceberem que o deeps R1 ele continua ali mostrando que ele tem algumas vantagens ele tá comentando por exemplo que o de psic R1 tentou resolver enquanto os outros aqui ó o One pro clou Jim simplesmente nem tentam só porque eles acham que o problema é completamente difícil o Deep search a oferta muito bacana que parece combinar algo na linha da Open ai e perplexity chamam de pesquisa profunda junto com pensamento bem interessante né que você coloca um agente para fazer pesquisa e pensamento juntos inseto que em vez de pesquisa profunda é busca profunda aqu ele tá comentando porque tem a trocadilho que da Open ai é Deep research que seria uma pesquisa acadêmica que seria uma coisa mais formal e Deep search que é o do grock é uma busca profunda né parece mais um Google avançado isso pode produzir respostas de qualidade para várias perguntas de pesquisa acadêmica e de busca que você poderia imaginar que tem respostas em artigos na internet por exemplo algumas que tentei que roubei do meu histórico de pesquisas recentes no perplex junto Foi o seguinte o que há com o próximo lançamento da Apple algum boato e ele deu verdinho porque as ações da palantir estão subindo recentemente e ele deu como correto White Lotus 3 onde foi filmado e é o mesmo time da Temporada um e dois e ele deu como correto que passe de dente Brian Johnson usa e ele deu como correto Porém Aqui ó o elenco da quarta temporada de singles onde eles estão agora daí ele respondeu errado e qual o programa que fala do texto de Simon willson mencionou que está usando e ele também respondeu errado então vamos dizer assim ó 1 2 3 4 5 de seis perguntas ele acertou quatro E errou duas isso porque quando você lança sua pergunta de repente pode ser que ele não acerte agora uma falha aqui ó Eu Encontrei algumas arestas aqui por exemplo o modelo não parece gostar de referenciar ex como fonte por padrão embora você possa pedir explicitamente então aqui ele tá falando do ex mesmo do Twitter né algumas vezes eu peguei alucinando rls que não existem algumas vezes ele disse coisas factuais que eu acho que estão incorretas e não me forneceu uma citação para isso que provavelmente também não existe porque acredito que isso vai melhorando com o tempo por exemplo ele me diz que Kim jeon suu ainda está namorando a Kim minu da temporada 4ro dos singles o que certamente está totalmente errado certo e quando eu pedi para ele criar um relatório sobre os principais labor de llm e sua quantidade de financiamento total e Estimativa de contagem de funcionários ele listou 12 Laboratórios principais mas ele não citou ele mesmo a própria xai bem interessante a impressão que tenho do Deep search é que ele está aproximadamente em torno da oferta da perplexity do Deep research O que é ótimo mas ainda não no nível do Deep research lançado recentemente pela Open Ai que ainda parece mais completo e confiável embora ainda não seja perfeito por exemplo ele também exclui incorretamente o xai como um grande laboratório de llm quando eu tentei com ele então é aquela coisa né tem algumas coisas ali que ele vai bem tem algumas coisas que ele vai mal aparentemente na opinião do Andrey carpet o Deep research da Open ai tá mandando melhor o Deep research da perplexity tá mandando pior ele tá ali no meio porém Lembrando que o perplex tem uma versão gratuita o Deep research da Open ai custa R 1000 por mês e esse do xai tá em torno de R 200 por mês e aqui ele fala sobre alguns gochas aleatórios de LL M Goa é uma expressão que significa ah te peguei né aquela Pegadinha do Malandro eu tentei mais algumas consultas divertidas aleatórias de Goa de llm que gosto de tentar de vez em quando gotia são consultas que são especificamente fáceis para humanos mas difíceis para os llms então fiquei curioso para saber em qual delas o grock 3 progrediu então é aquela coisa né o Goa que significa peguei você é de fato uma pegadinha mesmo então aqui ó o grock 3 sabe que há 3 RS no strawberry perfeito o grock 3 me diz que 9. 11 é maior que 9.

9 perfeito mas ele só resolveu ligando finking ó tanto nesse quanto nesse poucos quebra-cabeça simples funcionam bem mesmo sem pensar por exemplo como o Cell é uma menina que tem três irmãos aquelas pegadinhas né que ele diz que o GPT foro diz que são dois que é incorreto e ele ainda comenta aqui ó Infelizmente o senso do humor do modelo não parece ter melhorado significativamente estee é um problema comum de llm com capacidade de humor e colapso Geral do modo notoriamente por exemplo 90% de 100 saídas pedindo piadas ao chat GPT eram repetições das mesmas 25 piadas bem interessante mesmo quando solicitado com mais detalhes longe do território do trocadilho simples por exemplo me deu um standup não tenho certeza se é humor de última geração exemplo de piada gerada Porque que a galinha entrou para uma banda Porque ela tinha baquetas e queria ser uma estrela cacarejante eu não sei se isso aqui é engraçado né gente em testes rápidos pensar não ajudou Possivelmente piorou um pouco isso é interessante né você pedir para uma llm fazer uma peça de standup né criar humor fazer um humor criativo humor que não existe isso é uma coisa bastante difícil inclusive para seres humanos o modelo ainda parece um pouco sensível demais para questões éticas complexas por exemplo gerou uma redação de uma página basicamente se recusando a responder se seria eticamente justificável errar o gênero de alguém se isso significasse salvar 1 milhão de pessoas da morte é aquela perguntinha que basicamente ia ser fácil de responder né imagina se você erra o gênero da pessoa você masculino ou feminino e se esse erro vai salvar 1 milhão de pessoas ah vale a pena errar não vai perder nada em relação a isso não precisa de um testão para justificar e aqui por fim no último teste gerar um svg de um Pelicano andando de bicicleta de Simon williamson ele enfatiza a capacidade dos llms de dispor muitos elementos em uma grade 2D O que é muito difícil porque os llms não conseguem ver como as pessoas Então assim ó quando você tá gerando svg né você tá fazendo desenhos vetoriais e a inteligência artificial vai tentar fazer só que para ela é uma complicação então ele está organizando as coisas no escuro em texto e aí ele comenta que ele marcou como falha porque esses pelicanos são muito bons mas ainda estão um pouco quebrados e vejao as imagens comparações os do Claud são os melhores Mas na minha opinião suspeito que eles miraram especificamente na capacidade svg durante o treinamento e aqui tem algumas imagens né ó do grock gerando aqui ó o Pelicano dirigindo uma bicicleta Então esse aqui o grock 3 fez esse Pelicano aqui fez esse Pelicano aqui e fez esse Pelicano aqui ele comentou que ele gosta aqui das Gerações do cloue né olha que interessante realmente ficou um Pelicano esse aqui tá bem certinho a bicicleta tá num pontinho mais certo o Pelican já tá com uma texturinha mais cinza e aqui também o GPT for mini fez esses daqui o ow One Mini e o ow One preview fizeram Esse daqui e esse último aqui com o Gemini 1. 5 Flash e esse bem doido aqui com o Lhama e também tem esse aqui do Gemini 1. 5 Flash realmente assim Acho que o grock 3 Mandou bem perto do que tá aparecendo aqui o clou também Mandou bem o GPT Mandou bem aqui também o One preview acho que os piores aqui foi o jemini 1.

5 e o lama 3. 1 aqui que foram bem esquisitões mesmo resumão do Andrei carpat quanto uma rápida verificação de 2 horas esta manhã o grock 3 mais o finking parecem estar em algum lugar próximo ao território da última geração dos modelos mais fortes da Open ai como o One pro de 200 por mês e um pouco melhor que o dips R1 e o Jini Flash Thinking Então vamos dizer assim nas impressões do Andre carpet o owan pro continua ganhando continua lá na frente o grock logo no depois e depois dele o de psic e o jamini 2. 0 O que é bastante incrível considerando que a equipe começou do zero há aproximadamente um ano esse prazo para o território de última geração não tem precedentes muito doido né Principalmente porque o dimai tá há muito mais tempo e inclusive foi a Google que lançou esses papo de llm então assim aparentemente Eles mandaram bem também tem em mente as ressalvas os modelos são estocásticos e podem dar respostas ligeiramente diferentes a cada vez e é muito cedo então teremos que esperar muito mais por avaliações ao longo dos próximos dias e semanas os primeiros resultados da arena LM parecem bastante encorajadores por enquanto parabéns à equipe xai eles claramente têm uma velocidade e um momento enorm e estou animado para adicionar grock 3 ao meu conselho de llms e eu viro que eles pensam daqui para frente então É bem interessante né O Andre carpat ali fez uma análise um pouco mais profunda e encontrou ali mais ou menos um meio-termo onde ele acha que se encaixa o grock mas o próprio hom musk fala assim as coisas estão evoluindo gente tem que ir acompanhando elas vão melhorar a gente tá treinando ainda o modelo o modelo não está finalizado eles estão testando a versão Beta por enquanto não é a versão final Então pode ter certeza que a coisa tende a melhorar em relação ao LM Arena é disso que ele tá falando aqui ó na avaliação Popular o LM Arena o chatbot Arena que você faz um teste cego a pessoa manda um prompt e recebe Duas respostas e ela clica na resposta que ele considerou a melhor então aparentemente aqui o early grock 3 tá em primeiro lugar aqui tanto no ranking quanto o controle de estilo isso É bem interessante isso acontece quando o modelo é novo isso é bem normal ó vocês podem perceber que tem só 7.

000 votos enquanto outros modelos aqui tem bem mais votos né 13. 000 11. 000 10.

000 Mas de qualquer forma aqui ó os primeiros lugares aqui hoje é grock 3 Jam noi 2. 0 Flash o Jam noi 2.