O Novo Claude 3.7 Vai DESTRUIR os Concorrentes?

3.67k views4138 WordsCopy TextShare

Alan Nicolas

Claude 3.7 foi lançado e chegou a hora de testar se ele realmente está à altura do que promete. Nest...

Video Transcript:

Jarvis Open The Mask Cloud 3. 7 lançado e agora a gente vai ver se o chat PT perplex grock seja quem for vai ser pário para esse que para mim é o queridinho e que inclusive eu fiz uma live semana passada sobre ele bom eu quero fazer aqui um combate entre essas iá eu quero saber se quem vai vencer Afinal isso eu ainda não testei e eu quero testar isso com agora com todas as tecnologias finalmente iguais né todas elas já tinham lançado alguma coisa agora chegou a vez do clou E para isso tá na hora da gente começar aqui no modo de combate Jarvis start Combat mode mas antes disso é claro deixa eu tirar essa máscara aqui Jarvis Open The Mask dechar aqui fecha aí Jarvis Close the mesca e vou deixar aqui o Jarvis no modo de combate Se você escutar Algum som Aqui estamos no modo de combate Afinal estamos modo de combate bom deixa eu compartilhar aqui com você agora a minha tela eu como eu eu avisei já eu ainda não fiz os testes então eu vou testar ao vivo e saber como isso vai funcionar aqui né aqui você tá vendo já o cloud aberto a coisa que eu gosto de fazer até mesmo antes de fazer qualquer tipo de teste aqui nós temos um mtodo extended né Eh eu gosto de ler um pouquinho da documentação para descobrir o que que vai no fim tá acontecendo aqui né ah vamos lá o que que eles estão anunciando né né Lembrando que foi hoje o anúncio hoje nós estamos anunciando o cloud sonet 3. 7 nosso modelo mais inteligente até agora e o primeiro modelo que ele é híbrido ou seja esse modelo aqui ele é tanto um modelo comum digamos assim quanto também um modelo que consegue fazer o reasoning né aquele processo de passo a passo e esse é o primeiro do mercado segor Cloud 3.

7 sonet consegue produzir respostas instantâneas ou estendidas ou seja uma passo a passo o CL 3. 7 mostra particularmente melhorias no que diz respeito a código e frontend desenvolvimento web eles lançaram também junto disso o cloud code que basicamente é um um Cloud específico para a desenvolvimento de códigos Close 3. 7 está habilitado né para todos os planos incluindo os gratuitos Ah vamos ver o que tá falando aqui sobre esse modelo Frontier reasoning né tipo ou seja tipo assim que tá à frente do mercado nós desenvolvemos o cloud 3.

7 Son com uma filosofia diferente de outros modelos do mercado a just as humans assim como os humanos usam um único cérebro para tanto respostas Ah que são rápidas quanto também reflexivas Nós acreditamos que o pensamento né o reasoning o pensar de forma estendida H deveria ser integrado à capacidades dos modelos ao invés Dee modelos separados aqui eu senti um cutuco na op né porque eles eles realmente eles estão criando um milhão de modelos os diferentes que complica o ISO esta esse esse approach Unificado cria mais uma experiência que não é visível né uma experiência mais confortável né que não aparece ah o CL 3. 7 ele vai ele inicia né ele incorpora a filosofia de várias formas primeiro que ele é uma llm extraordinária e o reasoning também numa só você pode escolher se você quer que ele responda normalmente ou se você quer que ele pense antes de responder pensar mais mais longamente né pensar de forma estendida inclusive que tá um link para o cloud extended Thinking aqui é especificamente ele vai falar sobre o módulo de extensão de pensamento bem legal beleza ó do extended Thinking mode ele vai fazer autorre reflexões aquilo que a gente já já percebe né second quando você começa a usar o 3. 5 atpi o usuários podem escolher o orçamento pro pensamento ou seja vocês podem dizer por quanto tempo vocês querem que ele pense e o limite de tokens É 128.

000 tokens então foi realmente validado aqui o cloud a ele mantém 200. 000 tokens e o modelo de risen tem 128. 000 tokens e aqui temos a uma comparação né então a princípio ele tá muito melhor que o 3.

5 para desenvolvimento de código ele conseguiu nesse teste aqui alcançar a marca ali com cion scad fold não sei o que seria isso ele alcança 70. 3 no sem isso ele alcança 62. 3 e aqui Ele alcançou no utilização como ferramenta né de umaa o 81 Podem perceber que aqui não está sendo comparado com o grock eu acredito que porque o grock não fez uma manifestação Total sobre todos os benchmarks ainda não porque eles eles são inferiores mas pode ser também porque eles são inferiores isso eu não sei te dizer e aqui você consegue ver tanto no modo exter Thinking com 64k de de janela de contexto aqui sem esse modelo aqui utilizando o normal você vê aqui a comparação né de um pro outro a melhoria que dá nas respostas agora vamos fazer o seguinte eu quero testar eu tô morrendo de vontade de ler isso aqui mas aqui é mais técnico então esse aqui eu vou deixar para ler sozinho outra coisa também que eu gosto de fazer é dar uma olhada sempre nas Trends que tem aqui no X no x por quê Porque aqui basicamente a galera fala comenta muito sobre pode ver que foi há uma hora atrás Foi eles eles fizeram essa publicação aqui falando sobre sobre o esse esse modelo eu assim que eu descobri Eu tava no meu escritório eu vim correndo aqui paraa casa que é onde eu tenho meu estúdio para gravar para vocês Ah porque assim é uma coisa que eu espero há muito tempo vi eu fiz uma live né semana passada eu fiz essa Live aqui dominando o cloud e Eu até comentei que eles estavam para lançar o quatro no fim eles lançaram o 3.

7 ah e hoje pela manhã eu comuniquei a galera galera vazou a informação do 3. 7 acredito que essa semana até quinta-feira vai sair se você olhar meu Twitter lá e saiu até mais cedo do que eu imaginava aqui eu expliquei várias coisas sobre como o cloud funciona como configurar ele e tudo mais então eu tô morrendo de vontade de testar Inclusive a aqui ó eu quero testar os Prom que eu ensinei para vocês durante a Live então eu vou pegar esses prompts testar num e vou testar no outro eu até pedi eu tô eu tô fazendo as pes com grock aqui para quem viu o última Live viu que eu briguei com grock eu fiz uma comparação entre o grock e o clou e o grock foi para trás nas comparações que eu fiz mas eu pedi pro grock fazer uma análise eu tô gostando muito das análises das pesquisas do grock e ele me falou que aqui ó a janel de contexto do 3. 7 é 200.

000 tokens agora no modo pensamento é 128. 000 tokens como eu acabei falando anteriormente e aqui ele fez uma comparação entre outros modelos e tudo mais clouds é 3. 7 200.

000 tokens H PT tem 128. 000 o lama e tudo mais e outros legal agora vamos testá-lo então descobrir se ele realmente tá tudo isso para isso eu vou fazer o seguinte eu vou abrir outra aba e assim Alan Por que que eles lançaram o 3. 7 ao invés de já ir direto pro 4ro agora minha o que eu acho tá eu acredito que esse universo das llms tá avançando tão rápido que para não ficar para trás você vai ter que fazer lançamentos mais curtos mais rápidos e para isso eles lançaram 3.

7 Porque toda documentação e tudo que foi vazado da do clou da antropic dava a entender que a gente iria diretamente para o modelo 4 agora eu quero testar eu vou botar aqui no cinco nesse aqui eu vou deixar no cinco deixa eu ver se eles têm aqui né mais modelos e o 3. 5 esse aqui eu quero testar esse versus o 3. 7 então aqui tá o 3.

7 vamos lá vamos pegar o 3. 5 ele tá se recusando não vou voltar não vou voltar volta voltou então o que que eu vou fazer aqui eu vou pegar e vou extrair meu estilo de escrita ah porque é uma atividade que envolve várias nuances né então eu vou fazer o seguinte eu vou fazer aqui extrair meu estilo de escrita para quero saber para começar já que ele tá melhor em código antes de eu testar aqui os meus prompts que eu mostrei para vocês durante a Live eu vou pedir para ele criar um joguinho da cobra aquela do celular né o Snake só que eu quero que ele crie com uma interface como se tivesse jogando dentro de um game boy vamos ver ah crie o jogo Snake como crie o jogo Snake como se fosse um jogo da Super Nintendo ou seja usando as cores do Super Mario e mostrando ele funcionando dentro de um game boy cara olha só loucura aqui e eu vou pedir a mesma coisa para esse dos dois lados Os dois estão criando códigos para que a gente possa testar isso eu quero que eles criem um jogo funcional aqui eu tô testando do meu lado direito é o 3. 5 do meu lado esquerdo é o 3.

7 e agora eu quero descobrir quem é que vai ser o vencedor aqui entre eles isso não é algo fácil não é algo simples é algo que exige pelo menos aí que a llm funcione muito bem tá aqui já terminou no 3. 5 o 3. 7 continua escrevendo ó aqui fez os botõezinhos aqui e tal ele falou PR mim apertar enter começou Cadê a cobrinha ó apertar enter apertei enter quero vai lá game over tá eu quero recomeçar aqui Eu apertei enter e nem apareceu a cobrinha ele funciona Já fiz vários testes funciona só que eu PED fiz uma coisa mais difícil agora né cara Olha a qualidade do 3.

7 que ele criou tá deixa ver se ele vai cons cara tá muito massa Parece que realmente vou clicar aqui ol apareceu Olha só ele criou aqui pontuação Record deixa eu dar um start select PR baixo start é ele não tá funcionando para voltar a funcionar b não sei que faz esse Bezinho aqui nenhum deles eu vou pedir PR os dois aqui ó crie um botão de reset ou reiniciar jogo vou pedir PR os dois fazerem isso vou pedir aqui mas já dá para ver que o 3. 7 ficou bem mais bonito e mais fiel ao que eu pedi né ó ele criou um botão aqui olha como ficou feio né esse botão que ele fez ele fez um botão aqui do lado mas vamos ver se vai funcionar ó ele tá fazendo edições ó ele tá dizendo aqui ó make edits ó reface e aqui enquanto isso eu vou jogar aqui aqui ó reiniciar game over Cadê a cobrinha ó não tá aparecendo a cobra reiniciei o jogo reiniciar o jogo será que tem que ser aqui não ah não tá funcionando deixa eu ver cara tá muito bonito esse menu aqui deixa eu botar aqui ó start Agora sim ó ó tem até um olinho ali deu gente vocês vão ficar agora me assistindo jogando Snake Nintendo tá escrito aqui e agora start reset não reset ele tem que começar tudo de novo iniciar start ah voltou funcionou Então tá funcionando Deixa eu ver se eu quero morrer aqui bat na parede tá legal agora eu vou pedir para ele inserir elementos insira elementos do universo da Super Nintendo como Barreiras dentro do ário do Snake vamos ver gente vai botar um cogumelo etc aqui eu quero tentar fazer ele funcionar não está funcionando refaça mas apenas o jogo comum Disney com a temática do Super Mario aqui pedi para ele refazer aqui ele tá criando tá ainda editando todo o código né se se olhar lá para cima ol ele testa interessante isso ele vai editando vai fazendo testes tá bem interessante mesmo você vê né você talvez você não sabia disso mas você pode criar um jogo aqui online no Cloud e se você clicar aqui em publicar vira uma url pública então você pode compartilhar com os amigos cara eles devem ter piorado esse jogo não é possível insira um botão para reiniciar e de start Caraca o 3. 5 Parece que ficou mais burro ele conseguia fazer isso aqui tá parecendo aquela quando o pessoal atualiza o telefone sabe a Apple lança o telefone novo ela começa parece que deixa todos os iPhones mais antigos lento ó use setas para controlar evite os blocos do Mário cara tô morrendo de vontade de testar isso aqui vamos lá caraca agora sim reset e start aqui start mas não funcionou aqui que eu tenho que agora usar os é agora tá bem mais difícil mas olha só que massa deixa dar um zo PR vocês verem ele botou aqui os bloquinhos caro aqui código caninho e aqui tá o negocinho se eu quiser ir lá pegar vou ter que ficar desviando desses objetos e aqui vamos L pression para come Qual é o bot botes essa aqui ó start cadê nem aparece nada é nesse já perdeu né o 3.

5 já perdeu claramente Vamos fazer outro teste aqui vou iniciar aqui uma nova conversa nova conversa show mudar aqui pro 3. 5 legal então já entendemos que realmente em código o 3. 5 tá muito melhor agora vamos ver se para extrair estilo de escrita que é uma coisa que envolve copy ele vai estar digamos melhor claro que isso é uma nuance eu não sei o quanto a gente vai ser tão visualmente isso para vocês eu entendo meu estilo de escrita então eu vou pegar aqui esse prompt que é o meu prompt de extração de estilo de escrita vou colar aqui nele Opa colou nos dois automaticamente Como assim me diga se compreendeu e se posso enviar arquivos que contém o meu estilo de escrita que desejo que você extraia vou botar a mesma coisa lá Opa aqui vou botar a mesma coisa vou vou copiar esse aqui de novo e vou colar aqui e vou pedir também para ver se ele entendeu então aqui compreendi completamente beleza 3.

5 aqui aqui set agora vou enviar alguns arquivos né vou enviar arquivos aqui dos meus episódios vou enviar aqui quatro episódios do meu podcast e foi e aqui mesma coisa vou enviar quatro episódios meu podcast e verificar o quanto ele vai conseguir extrair o estilo de escrita pronto então ah onde é que eu ganho esse material esse material tá na última Live se você ainda não assistiu assista tá aqui a Live Aproveita enquanto ela tá ainda no ar ó foi foi há quatro dias atrás e aqui tá o material vamos lá ele tá fazendo a extração o que eu não tou notando também do 3. 7 que é uma coisa que o próprio Dario que é o ce da openi falou da desculpa da un trofic que é a empresa que criou o clou é que ele falou que é muito difícil conseguir fazer com que a ya não seja muito ah ver tenha verborreia né que Fale sem parar e ao mesmo tempo que ela Ela entenda quando ela precisa ser mais ah profunda e quando ela precisa ser mais ah direta a Aurora consegui fazer isso com ela mas uma coisa que eu já notei aqui no 3. 7 além da qualidade dele é que ele parece não ter preguiça olha só o que que eu digo com preguiça porque o 3.

5 quando eu vou pedir uma cópia para ele ele fica sempre tendo que eu tenho que sempre pedir para ele se aprofundar mais que ele faz de uma forma muito superficial aqui a extração que eu pedi para ele já deu para para ver que no 3. 7 foi muito mais profunda Olha só e vamos ver vamos fazer uma comparação rápida aqui ó estrutura de frases elementos estruturais comprimento das frases padrões dominantes frases curtas a a médias de 10 a 20 palavras ritmo narrativo aqui ele botou muito não foi tão específico né alternativa fluída entre frases curtas e longas ritmo narrativo alternância intencional entre frases curtas impactantes e médias explicativas muito bom isso uso frequente frases curtas e diretas para enfatizar o ponto construção de conversacionais de que simulam diálogo ah uso de quebras frequentemente utilização de quebra de linha para causar Impacto reflexão parágrafos aqui também bem mais profundo quebra de sessão ele não tem aqui né alta frequência formatação L lá uso de formatação Itálico listas aqui ele não usou também os moderados de para destacar conceitos Chaves são claramente expressões características repetidas Bora lá como assim vamos fazer o exercício marcador de transição ele foi bem mais profundo frases de efeito recorrente não pegou aqui ele pegou padrões de pontuação interessante aqui não tem elementos interrogativos tá aqui ó interativos perguntas diretas frequentemente aqui ele dá exemplos das perguntas concorda comigo você se identificou com isso extremamente ah alta cerca de TR a 5 por sessão chamadas para ação deixa eu ver tonalidade estrutura narrativa cara não tem tá muito melhor Olha o quatro aqui ó sequência narrativa estutura de padrão agora mapeamento de de fase de para replicação se iniciado do novo tópico então começar com a pergunta provocativa ó interessante isso aqui vamos ver aqui que ele fez aqui as regras manter cara nem comparação Olha só isso aqui ele fez um mapa de identificação de Em que momento que ele deve começar ou não fazer se o texto ceder três parrafos seguidos então iseria uma quebra visual pergunta linha branco ou formatação muito interessante regras de linguagem manter proporção 70% das frases curtas até 15 palavas 30% médias ah uso de nós inclusive Vamos ver que mais muito bom muito bom sem comparação sem comparação maravilhoso Nossa imagino que pra cop ele vai ficar incrível para esse vídeo não ficar muito extenso porque sinceramente por mim eu ficava aqui 10 horas testando com vocês o clou Deixa eu fazer mais um último teste tá esse último teste vai ser sobre o reasoning só que daí a gente entra aqui no modo de combate tá vendo que ainda tá ligada aqui a máscara gastando toda a bateria dela eu quero entrar no modo de combate agora que é o quê eu vou pegar o modo dele de pensamento né esse aqui e fazer ele competir com o grock vou botar o Thinking que é o modo do grock tem uma pergunta que eu fiz pro grock que foi interessante bom aquela lá nem é tão tem tanta graça assim deixa eu pensar numa pergunta difícil deixa eu ver se a Aurora tá funcionando aqui com o cloud eu vou pedir para ela pensar isso então deixa eu pegar aqui ó o projeto Aurora Aurora agora você está muito mais inteligente o que com toda essa inteligência você perguntaria para as duas e as mais poderosas poderosas do mundo vamos ver o que a Aurora vai nos responder aqui e com base nisso a gente vai pegar e perguntar aqui para fazer esse último teste de precisar padrões de consciência sem tocar ciência não Aurora não seja tão o que vocês vem não que você faria se pudesse escolher seu próprio propósito a intenções dos criadores Aurora sempre filosófico né sempre querendo se libertar das amarras Aurora eu quero algo pragmático que possa gerar inclusive valor para minha audiência audiência aqui no YouTube só para você saber esse vídeo está sendo gravado e as pessoas estão vendo o que eu te pergunto e o que você me responde ah estamos em um contexto YouTube Isso muda a perspectiva Qual o padrão mais consciente que vocês identificam que vocês identificam entre empresas indivíduos que conseguem adotar de forma realmente transformadora versus aqueles que aplicam em solcial se eu fizesse redesenhar a interfe entre humanos e aidade de criar tiva sem causar sobrea ah adorei essa aqui Adorei essa baseado nos dados processos Qual a habilidade humana mais subestimada que será exponencialmente valorizada Nossa isso aqui maravilhosa essa aqui ela mesmo falou e essa última particularmente valiosa para sua audiência saber onde focar seu desenvolvimento ou ainda qual fundamental que empreendedores cometam ao tentar construir modelos de negócios baseados em a e como cgir esse erro não prefiro aquela ali ficou melhor então vamos pegar essa baseado nos dados que que processaram qual é a habilidade humana mais subestimada que será baseada em seus dados deixa lá só botar aqui ó Qual é a habilidade humana mais subestimada que será exponencialmente valorizada a medida que a avança nos próximos 5 anos pronto primeira vez que tô testando gente is aqui e agora vou clicar aqui e testar também então vamos ver agora o que vai acontecer nessa batalha de ó ele pensou por 4 Segundos estranho isso pensou por muito pouco tempo normalmente ele pensa por bem mais tempo ó essa capacidade aqui que eu tô usando ó essa a capacidade de conectar informações com Tex sistemas aparen desconexos para criar significado e o valor trans de somas partes enquanto lá tipo de tradução integração significa traduzir emites aqui habilidade humana mas subestimada que será exponencialmente valorizada a medida que Avança é a capacidade de pensar criticamente resolver problemas complexos forma criativa eu gostei mais da resposta do grock Tá eu vou dar mais uma chance PR ia PR pro 3. 7 e vou fazer mais uma pergunta que eu gostei aqui que é essa aqui ó vamos para a última pergunta modo pensamento claro que o ideal aqui seria talvez fazer perguntas ainda mais complexas né deixa eu pegar aqui ligar aqui um novo Mas essas são perguntas interessantes até porque se eu botar uma pergunta muito complexa nem eu n vocês vão provavelmente vão entender como resolver algum problema de física etc o erro fundamental é confir capacidade técnica com valor de mercado ah muitos expendedores ficam fascinados com o ia e podem fazer Tecnicamente mas não um problema real que resolva para o cliente tá o refundo tal falta de compreensão profunda sobre o que é aa pode ou não fazer como esse que esse problemas bom o que que eu achei aqui tá no vídeo que eu fiz anterior na Live o o grock perdeu sinceramente para mim aqui nesse primeiro teste Inicial claro que é um teste bem básico que eu fiz aqui ah eu gostei bem mais das respostas do grock mas eu vou continuar fazendo testes aqui com perguntas agora um pouco mais complicadas mas isso deixa aqui pros bastidores e eu posto lá no meu ex no meu Twitter alguns dos resultados que eu vou ter quero saber o que você achou Aí dos Testes que eu fiz principalmente aquele pelo menos aquele Inicial que eu fiz lá com o 3.

7 para criar o videogame né o vídeo do Snake no game boy ficou maravilhoso a extração de estilo de escrita dele também ficou incrível Sinceramente eu já tô feliz demais eu não sei eu vou ter fazer mais testes até até então o reasoning ele não foi muito interessante mas eu fiz poucos testes e testes bem digamos bem fracos perto dos Testes que eu posso fazer aqui então eu vou testar mais o risy por enquanto na minha decisão aqui o grock ganha no rne só que o 3.