Qwen 2.5-max: A IA CHINESA que SUPEROU o DEEPSEEK! (Testes e Comparativo)

57.42k views3248 WordsCopy TextShare

Cafe Com Inovação

🗒 SOBRE ESSE VÍDEO Neste vídeo, mostro o mais recente lançamento da Alibaba: o Qwen 2.5-max, um mod...

Video Transcript:

é pessoal parece que a China veio com tudo em 2025 depois da onda do deeps agora outro modelo outra ferramenta de Inteligência Artificial parece estar nas mídias E é isto que eu vou mostrar aqui para vocês neste vídeo e se você gosta do conteúdo sobre inteligência artificial gerenciamento de projetos e Tecnologia em geral já se inscreve aí no canal deixa seu like e clique no Hype pois isso ajuda demais a levar esse tipo de conteúdo até mais pessoas no começo do ano eu gravei um vídeoo mostrando as minhas expectativas sobre o assunto de inteligência artificial para o ano de 2025 e um destes assuntos foi exatamente esta briga entre Estados Unidos e China no quesito de tecnologia eia e parece que veio até mais cedo do que eu esperava afinal de contas nas primeiras semanas de Janeiro de 2025 nós já temos aí muitas notícias relacionadas a essa busca pela hegemonia quando o assunto é inteligência artificial nas últimas semanas certamente Você viu o Deep seic um novo modelo de Inteligência Artificial chinês que está mostrando um resultado Muito bom principalmente quando comparado com os modelos da Open ai no sentido de reasoning ou seja de raciocinar um pouco melhor quando você faz um prompt um pouco mais complexo mas o de psic não é a única ferramenta esta semana também tivemos outro modelo e este modelo é uma nova versão do Queen Queen 2. 5 Max da empresa alibaba exatamente aquela empresa que faz as vendas de muitas coisas por aí mais uma parte de varejo está investindo também em Inteligência Artificial e esta semana lançou uma nova versão do Queen Pelo menos é assim que a mídia e o mundo de Inteligência Artificial está pronunciando agora se alguma pessoa que entende de mandarin alguma coisa do tipo tiver a pronúncia correta já deixem aqui nos comentários mas pelo menos é como está se comunicando a parte geral da mídia relacionada à tecnologia alibaba lança um modelo de a que diz superar o de psic bom então o marketing até da alibaba aqui foi obviamente comparar ao de psic que está na Hype e todos estão olhando se ele é melhor que o de psic Poxa então a intenção é chamar bastante a atenção neste momento então a empresa de tecnologia chinesa alibaba lançou na quarta feira uma nova versão do seu modelo de Inteligência Artificial o Queen 2. 5 que segundo a empresa superou o de psic V3 então aqui é um primeiro ponto primeiro que segundo os testes da alibaba ela supera um modelo do de psic que é o de psic V3 inclusive já havia sido lançado no final de 2024 Mas o modelo que todos estão comentando neste começo de ano de 2025 é o dpsc R1 a questão do ou seja eles aproveitaram o mesmo nome da empresa que de fato é mas eles estão comparando modelos diferentes Então é só para ficar atento a esta esta questão aqui o momento em comum do lançamento do Queen 2.

5 Max estee é o novo modelo da empresa alibaba foi no primeiro dia do ano lunar quando a maioria dos chineses está de folga do trabalho com suas famílias aponta para a pressão que a ascensão meteórica da Startup chinesa de psic nas últimas três semanas colocou nos rivais estrangeiros aqui aparentemente é que eles não se importaram muito com o público chinês eles estão mais preocupados com o impacto geral global que isso está acontecendo Eu já contei a história do jeps em outros vídeos aqui no canal não vou entrar tanto no detalhe do jeeps a intenção é falar sobre o Queen aqui então o primeiro ponto é que segundo alibaba eles lançaram um modelo que é melhor do que o je psic porém não a versão R1 que todo mundo está comentando e sim a versão V3 que é uma outra versão o Queen 2. 5 Max supera em quase todos os aspectos o GPT 4 ou o deeps V3 e o lama 3. 1 405 bilhões de parâmetros ã nós já temos o lama até umas versões melhores ou mais recentes do que essa Mas enfim disse a unidade da nuvem da alibaba em seu anúncio publicado em algumas redes o lançamento em 10 de janeiro do assistente do dpsc equipado com o V3 bem como lançamento do dia 20 de Janeiro do R1 então assim o de psic mesmo ele já havia lançado outras versões mas o R1 que é o que todo mundo está olhando agora de fato não é o que fizeram este mesmo comparativo e vejam que o próprio Queen da alibaba ele já havia lançado uma outra novidade durante esta semana exatamente para competir com o operator da Open ai se você está acompanhando as notícias sabe que a Open ai fez o lançamento do operator e é aquela nova funcionalidade que o chat gp agora e com o operator pode operar o seu computador desde que você mande um prompt algumas coisas ele vai conseguir fazer para você sem a sua atuação basicamente ele vai atuar como um agente na busca de elementos para sua comida busca de viagens rotas enfim ele vai fazer alguma coisa do tipo mas está muito limitado aos Estados Unidos e também ali a questões dos seus novos modelos o One e O3 e baseado nisso a alibaba lançou também este modelo de controle do seu computador é através do Queen apenas Lembrando que a primeira empresa que fez esse lançamento foi o ano passado foi a antropic com o cloud que também já faz Este controle do computador a equipe Queen da alibaba lançou segunda-feira uma nova família do Queen 2.

5 Vl ou seja mais um outro modelo os modelos podem analisar arquivos entender vídeos e contar objetos em imagens bem como controlar o seu computador semelhante ao modelo que alimenta o operator lançado recentemente pela Open ai e aqui estão alguns benchmarks você que me acompanha aqui no canal você sabe que esses benchmarks é legal dar uma olhada e uma entendida afinal de contas eles podem colocar os benchmarks que o modelo se desempenhou bem mas não significa que em todas as situações um modelo vai ser melhor que o outro enfim é legal de fato os seus testes então o até agora eu quis mostrar aqui este modelo novo da alibaba o Queen ele já existia e assim como o de psic ele começou a mostrar várias novidades esta semana não sabemos exatamente o motivo se tem a ver com o calendário lunar chinês ali ou se de fato a China resolveu apertar o acelerador no ano de 2025 mostrando estas novidades afinal de contas pesquisas em tecnologia e inteligência artificial a China já vem fazendo há um tempo a questão é que agora parece que chegou o momento de abrir da caixinha e mostrar isso pro mundo e então vamos ver esse modelo aqui como ele vai funcionar Inclusive eu peguei um tweet aqui do Philip schmith que trabalha no hugging Face Inclusive eu até peguei a tradução deste tweet que ele fez não perca o alibaba Queen 2. 5 Vl que é a função e toma conta ali do seu computador que ele pode olhar e fazer algumas ações com o seu computador apesar de todo o Hype do deeps que o Queen acaba de lançar um modelo multimodal aberto isso também é importante o Queen 2. 5 Vl ele tem uma questão ali de visualização que pode controlar o seu computador similar ao operator e aqui algumas características do Queen disponível em três tamanhos de parâmetros uso Queen 2.

5 capacidades de agente de uso diretos do computador e telefone melhor compreensão visual de textos tabelas ícones enfim suporte de vídeo estendido por mais de uma hora ou seja realmente é um modelo multimodal e aqui tem até um exemplo que que foi divulgado por ele sobre como que ele controla o seu computador na parte da esquerda você pode ver aqui obviamente que por programação não tão simples assim mas você pode ver que a partir de um controle de a um comando na parte da direita ele consegue no caso aqui entrar no site do booking verificar voos então perceba que a partir de Então você não está fazendo mais nada é o próprio modelo que está entrando nas telas clicando e colocando as informações baseado no seu pedido baseado nas no que você havia solicitado e aqui veja só ele tá seguindo adiante né Para onde você quer voar e aí você coloca as informações e ele já coloca eh Quais são os aeroportos para consultar aqui no caso os melhores voos e obviamente que se você estiver de acordo aí procede para pagamento e essa é a questão sobre agentes que cada vez mais nós iremos ter estas empresas lançando estes agentes para automatizar algumas tarefas e e esta é a demonstração aqui todo modelo que se preza existe um artigo um paper mostrando toda a pesquisa e como eles montaram este aqui é do Queen 2. 5 Max eu vou deixar o link na descrição aqui do meu vídeo assim como todos os links que eu mostro aqui neste vídeo estão na descrição além de outras literaturas e de minhas redes sociais vai lá vamos nos conectar aqui está todo a descrição vale a pena dar uma olhada também inclusive os comparativos que ele faz que nós comentamos com relação aos benchmarks Eu dei um zoom aqui só para mostrar então o Queen 2. 5 Max que é o principal modelo Ele está aqui em vermelho laranja enfim e o comparativo com o de psic V3 que não é a versão R1 o lama 3.

1 a versão da empresa meta o GPT 4 o uma versão convenhamos um pouco para trás já tem outras versões do GPT 4 o e o cloud 3. 5 sonet e estes são os comparativos então você pode ver que o Queen como em vermelho laranja aqui ele está superando ou está equiparando ali pelo menos em vários destes benchmarks e o que fica aqui um pouco assim é que ele fez comparativos com modelos um pouco mais antigos né o próprio lama já temos a versão 3. 3 nós já temos o GPT 4 ou versões melhores o próprio clou também já temos atualizações o DPS já tem o R1 enfim mas vamos ver esse modelo é tão bom assim bom e para acessar o modelo basta entrar no site chat.

Queen lm. car numa tela como esta para você fazer as suas interações você precisa fazer um login se cadastrar ali gratuitamente mas é legal você ter o seu e-mail e cadastrado e veja bem que tem os quesitos de privacidade aquela coisa toda mas fica aí para um outro vídeo quando você entra você pode selecionar os modelos aqui então nós temos todos os modelos não se esqueça de selecionar o Queen 2. 5 Max que é o modelo em questão aqui deste vídeo que dizem ser tão bom assim e aqui algumas funcionalidades como artefatos busca na web geração de imagem geração de vídeo você pode fazer um upload de um documento e imagens ainda não estão suportadas vamos fazer alguns testes aqui então o primeiro ponto é eu vou entrar com um prompt extremamente simples apenas para testar a velocidade que ele dá a resposta então o prompt simples é o que faz um gerente de projetos bom eu cliquei aqui no prompt e beleza esta foi está gerando aqui a resposta né então o gerente de projetos é um profissional responsável por planejar executar monitorar e ele está dividindo aqui ã todas as funcionalidades de um gerente de projetos você acompanha o canal e gosta mais de gerenciamento de projetos sabe que eventualmente E são essas as funções mesmo eu estou apenas testando aqui a velocidade como ele organiza essas informações a princípio ele está organizando bem legal aqui com os seus tópicos e e os Bullet points bem diretos ali sobre todas as funções eu não vou entrar nos detalhes aqui ler claramente se você é curioso pela área de projetos dá um pause aí no vídeo e verifique exatamente mas ele gerou uma resposta completa bem organizada e de bate pronto aqui olhando as informações aparentemente estão corretas então num prompt simples ele acabou se saindo bem mas a questão é estes novos modelos Quando nós vamos fazer questões muito simples basicamente você não nota a diferença agora prompts mais complexos Aí sim que você pode perceber um pouco da diferença o di psic R1 por exemplo com a questão do reasoning dele pensar sobre o seu prompt de uma maneira mais lógica vamos chamar assim ele é capaz de perguntas mais complexas e uma das perguntas que eu fiz no meu vídeo sobre o Deep seic eu vou fazer aqui para o Queen 2.

5 Max então no deeps R1 eu fiz exatamente este de prompt que crie um problema de lógica bem complexo e resolva na época no DPS ele levou um bom tempo criou este modelo de lógica ou esse problema de lógica e resolveu ele de maneira ok nós fizemos o mesmo teste com outra llm e ela deu uma travada aqui aparentemente ele está criando este modelo esse problema de lógica e está seguindo aqui o Queen ele é bom com matemática pelo menos os benchmarks dizem isso ou seja você pode perceber até que as notações matemáticas aqui e Estão melhores apresentáveis vamos dizer assim ã vamos aguardar aqui ele terminar bom eu não vou ler todo o problema ele está aqui na tela se você quiser ler este problema está aí é só pausar o vídeo e ele coloca toda a resolução Inclusive eu vou mostrar o gabarito aqui caso você queira resolver o tesouro aí está no templo C Legal pelo menos ele criou este modelo esse problema de lógica e Conseguiu resolver ã então assim Apesar de ele não ter o reasoning ele Conseguiu chegar aqui até o final deste desafio bom o modelo diz também que gera imagem Então vamos testar aqui gera imagem de um cachorro border col correndo no parque e ele não conseguiu não sei se é uma estabilidade mas não consegui fazer gerar estas imagens aqui não vou dar mais uma chance Gere a imagem de um limão sobre a mesa porque eventualmente alguma da alguma palavra que eu digitei ali ele talvez dê uma travada ele entenda que seja e alguma coisa ofensiva vamos dizer assim veja que Poxa gerar a imagem de um limão sobre a mesa se ele não fizer isso é porque realmente ele não gera imagens pelo menos não úteis bom beleza ele desenhou ou criou a imagem de um limão sobre a mesa se formos analisar até que ok né esta e esta imagem ficou até que interessante mas é claro para você gerar imagens existem outras opções também bom ele falou que gera vídeos então Gere o vídeo de um cachorro correndo no parque e ele não gera Será que ele tem algum problema com cachorros bom vamos testar outra coisa gera a imagem de uma paisagem com montanhas e o vento nas árvores é pois é hum não rolou aqui no caso ele tá falando que eu fiz muitas requisições é por isso que h não gerou o vídeo mas enfim você pode ver que também Existem algumas instabilidades ou eventualmente palavras que ele acaba bloqueando Que Nós não sabemos então tem aqui as suas limitações agora testando a busca na internet coloquei aqui quem ganhou o prêmio de melhor atriz no prêmio Globo de Ouro 2025 e e sabemos que foi a brasileira Fernanda Torres e como eu coloquei a busca na web eu queria testar e perfeito ele respondeu de maneira correta inclusive ele deixou aqui na parte da direita todas as fontes que ele consultou para chegar nesta resposta ele também tem uma funcionalidade de artefatos que Teoricamente é a mesma que o cloud ai também tem onde você pode gerar códigos e ele vai rodar aqui na própria web então eu fiz um teste Gere o jogo da velha para que eu possa jogar eu versus o computador claro que é um prompt extremamente simples e deve apresentar algum erro mas vamos ver se pelo menos fica jogável nemuma primeira vez ele está gerando o código como você pode ver na parte da esquerda e vamos aguardar na parte da direita se eu consigo ter alguma coisa que eu consiga pelo menos me interagir bom levou uns 2 3 minutos e ele me deu esta tela aqui jogo da velha sua vez tá bom então vamos começar aqui X é a vez do computador Minha Vez vamos jogar aqui computador pois é o jogador x venceu é é claro que é um prompt extremamente simples Talvez nós pudéssemos colocar níveis de dificuldade enfim daria para evoluir um pouquinho mais isso mas essa função de artefatos funcionou que é uma coisa que o clou ji por exemplo Já lançou em 2024 e eu já mostrei aqui no canal também então pelo menos isso me pareceu que funcionou legal então qual é o meu veredito sobre o Queen 2.