NOVO AGENTE no CHATGPT: DEEP RESEARCH É BRUTAL 🤯

3.13k views2389 WordsCopy TextShare

Sancler Miranda | IA Revolution

🤯 Aprenda a usar IA para ser mais produtivo, mais inteligente, e ganhar mais. 3.500 alunos já confi...

Video Transcript:

Algo completamente fora do padrão da OpenAI acabou de acontecer. Hoje, na hora que estou gravando esse vídeo, é domingo, e agora são 11:11. Olha que legal: a OpenAI acabou de lançar um novo agente.

O nome desse agente é Deep Research. Sim, é o mesmo nome do Google, porém estamos falando de qualidades completamente diferentes. Para você ter uma ideia, aqui está a live que eles acabaram de fazer.

Este é o artigo; eu já separei aqui alguns pontos importantíssimos para passar para você. Porque esse modelo aqui foi feito em cima da linha ou três que, há dois dias atrás, eles lançaram. Não é qualquer coisa; é uma série de capacidades dadas a um só agente que nos deixa com uma visão muito clara de como será essa era da inteligência artificial geral.

Lembra do Operator, que foi lançado há pouco tempo também? É um agente da OpenAI que está disponível somente nos Estados Unidos. Ele faz mais com VPN: se você tiver a conta Pro, você consegue acessar.

E este, o Deep Research, também está disponível apenas no Pro. Mas calma, tem muita coisa aí que eu preciso falar para você. Esse agente, esse Deep Research, ele está alimentado por uma versão do modelo GPT-3, que é otimizado para fazer navegação na web.

O Operator faz a navegação na internet, e nós temos a interface gráfica que podemos usar para interferir, colocar nossos dados, e permitir se pode fazer uma ação ou não. Além disso, apesar de não mostrar que está fazendo isso, ele consegue analisar dados; ele consegue pesquisar e analisar grandes quantidades de texto, imagens e PDFs na internet. Além disso, o Deep Research utiliza Python para criar programas, assim como análises de dados avançadas.

Para quem utiliza o ChatGPT, você coloca uma planilha e pede para ele analisar. O que ele está fazendo ali por trás das cenas é criando um programinha de Python. E aí ele faz algumas análises de acordo com o que você pedir, e, em outros pedidos, ele cria um programinha de Python para rodar aquela função.

Como, por exemplo, converter um arquivo para outro. Você sabia que dá para fazer isso? Pois é!

E esse agente tem acesso a diversas ferramentas para realizar essas tarefas na internet. Para quê? Para interpretar esses dados: texto, imagem, PDF, planilha, gráficos.

Inclusive, futuramente, tudo isso poderá ser renderizado dentro do ChatGPT, então na resposta dele vai ter gráfico, vai ter imagem, vai ter coisas que representam o que ele encontrou. Por enquanto não está, mas terá. Está escrito aqui no artigo deles.

Isso tudo para trazer respostas mais completas e mais relevantes em diversas áreas. Tem alguns benchmarks aqui absurdos. Olha aqui, tem alguns exemplos.

Ele está fazendo uma pesquisa de mercado, e aqui faz uma comparação entre o GPT-4 e o Deep Research. Eu cliquei com o botão direito e traduzi para o português, por isso que às vezes vai ficar estranho o que está escrito, ok? Originalmente é em inglês.

Nesse pedido, ele colocou para ajudar a encontrar taxas de adoção, basicamente de aplicativos de idiomas no iOS e no Android, nos últimos 10 anos. Olha a pesquisa, o nível da pesquisa, para os 10 principais países desenvolvidos e 10 principais países em desenvolvimento, de acordo com o PIB. Ele dispõe essas informações em uma tabela e separa as estatísticas em colunas, inclusive recomendações sobre mercados.

Veja quanta informação, quanto contexto e peculiaridades! Olha, 10 países assim, 10 países assado; tem que ser países que usam ChatGPT, e ele vai lá e faz essa pesquisa. Veja a diferença entre a resposta do GPT-4 e o Deep Research.

Além de trazer o país, ele trouxe também participação do mercado com iOS e Android, o interesse em uma nova língua, a mudança na penetração móvel, descendo nas 10 principais economias emergentes de acordo com o PIB. Olha o nível de detalhe de tudo isso! Fontes ele traz.

Quais foram as fontes? Recomendações? Veja o tamanho disso aqui, meu amigo, minha amiga!

Tem outros exemplos: a pessoa esqueceu o nome de uma série que ela viu. Pesquisa médica. Imagina o impacto disso aqui na pesquisa médica!

Isso aqui é só o comecinho, é só o início. Se eles liberaram isso aqui agora é porque isso já está em desenvolvimento há muito tempo. Para você ter uma ideia, eles já falavam sobre esse Deep Research em maio e junho de 2024, então desde muito tempo isso está sendo desenvolvido.

Imagina o que eles têm lá, sendo desenvolvido agora, mas que ainda não está liberado. E falando nisso, Sancl, você acha que o Deep Research pode ter sido adiantado por causa do efeito de psic? É claro que sim!

É bem provável que eles iriam liberar isso aqui depois, mas eles sentiram a pressão do Deep Seek. Não só a OpenAI, mas diversas outras empresas. Já fiz um vídeo sobre Deep Seek, mas não está dando para postar porque está acontecendo muita coisa.

Mas em breve vai sair um vídeo no canal onde eu falo com mais detalhes e explico porque a Deep Seek é tão boa para o mercado da IA. E este aqui é um dos motivos: design de UX (User Experience). Encontra evidências que mostram que botões com ícones e rótulos são mais utilizáveis do que botões sem rótulos.

Olha aqui o tamanho do GPT-4, que vem até aqui! E vamos ver o do Deep Research. Veja!

Não vou parar até. . .

Caraca! É muito! Esse é o nível de detalhamento.

Olha isso! Estou indo, ainda estou indo. Tem noção que, para uma pessoa, isso aqui levaria dias?

Não é nem questão de horas, dias, para chegar num resultado desse aqui. Conclusão: e ainda tá indo. Ó, referências!

Loucura, cara, loucura. Compras: a pessoa tá querendo comprar um snowboard. Conhecimento geral: qual a idade média da aposentadoria dos jogadores da NFL?

Olha só a pesquisa profunda construída para as pessoas que fazem trabalho intensivo de conhecimento em áreas como Finanças, Ciência Política, Engenharia e precisam de pesquisa completa, precisa e confiável. Pode ser também útil para compradores exigentes, com recomendações hiperpersonalizadas, como carro, eletrodomésticos, imóveis—coisas que requerem mais pesquisa, né? E a saída é totalmente documentada, com situações claras, um resumo do pensamento.

Eles estão começando a colocar mais claro isso. Aqui é porque ainda não apareceu para mim; tô até atualizando a página, mas vai ser liberada hoje. Hoje, o que eu quero dizer é assim: nas próximas horas, já vai me falando aqui nos comentários o que você quer ver eu testando com Zip research.

Olha só, depois da Dips, a Open começou a colocar mais da cadeia de pensamento, que é esse processo que acontece do raciocínio, do "Chain of Thought" desses modelos. O Sam Altman falou que em breve o GPT-4 Mini vai começar a apresentar mais. Olha isso aqui, cara!

Esse foi um dos exemplos que eles mostraram na live. Olha o tamanho desse relatório aqui que foi apresentado. Olha isso!

Olha o tamanho dessa resposta! Você tá entendendo que é outro nível isso aqui? O legal é que, depois que é enviado, ele faz o que também era, até então, uma técnica de engenharia de prompt, que era você pedir para que o ChatGPT ou qualquer outro modelo te perguntasse, fizesse perguntas que ajudariam o modelo a responder melhor, de maneira mais eficaz.

Então, até hoje dá para fazer isso, mas você percebe que agora é algo nativo, assim como aconteceu com o "Chain of Thought". O "Chain of Thought" antes era apenas uma técnica de engenharia de prompt; depois, foi para outro nível, como uma técnica de treinamento dos modelos de raciocínio. Nós também vamos conseguir anexar arquivos ou planilhas para adicionar contexto à sua pergunta.

A disponibilidade desse modelo é para o Pro. O Pro é uma assinatura que custa 200 por mês, e se você fizer pelo celular, você consegue fechado ali em 99,99 por mês, né? Aí, nesse caso, é só fazer a assinatura pelo app, pela App Store ou pela Play Store.

E mesmo para o Pro, como requer mais poder de computação, tem um limite de 100 mensagens por mês. Para você ter uma ideia, as respostas podem levar de 5 a 30 minutos. E olha, a pesquisa profunda descobre, raciocina e consolida em sites de toda a web de maneira independente.

E para fazer isso, ela foi treinada em tarefas no mundo real que exigem o uso de navegador e ferramentas Python. Lembra que eu falei da questão de mostrar imagens, planilhas etc. ?

Olha aqui: nas próximas semanas, também adicionaremos imagens incorporadas na resposta, visualizações de dados. Provavelmente, vai ser igual nós temos na análise de dados, na qual é interativo; a gente consegue passar o mouse, ver o gráfico de barras, por exemplo, e outros resultados analíticos esos relatórios, para maior clareza e contexto. E nós também podemos fazer o upload de documentos PDF para que ele coloque e tenha no contexto dele para fazer aquela pesquisa.

Agora chegou uma parte interessantíssima! Também tem um novo benchmark que chama "O Último Exame da Humanidade". Por que que tá acontecendo?

Os benchmarks estão começando a ficar saturados, ou seja, os modelos estão conseguindo chegar no topo nas melhores pontuações, e agora precisa criar novos benchmarks. E esse aqui, a intenção foi essa. Mas olha para onde já tá caminhando o negócio.

O modelo, nesse caso aqui, o W3, que foi específico para o Zip Search, precisa responder mais de 3. 000 perguntas de múltipla escolha e resposta curta em mais de 100 assuntos diferentes, de linguística a ciência de foguetes—assim, é só nível altíssimo de pergunta. Veja a precisão, a pontuação dos modelos: GPT-4, Grok 2, Cloud Sonnet 3.

5, modelo Thinking do Gemini 6. 2 ou One 9. 1, ou One R1 de Psych 9.

4. Eles colocaram que eles não são multimodais, que foram avaliados somente em texto. Aí vem o GPT-3.

5 Mini Mini Medium, que seria o mini-médio, que foi há dois dias atrás. Olha só, há dois dias atrás! 10.

5 Mini High, dois dias depois. Ok, olha a velocidade! Dois dias depois, o Deep Research da Open, baseado em cima do GPT-3.

5, quase dobrou em relação ao GPT-3 Mini High! É claro que ele usa navegação na internet e também ferramentas Python. Só que eu vou deixar claro: já não é uma questão que o modelo robô, na verdade, é porque é uma IA.

E é isso aí mesmo, vão ter mais coisas, vão ter ferramentas, e esse é o caminho. Não faz sentido, por exemplo, pegar um computador antigo e falar que não, ele só pode com processador tal; não faz nenhum sentido! Então a evolução vai acontecendo e eles vão ter que continuar criando novos benchmarks para dar conta de medir para onde estamos indo com as IAs.

Esse benchmark Gaia avalia questões no mundo real, onde tem três níveis de dificuldade: nível um até o TRS e depois eles tiram uma média. Vai desde habilidades como raciocínio, fluência, multimodal, navegação na web e a proficiência no uso das ferramentas. Nas tarefas que eu comentei com você aqui, com apenas uma resposta, P One, no nível 1, ele chegou a 74; no nível 2, 69; e no nível 3—e aí, de acordo com o nível, perceba que vai descendo; vai diminuindo a quantidade de acertos.

Aí tem aqui, Cons 64 são um número de tentativas, com 64 tentativas a pontuação. . .

Foi essa a pontuação, foi essa, e assim por diante, resultando numa média maior. Internamente, lá na Open, eles perceberam o seguinte: o sucesso na aprovação daquelas tarefas aumentava à medida que o modelo usava mais ferramentas. Quanto mais o modelo navega e pensa sobre o que está navegando, melhor ele se sai; e é por isso que é importante dar mais tempo para ele pensar.

A ênfase médica: olha a importância do que está acontecendo. Esse gráfico aqui é muito interessante. Presta atenção ao insight que dá para tirar com isso: a taxa de aprovação que o modelo consegue se sair bem foi aprovada.

Tá legal, ele acertou a tarefa, tá tudo certo! Ela está relacionada com o valor econômico daquela tarefa. Para tarefas nas quais o valor estimado econômico é muito alto, perceba como essa taxa de aprovação, essa taxa de acerto, vai descendo para ele conseguir resolver aquelas tarefas.

E é claro, isso aqui é agora; muita coisa vem por aí, meus amigos! Quem reconhece essa camiseta aqui? Eu tive que colocá-la porque foi inusitado demais.

Essa aqui eu fiz lá em 2015, inteligência artificial, no meu primeiro canal, que se chama Cyborgs. Em 2015, eu comecei a falar sobre inteligência artificial, mas não tinha o interesse que existe hoje. A tá surrada, mas ela está aqui, ó, vivíssima.

Me conta nos comentários o que você quer ver eu testando! Eu terei apenas 100 mensagens que posso enviar no Deep Research. Vou aguardar se forem liberadas aqui para mim e, dependendo do seu comentário, a sua sugestão pode ser a que eu vou testar no vídeo.

Sempre temos um combinado: você escrever de maneira criativa e disfarçada uma palavra-chave no seu comentário. A palavra-chave do vídeo de hoje, na qual eu penso na hora e vejo na hora, é muito simples; essa foi talvez a mais fácil de todos os vídeos até hoje. Coloca aí no meio do seu comentário!

E para você que quer aprender a aplicar a inteligência artificial para ser mais produtivo no seu trabalho, na sua vida pessoal, nos seus estudos, para que você fique mais inteligente e aprenda muito mais rápido, para que você seja mais valorizado na sua profissão e ganhe mais, é só o começo de tudo isso. Eu recomendo fortemente que você entre no Yar Evolution, que está aqui abaixo na descrição. Somos mais de 3.

500 alunos, temos a nossa comunidade, inclusive a nova comunidade está para sair, e eu não poderia recomendar mais. Sinceramente, depois de todo esse vídeo, eu acho que não tem muito o que falar do quanto você precisa urgentemente aprender a utilizar a IA de maneira prática de verdade no seu dia a dia. Fechado?

O link tá aqui abaixo na descrição. Corre e aproveita o valor que tá nesse momento! Muito obrigado por você ter assistido até o momento, meu amigo, minha amiga.

Eu te vejo já já. Estamos juntos!