Meta Lança Llama 3.1, e Bate em GPT-4o e Claude 3.5 Sonnet (Comparações e Benchmarks)

7.5k views3469 WordsCopy TextShare

Sancler Miranda | IA Revolution

🎉 Use a IA para ser 10X mais produtivo, criar conteúdos originais, e monetizar seu conhecimento. Ap...

Video Transcript:

grande semana para o mundo da Inteligência Artificial diversas coisas acontecendo e uma das principais foi o lançamento do lama 3. 1 a llm a inteligência artificial da Meta que além de estar por trás de diversos produtos da Meta que ainda não chegaram no Brasil Mas vai chegar em breve eu vou te mostrar nesse vídeo quais são algumas dessas funcionalidades Além disso também é open source ele está disponível para desenvolvedores baixarem o modelo baixar os pesos e a partir daí criarem suas próprias ias com as diversas aplicações possíveis a partir disso nesse vídeo você vai entender porque que isso é importante eu vou te mostrar como acessar o Lhama 3. 1 aqui no Brasil porque ainda não tá disponível oficialmente pelo site da meta e também as comparações do lama 3.

1 com por exemplo GPT 4 o e Cloud 3. 5 sonet Agora se liga nessa novidade a partir de agora você pode entrar no Y Evolution Academy com uma assinatura mensal e tem uma outra novidade para os 100 primeiros que entrarem vai receber de bônus o método alquimia que é um plano de sete semanas para você transformar o seu conhecimento suas habilidades em renda aqui no digital o primeiro módulo já está disponível as próximas aulas vão estar disponíveis ao longo das próximas semanas cada semana terão novas aulas além das mais de 100 aulas já disponíveis dentro do I Evolution Academy depois do 100 primeiro o método alquimia vai estar disponível somente na assinatura anual Então corre o link tá aqui abaixo na descrição e a Revolution Academy é o lugar perfeito para você aprender como utilizar a inteligência artificial no seu dia a dia de maneira prática e principalmente para quem é criador de conteúdo e quer monetizar o seu conhecimento para sua audiência fechado e a Revolution Academy tá mais de um ano Nativa e continua com novidades como essa sancl eu adquiri o acesso vitalício e agora vai ser uma assinatura você você continua com acesso Para sempre sim quem é o maluco que faz isso o maluco está aqui na sua frente Você vai continuar com acesso para sempre Enquanto existir o ia Revolution você vai ter acesso a todos os conteúdos que estiverem lá dentro fechado bom demais excelente ou maravilhoso inacreditável Pois é você escolhe isso é ia Revolution Academy agora vem comigo aqui para vermos as novidades do novo modelo que é o lama 3. 1 lançado essa semana pelo que agora está di então Marx zberg e o seu grupo meta o lam3 veio em três modelos 8 bilhões de parâmetros 70 bilhões de parâmetros E 405 bilhões de parâmetros Eles escolheram colocar os parâmetros como se fosse uma maneira de mostrar o quão bom está o modelo liama 3.

1 de maneira resumida quanto mais parâmetros tem o modelo mais inteligente mais capaz ele se torna durante o processo de Treinamento esses parâmetros são ajustados para dar maior peso a determinadas respostas por exemplo pego o livro O heróio o fora da lei eu peço para que ele faça um resumo sobre esse livro para que o modelo entenda que eu tô pedindo um resumo que é de um livro e que é do livro O Herói O Fora da Lei ele vai usar os parâmetros dele para me dar uma resposta mais coerente de que se trata desses padrões específicos É sobre esse livro é sobre essa autora é um resumo e não me dá uma resposta incoerente então o modelo ele foi treinado em cima de tr 13 trilhões de tokens é um modelo muito robusto como eu falei ele tem três versões com parâmetros diferentes Vou colocar aqui para o português para você ler junto comigo o de 8 bilhões ele é o mais leve e mais rápido o de 70 bilhões ele fica como o modelo do Meio onde ele vai fazer esse equilíbrio entre o custo benefício da quantidade de tokens que tá sendo requisitado e também para casos específicos por exemplo de empresa que vai precisar somente para um tipo de uso específico esse seria o meio termo já o de 405 bilhões ele já é o mais capaz o mais geralzão é o que teve mais parâmetros ajustados durante o treinamento Então na hora de trazer respostas tem mais peso tem mais coerência tem mais padrões que foram aprendidos ao longo do seu treinamento basicamente resultando em respostas melhores Então dentro dos aplicativos da Meta como por exemplo dentro do Messenger dentro do próprio WhatsApp nós vamos ver funções como essa que é pedir para criar imagem que é pedir para tirar uma foto no nosse imaginar como se a gente fosse algum tipo de personagem em algum tempo pedir para animar pedir por tradução e você vai ver que no sentido de linguagem nos benchmarks ele está excelente eu vou mostrar o benchmark já já aqui para você e você vai perceber que em vários aspectos ele tá saindo melhor do que GPT 4 ou e também Sony 3. 5 e lembrando é um modelo open source agora dentro do site da Meta que seria metae que ainda não tá disponível aqui no Brasil nem mesmo a gente no VPN não vai nós vamos ter acesso ao lhama 3. 1 no caso de 405 bilhões de parâmetros e nós vamos ter funções como essa que é também análise o que seria análise avançada de dados o que seria análise lá dentro do Cloud nós vamos ter também dentro do lama 3.

1 dentro do meta ai essa opção de fazer análise de pedir para criar gráficos tudo dentro do lema 3. 1 aqui ele tá mostrando exemplo de um raciocínio mais complexo eu tenho três camisas cinco shorts um vestido de verão estou viajando por 10 dias tenho o suficiente para minhas férias ele mostra aqui no videozinho mostrando Let's breakdown vamos repartir isso vamos quebrar isso em alguns pontos ele trazendo todo o raciocínio por trás demonstrando a capacidade dele de raciocínios mais complexos assistente de codificação Então vai ser possível codar pedir por códigos pedir para analisar códigos corrigir códigos dentro do liama 3. 1 também olha só assim como a gente vê no chat ept no Cloud ele vai abrir essa janela onde tá gerando código em Python pra pessoa só copiar e colar dentro da aplicação do que ela tá desenvolvendo agora vamos ver os benchmarks tem o benchmark em relação ao modelo passado que seria o modelo TRS do 8 bilhões 70 bilhões Mas nós vamos partir aqui para que a gente quer ver que é o benchmark comparado aos modelos inclusive fechado Vamos focar principalmente aqui ó no lama 3.

1 405 bilhões onde tá sendo comparado com nada mais nada menos que GPT 4 ou Omni o cloud 3. 5 sonit e quando você vê os retângulos atrás sendo marcados é porque é o modelo vencedor em relação à pontuação desses benchmarks beleza aqui ao lado esquerdo demonstra que são benchmarks para uso geral os benchmarks são vários testes que são feitos para demonstrar a pontuação dentro de cada avaliação nesse caso aqui avaliação geral que tem a ver com o entendimento da nossa linguagem código matemática raciocínio utilização de ferramentas contexto longo multilingual de entendimento de multiplas línguas e veja que as avaliações estão muito próximas até mesmo naqueles que lama 3. 1 perde beleza Olha só nesses de mm luu que são a compreensão da nossa linguagem por exemplo 88.

6 quem ganha aqui é o GPT 4 ou com o 88. 7 Então é só 0. 1 de diferença vamos ver os outros que ele ganhou 88.

6 perceba Cloud 3. 5 sonit levando várias aqui também que esse modelo está excelente É uma pena que até o momento não chegou aqui no Brasil porque eu tô usando diariamente vários momentos eu prefiro 3. 5 sonit do que o chat GPT por exemplo Então cara ele tá maravilhoso muito bom mesmo matemática olha ganhando do GPT 4 o e também do 3.

5 sonet com oito exemplos e shot aqui utilizando Chain of to que é um uma técnica de prompt matemática GPT 4 tá indo muito bem aqui 76. 6 avaliação ó nesse desafio de raciocínio 96. 9 ganhando dos dois esse aqui já de perguntas Gerais já nos foi muito bem né ficou bem atrás ó 51.

1 em contexto longo saiu muito bem e o multilingual o entendimento de múltiplas línguas em 991. 6 empatado com o 3. 5 sonet Por que que é tão importante o modelo poderoso como esse competindo com modelos fechados 3.

5 sonet da antropic GPT 4 ou da openi Porque a partir disso aqui cara a gente agora só uma questão de tempo a gente vai começar a ver diversas aplicações possíveis um dos exemplos de código aberto que foram muito bem sucedidos é o Android são navegadores Como por exemplo o Firefox opera Chrome todos esses foram desenvolvidos se eu não me engano Com base no Chromium Então são muitas aplicações que podem surgir a partir de um modelo que está tão poderoso como o Lhama 3. 1 e É só uma questão de tempo agora para vir os próximos né para vir o quatro e as coisas ir cada vez melhorando Inclusive essa visão do Marcos zuberg ele falou que eles não têm pretensão a meta não tem pretensão de lucrar em cima do modelo aberto em si mas o que eles vão fazer as aplicações que eles vão ter a partir do modelo onde o modelo lama 3. 1 vai estar por trás entendeu então é dos produtos que vão vir usando essa llm e não da llm em si porque afinal de contas é el está em código aberto Ou seja Eles não estão colocando um plano para pagar ou então não estão cobrando para outras empresas usar entende é uma aplicação de open source Quais são as maneiras de você acessar aqui no Brasil o lama 3.

1 por enquanto você pode acessar através do po que eu já fiz um vídeo aqui inclusive foi o vídeo passado vou deixar linkado aqui para você assistir lá depois se você não conhece o po ainda o pol ele reúne praticamente todas as llms estão aqui no Pol inclusive com função dos artefatos que eu também já fiz um vídeo no vídeo passado eu mostrei os artefatos em funcionamento que é o equivalente aos artefatos que nós temos no Cloud tem aqui dentro você pode usar os artefatos que eles chamaram de pré-visualizações né as prévias com o GPT 4 o e diversos outros modelos incluindo o Lhama 3. 1 novo que já está aqui disponível Então é só você clicar aqui em cima começar com a conversa aqui nesse campo ou então você vai aqui em Bots oficiais vai estar aqui lama 3. 1 405b tem alguns porém aqui que é você só vai ter com uma quantidade gratuita que vem na sua conta deixa eu clicar aqui para você ver ó uma conta gratuita são 3.

000 créditos pontos diários o que dentro do po acabou de lançar e por isso está mais cara essa quantidade de crédito só vai dar seis mensagens Então você pode ver quantos créditos por mensagem é cobrado 485 tem um plano pago na qual a quantidade mensal de pontos é 1 milhão de pontos então dá coisa para caramba aqui está R 83 por mês mas é no plano anual no mensal vai ficar R 99 inclusive ficou mais barato tava mais caro eles colocaram mais barato então tá compensando aí para quem quer todos esses modelos em um só lugar com as diversas funções que tem aqui dentro do po para você usar a questão é que por enquanto aqui dentro do po ele não está aceitando arquivos Pode ser que logo logo ele comece a aceitar mas pelo jeito através do P utilizando aqui dentro ainda não tá aceitando arquivos para você fazer análise de dados eu fiz três exemplos aqui de comparações pra gente ent Ender como que está na prática o Lhama 3. 1 Então estou utilizando o lmc chatbot Arena que faz benchmark faz votações de maneira geral para saber as pontuações que o público as pessoas estão dando para os modelos aí você consegue encontrar no leaderboard todas essas pontuações aqui dentro de arena side by side a gente consegue fazer uma comparação entre dois modelos diferentes então fiz um aqui com Cloud 3. 5 sonet e os outros dois foram comparando com o GPT 4 o que que eu fiz eu pegi peguei o próprio artigo da Meta falando sobre o Lhama 3.

1 copiei e colei aqui dentro e pedi simplesmente para faça um resumo detalhado desse artigo aqui minha ideia foi deixar o prompt bem amplo mesmo justamente para ver o entendimento como que está a performance do modelo com um pedido mais an apenas o resumo detalhado do artigo e veja que o 3. 5 sonit o que eu gosto muito ele trouxe mais em numerais e Bullet points já o lama 3. 1 um ele já trouxe em texto separado aqui por parágrafos e no meu gosto pessoal na verdade eu gosto quando tem a junção dos dois quando é texto e também está dividido por ou Bullet points ou numerais não importa mas que ten esses pequenos Pontos importantes mas antes eu gosto de um texto explicando aí é bem pessoal fato é os dois trouxeram informações muito boas sobre Olha só o tamanho que ficou aqui do liama 3.

1 Lembrando que o contexto na verdade eu não falei é de 128 de contexto agora estamos digamos dentro do padrão porque GPT 4 o também está com essa janela de contexto de 128. 000 tokens e aqui como eu disse 3. 5 sonet trouxe em numeral em Bullet points eu lendo eu gostei mais desse resumo porém do outro lado também trouxe informações importantes nesse caso a gente pode dentro da arena inclusive votar o a é melhor que é o modelo a que é o 3.

5 sonet B é melhor que é o lama 3. 1 e aqui Thai que seria um Ipat Os dois estão ruins você pode votar que não gostou nenhum dos dois nesse caso aqui eu vou dar um empate beleza aqui já deu erro porque já tá um tempinho já essa janela aberta Mas você pode votar aí vamos para o segundo exemplo que foi GPT 4 o versus lama 3. 1 com 405 bilhões de parâmetros só a nível de curiosidade GPT 4 o é estimado porque não tem um número oficial e veja como isso é uma estratégia para chamar atenção da questão da quantidade de parâmetros porque a openi não divulgou oficialmente quantos parâmetros tem no g pt4 ou estima-se que é de 1 trilhão a 1.

7 trilhões de parâmetros que é coisa paraa caramba Em contrapartida 405 bilhões não significa necessariamente que um modelo vai ser melhor do que o outro por causa da quantidade de parâmetros mas obviamente que isso vai influenciar muito na qualidade das respostas de maneira geral pode ter um modelo que ele é mais específico para um tipo de caso específico que ele tem menos parâmetros mas ele funciona melhor para um caso específico de alguém que está izando para uma empresa para uma pessoa aqui eu peguei um prompt mais detalhado que foi criado dentro do prompt M 2. 0 que é um GPT que eu criei para te ajudar a criar os melhores prompts possíveis tem engenharia de prompt lá dentro tem princípios de prompt tirados diversos paper científicos e eu criei esse prompt lá dentro que inclusive eu demonstrei esse prompt a criação dele em um dos vídeos aqui falando do prompt M 2. 0 que de maneira resumida é pedindo para agir como um consultor de negócio especializado em marketing digital onde o objetivo é ajudar um usuário a iniciar o projeto de oferecer aulas de Espanhol para iniciantes nas horas vagas e considere algumas informações aí trouxe todas as informações aqui são coisas bem específicas para realmente extrair o melhor da llm nesse caso Estamos testando então a performance dos do GPT 4 o lama 3.

1 olhando você pode se você quiser dar um um pause aí você pode ver que o GPT 4 O que é um modelo a desse lado esquerdo Ele trouxe eu vou scroll você quiser pode dar pause Ele trouxe uma resposta melhor melhor em qual sentido ele entendeu tudo que eu pedi o lama 3. 1 também entendeu tudo que eu pedi ele trouxe tudo que eu pedi só que as respostas do GPT 4 o foi mais detalhada trouxe mais nuances específicas daquilo que foi pedido no prompt por exemplo dentro da estruturação e organização das aulas olha só os dois estão com a mesma coisa Ele trouxe planejamento das aulas falou sobre as aulas particulares falou sobre as aulas coletivas falou da plataforma de ensino então ele trouxe mais detalhes dentro dessa estruturação e organização já o Lhama 3. 1 trouxe menos contexto na resposta trouxe menos informações principalmente para quem está começando nesse caso específico desse prompt precisa de mais informações precisa de mais direcionamento é claro que poderia aprofundar continuar veja que logo em seguida ele já começou a estratégia de marketing digital Olha a quantidade de informações muito boas não é só injeção de linguiça que o GPT 4 trouxe E aí só lá embaixo que ele começou a estratégia de marketing digital e foi assim até o final então está melhor e mais rica as informações do GPT 4 ou eu vou colocar aqui que o a Está melhor mas provavelmente vai dar erro porque tá H muito tempo já essa janela aberta no último teste também coloquei GPT 4 ou versus lama 3.

1 eu utilizei o prompt da mente mestra que já é bem conhecido aqui no canal também que é para simular quatro mentes virtuais conversando entre si a partir de um problema que eu fornecer E aí vai criar uma personalidade para cada mente dessa também vou deixar aqui disponível para você na descrição E aí a partir disso eles vão começar a discussão entre eles ambos entenderam que era para esperar primeiro o meu problema para depois começar essa conversa entre quatro mentes então foram muito bem os dois logo de cara E aí eu forneci um problema hipotético tenho 3 horas livres em meu dia após o meu trabalho quero começar a criar conteúdo na internet ainda não sei por onde começar a mesma coisa para os dois e só a partir daí os dois criaram as mentes virtuais ambos criaram formação em marketing ambos criaram formação em ti tecnologia da informação olha aqui ó ele também GPT 4 criou produção de conteúdo lama 3. 1 criou formação em jornalismo só vou falar lama tá 3.