Tutorial Google AI Studio: como usar o Gemini? | IAs Generativas

16.31k views3781 WordsCopy TextShare

Alura

🤖 Passo a passo do Google AI Studio: como usar o Gemini para analisar e interpretar imagens, áudios...

Video Transcript:

[Música] E aí pessoal Aqui é o Fabrício Carraro program energer na lura e autor de ia chegando para mais um episódio dessa nossa web série sobre ias generativas aqui no canal YouTube da alura E lembrando que esse episódio é oferecido pela ia conference Brasil 2024 que vai ser uma conferência que vai reunir algumas das melhores mentes que estão por trás desse mundo da inteligência artificial aqui dentro do Brasil e lá você vai poder ver palestras mais técnicas palestras também sobre negócios casos reais de aplicação da aa em empresas gigantescas E lembrando que ela já tem data vai ser no dia 21 de agosto e os ingressos já estão à venda estão disponíveis lá no site que vai tá escrito aqui embaixo dos meus dedos e também na descrição desse vídeo aqui no YouTube mas sem mais delongas vamos lá para esse vídeo onde eu vou falar sobre o Google ai Studio se você fez a imersão da lura junto com a gente já deve ter visto né a gente brincou bastante com o Google EA Studio lá na imersão de a mas se você não viu fica aqui comigo que a gente vai dar uma visão geral sobre como ele funciona então se você abrir esse site aqui ai studio. google. com você vai precisar simplesmente colocar ali a sua conta do Google né alguma conta Google para logar para fazer entrar nesse sistema aqui mas depois você vai ir diretamente para essa tela que tá mostrando a tela eu vou dar até um zoom maior para vocês conseguirem ler um pouquinho melhor Aqui tem bastante coisa e eu vou explicar Muitas delas a parte mais importante dessa tela inteira aqui que você tá vendo é essa aqui embaixo na na parte inferior onde tá escrito Type something que significa digite algo é aqui que você vai colocar os seus prompts ou seja as suas perguntas pro jemai né pro modelo jemai do Google Então vamos escrever qualquer coisa aqui Então escreva uma poesia sobre o Fabrício cararo que é um viajante poliglota e gosta de i a gente pode dar um enter ou simplesmente clicar nesse botão Run aqui que significa rodar E aí ele vai começar a fazer ó Fabrício cararo um nome que evoca a mente curiosa que o mundo provoca então ele tá rimando é uma poesia poliglota com línguas na ponta da fala em terras distantes sua história se Desenrola essa rima ficou mais ou menos né mas depois eu vou explicar também um dos possíveis motivos mas enfim é isso né você vai colocar aqui o seu prompt né o seu pedido e aí ele vai dar a resposta você pode até ver que user é o usuário que é você e model que tá aqui também logo abaixo é o modelo a resposta do modelo E lembrando que ele tem a memória né da conversa então você pode colocar aqui embaixo Por exemplo agora traduza pro inglês traduza o quê ele vai ter que saber o que que ele tem que traduzir né então você pode dar um Run aqui então aqui ele vai ter a tradução desse mesmo poema pro inglês ó Fabrício Carraro name that evokes a curious Mind the world that provokes enfim você pode ter essa conversa aqui como a gente já viu Nessa websérie em muitos outros modelos de linguagem é a mesma história mas eu quero remover eu quero apagar tudo isso daqui você pode simplesmente começar um novo aqui Create New prompt E Chat prompt do lado superior esquerdo você dá um ok ele vai zerar o seu ambiente mas não é só isso que eu quero mostrar para vocês aqui em cima você tem as instruções do sistema que aqui você pode colocar um estilo a Persona por exemplo que você quer que ele assuma então por exemplo se eu colocar eh aja de maneira muito sarcástica E aí eu peço para ele isso aqui tá nas instruções do sistema tá não tá no prompt mas ele vai de alguma forma ir nesse prompt também aqui no meu promet eu vou colocar Escreva um um e-mail curto para um professor de física convidando para uma palestra por exemplo um exemplo bem bobo aqui então olha ele escreveu e-mail aqui realmente só que como a gente pediu para ele ser ser sarcástico ele colocou algumas coisas ó uma oportunidade única para se esticar para esticar o seu cérebro e também o seu senso de realidade haverá Donuts Talvez depende da disponibilidade do orçamento mas é sempre bom ter esperança então ele colocou aí uma coisa um pouco sarcástica uma brincadeirinha então é é assim que serve esse System instructions né as instruções do sistema para você poder dar uma Persona pro ser pra resposta dele só que você tá vendo que essas respostas elas não estão exatamente perfeitas né um dos possíveis motivos que eu falei que ia mencionar anteriormente é aqui ó no canto superior direito você a gente tá usando o gem 1.

5 flash que é o modelo mais atual mais recente lançado pela Google mas ele não é o mais poderoso ele é simplesmente o mais rápido então se você quiser usar o modelo mais poderoso realmente vai ser esse aqui o Gemini 1. 5 pro que você pode selecionar aqui também nesse abr lista do lado direito da tela então é uma coisa bem bacana que você vai ter essa opção né de você escolher qual modelo um mais rápido que não é tão poderoso assim ou esse aqui que é o 1. 5 pro que é super poderoso mas tem outra coisa que eu quero mostrar para vocês que é muito legal é muito impressionante na verdade que é o poder de multimodalidade do Gemini principalmente desse Gemini 1.

5 pro então aqui a gente vai poder colocar outras coisas não apenas textos né não apenas uma conversa mas você vai poder colocar outros tipos de mídia para ele falar com você então além de texto que é o mais normal que a gente já viu em muitos desses modelos de linguagem você vai conseguir mandar também outros tipos de mídia como imagens e áudios vídeos e também arquivos de PDF enfim arquivos em geral né de Excel por exemplo de csv é uma coisa bem interessante Então vou mostrar um exemplo de cada um deles primeira ente eu vou mandar uma imagem aqui para ele então eu tenho uma foto minha bem antiga vocês podem ver que eu tirei na Itália na cidade de Veneza e eu vou perguntar para ele o que que tem nessa foto você vai ter que ir primeiramente nesse botão aqui de mais no canto inferior aqui meio Central centro pra direita do lado do botão Drm Quando você clicar aqui é possível que você não tenha essas mesmas opções que eu vai ter uma aqui para você conectar o seu drive o seu Google Drve para ele né allow access to Drve ou alguma coisa nesse sentido para você permitir que ele acesse o seu Google Drve depois que você D essa permissão você vai poder clicar novamente nesse sinal de mais e vir nessa opção aqui upload to drive que é para você fazer um upload pro seu Google Drve Então você clicando Aqui você clica em browse para você subir alguma coisa e vamos aqui na minha foto que o nome dela essa IMG alguma coisa aqui ele sobe rapidinho e enquanto ele Sobe aqui ó você já pode até no Type something ó já subiu Descreva o que há nesta imagem e vamos dar um Run vamos ver o que que ele vai fazer que que ele vai falar pra gente ó tá rodando 3 segundos a foto de um homem parado na frente da Basílica de São Marcos em Veneza na Itália então ele reconheceu o homem está em primeiro plano sorrindo e olhando pra câmera ele está vestindo uma camisa cinza tem cabelos escuros e curtos óculos de sol pendurado na camisa realmente tá aqui como vocês podem ver eh atrás dele está a praça de São Marcos lotada de pessoas blá blá blá Ele explica o que que é a basileira com São Marcos então bem bacana né já deu para ver como ele lida muito bem com imagens né com fotos Vamos criar um novo prompt novamente aqui no canto superior esquerdo da tela agora eu vou mandar uma outra coisa lembra como para como faz para mandar no maizinho aqui embaixo upload to drive clic em browse E aí você sobe o que você quiser eu vou subir um áudio um áudio que eu gravei aqui especialmente para vocês que o editor vai colocar agora e aí galera tô gravando aqui esse áudio para vocês nessa nossa web série de A aqui no canal da alura a gente vai falar bastante sobre o Google Jini sobre inteligência artificial também sobre festinha de criança e sobre tudo que o machine learning te propõe Então bora lá para esse vídeo ouviram Então vamos ver aqui ó escute o áudio e encontre a expressão que não tem a ver com o resto do contexto vocês já sabem qual é né aí em casa vamos dar um Ram e ver o que vai acontecer aqui a expressão que não tem a ver com texto é festinha de criança realmente eu tava falando de machine learning de Inteligência Artificial deem E aí do nada eu meti um festinha de criança ele con conseguiu não só ouvir né entender o áudio mas também reconhecer que isso daqui tava fora de contexto e se você quiser você pode falar agora transcreva o áudio completo E aí você dá um Run E aí ele vai fazer isso para você ó em poucos segundos e aí galera tô gravando aqui esse áudio para vocês blá blá blá que é exatamente o que eu falei no áudio bacana né Essa foi a parte de áudio agora vou mostrar para vocês a parte de documentos eu vou criar um novo como sempre aqui e eu fiz um documento que quem fez a imersão de a já viu também a gente usou lá que é um guia de notas dos episódios de Lost lá do IMDB aquele site de filmes cada episódio ó Episódio é primeira temporada Episódio um primeira temporada episódio 2 Essa foi a nota Essa foi a nota blá blá blá e aqui tem o rank dos top 23 episódios segundo MDB naquela época rank por temporadas é basicamente isso que tem nesse documento aqui para seis temporadas de Lost então eu vou como sempre né clicar no maizinho upload to drive e aí eu vou subir esse arquivo para ele aqui que tá Lost tabela de episódios E aí eu vou pedir para ele e analise e me diga o que tem neste documento PDF pedou Run aqui ele começa a rodar e ó em pouquinhos segundos 2 segundos ele já começa a falar ó na é um esse esse documento PDF é um guia de notas e episódios da série Lost baseados nos ranks do MDB fala o que tem na página um O que tem na página dois o que tem na página TRS o documento foi elaborado por Fabrício Carraro que eu coloquei aqui ó por Fabrício Carraro então bem legal e você também pode falar mais coisas então por exemplo é me diga quais foram os cinco Episódios com maior nota e dou Run ele vai lá fazer a análise dele de acordo aco com o documento são 322 9. 6 405 9. 5 aqui ó 322 9.

6 405 9. 5 então ele conseguiu também analisar essa parte aqui desse documento bem interessante agora eu quero mostrar também a parte de vídeo para vocês então vamos criar um novo prompt aqui no chat prompt Você vai no mais upload to drive e eu tenho um vídeo aqui que foi exatamente um dos últimos vídeos da nossa web série de Mas como ele é bem grande vocês estão vendo aqui ó quase 900 Meg eu vou pedir pro editor cortar aqui rapidinho até isso aqui tá carregado para vocês bom agora que o vídeo tá carregado vocês podem ver eu vou aproveitar para explicar uma coisa vocês podem ver aqui embaixo esse 4348 31 tokens e aqui do lado direito também tem o token count né mostrando Exatamente esse valor e aqui o limite máximo né que é 1 milhão e alguma coisa de tokens um quando a gente tá falando de texto ele é meio que uma subp palavra então eu tento explicar sempre imagina que a gente tem a palavra infeliz isso geralmente poderia ser dividido em dois tokens o token in que ele é usado em outras palavras também como indivisível e o token feliz que pode ser usado sozinho também né então eles geralmente fazem esse processo que é chamado de tokenização que é dividir palavras em partes em partes menores né sub Palavras só que isso também tem sido usado para áudio para vídeo e aqui ó a gente pode ver que esse vídeo teve 24 minutos e meio e deu Aqui ó quase metade do 1 milhão ou seja esse modelo aqui o Gini 1. 5 pro atualmente que ele tá com esse limite de 1 Milhão ele consegue analisar vídeos de até uns 50 minutos né que é o dobro um pouquinho mais 55 1 hora algo em torno disso e esse vídeo que eu mandei como Eu mencionei ele é um vídeo que eu gravei pra websérie de a aqui do canal da lura mas esse é o bruto ele é o vídeo antes de ser editado Então vou pedir para ele assista então a gente pode até antropomorfizar o modela um pouquinho esse vídeo e me diga de que ele trata Vamos dar um Run aqui talvez ele demore um pouquinho mais para analisar porque ó lá antes a gente estava fazendo Em 2 segundos esse daqui são 24 minutos de vídeo né então é bastante coisa então eu vou pedir pro editor cortar aqui até quando a análise tiver pronta e olha voltando aqui ó ele já conseguiu analisar depois de 44 segundos mais ou menos o vídeo trata de como construir um chatbot que se comunique com a api do Gemini Era exatamente disso que se tratava esse vídeo link dele tá aqui na descrição você pode assistir Se você ainda não assistiu também o modelo mais poderoso do Google ele te ensina passo a passo como instalar o pacote do Jini importar o código obter a sua IPI aqui no Google a Studio que você pode obter aqui nesse canto superior esquerdo o apresentador Fabrício Carraro também destaca a importância de manter a segurança da sua iq o episódio é um oferecimento da EA com FRS brasil24 que acontecerá em São Paulo no dia 21 de agosto então ele pegou várias coisas conseguiu analisar o vídeo né a parte visual conseguiu analisar também a parte do áudio né O que tá sendo falado então é uma ferramenta poderosíssima que você consegue usar tanto assim né nesse chat mandando uma coisa e recebendo Mas você também consegue por exemplo fazer um chatbot né mandar e receber coisas que é uma coisa extremamente útil né pro seu trabalho pra sua empresa ou talvez até pro seu projeto pessoal e uma última coisa que eu vou mostrar nesse Episódio de hoje para vocês é a galeria de prompts Na verdade eu quero mostrar uma outra coisa que é aqui ó quando a gente cria um novo prompt vocês devem ter notado que a gente tem o chat prompt que é o que a gente estava usando e a gente tem essa outra opção de structured prompt que é um prompt estruturado quando você clica nele ele dá coisas diferentes né então ó input output em vez de escrever aqui na mão eu vou fazer uma outra coisa vou mostrar aqui do lado esquerdo tem essa prompt Gallery do Google eu vou abrir ela para vocês verem e aqui tem várias opções uma galeria de prompts que o pessoal do Google colocou para você ver como usar melhor o Gini né O Google é a Studio na verdade e eu vou escolher esse daqui que eu já vi anteriormente que é list items from image listar os itens de uma imagem e aqui ó ele tá exatamente nesse structur prompt Ou seja a gente tem um input do lado esquerdo que é uma image uma imagem e a gente tem aqui Um output que é uma saída que você pode colocar né então ó nesse input aqui ó tem é uma telinha tem um teclado tem uma torre afel tem um mundo tem um carro de um super um mini carro de supermercado um café um mouse várias coisas óculos escuros passaporte um aviãozinho e é que você mesmo poderia do lado direito que é o output Ou seja é o que você quer obter dessa imagem o que você quer que ele faça para você então aqui vamos supor que o que eu quero é simplesmente listar o que tem aqui então Ó tem um Airplane né que é um avião em inglês tem um coffee Cup que é um um copo de café uma xícara de café tem uma torre EA tem um globo então ele vai entender ah o que o Fabrício quer é que o Liste o que tem os itens que tem nessa imagem usando essa aqui esses Bullet points né esses tracinhos para listar todos os itens isso aqui tá em inglês só que vamos dar um CRL C nisso daqui jogar lá no no Google Translate e jogar pro português então eu vou colocar tudo pro português vou substituir isso que tá aqui olha ele tinha uma outra opção aqui também ó vou até tirar o zoom para vocês verem melhor ó tinha essa e tinha essa aqui ó que tem um um b um balde né um um regador Na verdade uma planta uma luva e aqui mesma coisa né tem as coisas em inglês eu vou traduzir tudo isso aqui pro português então o que você tá fazendo aqui é dar você tá dando dois exemplos estruturados de o que você quer que ele faça então ó para essa imagem eu quero que você a resposta esperada é essa para essa imagem do regador a a resposta esperada é essa Agora eu vou te dar uma nova imagem que aqui vocês podem ver talz vez dando um zoom maior tem uns vegetais eu não tô conseguindo ver ela aqui muito bem mas tem uns vegetais aqui né Tem uma Um Repolho um brócoli um pimentão uma cebola o editor aí vai dar um zoom melhor para vocês mas simplesmente aqui ó na saída não tem nada então Aqui foram os exemplos estruturados que eu dei para ele e aí quando você vier aqui e der ou um Run logo aqui aqui do lado né nessa parte do output na saída ou um Run aqui embaixo ele vai gerar a saída né que é o output então gerando aqui o que que ele vai fazer se a gente só tava listando os itens aqui em cima aqui embaixo ele vai fazer exatamente a mesma coisa ó brócolos acho que é português de Portugal cve cenoura cebola pimento cve flor então ele fez exatamente isso ele listou as coisas visíveis aqui e você pode ver que ele tá usando o Gemini 1.

0 pro Vision não é 1. 5 é o 1.