Como Consultar Arquivos, Documentos e PDFs com I.A. Usando RAG

3.45k views3096 WordsCopy TextShare
Inteligência Mil Grau
Aprenda Inteligência Artificial! Seja Membro do canal: https://www.youtube.com/@inteligenciamilgrau...
Video Transcript:
hoje nós vamos falar de reg ou de haug que é uma forma de você trabalhar com a inteligência artificial para consultar documentos consultar PDF consultar TXT e ela economizar dinheiro nessa forma que ela pesquisa é diferente de você enviar um texto direto no prompt vamos entender como é que esse negócio funciona e ver como é que faz pra gente implementar isso então é isso aí vamos lá pessoal Sempre agradecendo todo mundo que deixou seu like todo mundo que se inscreveu agradecimentos especiais aos membros do canal que são os patrocinadores oficiais aqui do canal Então aquela velha e Boa pergunta eu faço ajuste fino eu faço reg Eu faço engenharia de prompt hoje o nosso vídeo é sobre hag Mas que que é o hag qual que é a diferença dele pro F taning Qual que é a diferença dele para engenharia de promp no hag basicamente assim ó você vai ter uma pergunta você vai ter um texto que você vai enviar PR llm sei lá tem um texto aqui qual é a capital do Brasil esse texto você vai codificar ele num negócio que a gente chama de embeddings a gente vai falar dele bastante hoje esse texto vai ser codificado em embeddings e você vai ter um documento e você vai pegar esse documento inteiro você vai quebrar ele em várias partes e cada parte desse cara aqui você vai ter um embedding vai ter um embedding para esse vai ter um embedding para cada trechinho desse esse embedding aqui vai comparar com esse embedding aqui E se eles forem semelhantes esse texto aqui vai ser enviado pro nosso chat como parte da pergunta que vai ser da onde ele vai tirar o conteúdo para fazer a resposta eu vou mostrar isso aqui na prática f itan o que que é fine tan eu tenho o meu modelo eu tenho a minha llm aqui e quando eu vou fazer um ajuste fino quando eu vou fazer uma melhoria quando eu fazer um treinamento tem várias técnicas possíveis algumas técnicas vão treinar um pedacinho vai pegar um pedacinho desse llm aqui vai fazer um treinamento outras técnicas Vão colocar um pedacinho a mais aqui vai fazer um treinamento nesse pedacinho a mais é uma coisa que mexe na estrutura de llm aqui não mexe mas mexe nesse embedding que tem a ver e na engia de PR é o mais simples não tem que mexer com documento não tem que mexer com llm nem nada você simplesmente passa uma instrução só isso você explica como você quer que o seu chat se comporte o a gente vai falar de hag Então vamos lá mão na massa então primeira coisa estamos no nosso vs code nós vamos mexer com python hoje imagina o seguinte eu tenho um texto vou pegar aqui ó Claudio texto corrigido Essa é a transcrição do vídeo do lama 3. 1 do meu canal eu começo lá é isso aí pessoal a meta acabou de liberar modelo lama 3. 1 E aí vai tem todo o texto tem toda a transcrição do vídeo tem toda a história tudo que foi falado no sei o que lá e tudo mais eu ia selecionar esse texto aqui eu ia dar um cont Crol C cont CRL V viria aqui no chat CPT ea colocar esse texto aqui e fazer uma pergunta sobre esse texto ia mandar esse textão aqui que que vai acontecer todo Isso aqui vai entrar pro meu contexto toda essa informação aqui vai gastar meus tokens toda essa informação vai gastar meus tokens só que presta atenção imagina o seguinte se eu fosse usar api do GPT 4 for eu ia gastar 5 por milhão de tokens certo se eu fizesse no for mini eu ia gastar 15 centavos por milhão de tokens certo certo estamos falando da entrada né do input se eu fizer no embeddings no embeddings eu vou gastar 0.
02 centavos por por milhão de tokens ou seja o embeddings é muito mais barato mas muito mais barato mesmo não é pouco tem essas três versões aqui do small do large e do V2 como vocês podem ver ó o lar já é 013 o 013 começa a bater aqui junto com o mini na entrada então entre usar o GPT for0 e o large talvez não faça tanta diferença bom mas afinal então o que que a gente vai fazer bom a gente vai fazer o seguinte a primeira coisa que a gente tem que entender é que a gente vai ter que separar esse cara que a gente chama em chunks imagina que eu peguei esse texto aqui ó e eu vou separar el em partes de 1000 caracteres tá tudo no código aqui bem certinho eu vou carregar aqui o meu Lhama 31 corrigido Cloud e o tamanho do meu texto vai ser de 1000 caracteres e eu vou colocar como separador aqui simplesmente um ponto isso é uma coisa importante quando ele completar 1000 caracteres O Último Ponto vai ser o ponto que ele vai parar se por acaso não tiver nenhum ponto quando tiver os 1000 caracteres ele vai continuar buscando até encontrar um ponto para mais de 1000 caracteres E aí ele vai imprimir aqui o que que aconteceu vamos ver o que que ele vai fazer aqui ó como vocês podem ver ele criou aqui o um fez 1000 caracteres e ele já faz o meta dado aqui que eu coloquei aqui ó met dado nome do arquivo coloquei o file name então ele vai dizer assim ó esse aqui é o Chunk número um é esse texto que vem até aqui que por acaso deu bem certinho aqui então vamos lá e ele falou o nome do arquivo é esse se tivesse mais um arquivo ele ia indicando arquivo por arquivo o que que tá acontecendo no Chunk número do o texto todo foi esse o texto acabou aqui o nome do arquivo é esse e assim por diante Chunk número TR Chunk número 4 Vocês entenderam Então vamos supor que eu tivesse colocado aqui ó menos se eu tivesse colocado aqui ó sem caracteres que que vocês acham que acontecer ao invés de 17 chunks vai dar mais ó deu 147 chunks com bem menos texto né ao invés de 1000 tem só apenas 100 caracteres e aquilo que eu falei para vocês se chegar aqui ó nos 100 caracteres ele não encontrar um ponto ele continua pegando o texto até encontrar um ponto isso é interessante porque daí Pode ser que o Chunk seja um pouquinho maior Mas por que que afinal esse negócio de embedding funciona funciona pelo seguinte gente presta atenção imagina que você tem uma casa imagina que essa casa tem dois quartos ela tem dois banheiros e uma garagem Imagina isso agora imagina que você tem uma outra casa que é um pouquinho maior essa aqui tem três quartos dois banheiros e duas garagens certo mas agora imagina que você tem uma casa muito maior mas muito maior mesmo e essa casa tem 10 quartos oito banheiros e oito garagens vocês concordam comigo que esses números aqui ó eu consigo comparar esses valores aqui e falar que baseado nesses valores essas casas aqui são mais semelhantes do que essa se eu subtrair aqui ó tem apenas um quarto de diferença esse aqui tem sete quartos esse aqui tem seis banheiros de diferença esse aqui não tem nenhum be de diferença essa aqui tem uma garagem de diferença essa aqui tem seis garagens de diferença e é dessa forma que os embeddings funcionam os embeddings são produzidos a partir dos tokens por padrão o embed o small tem 1536 e o grande tem 372 Ou seja a comparação a similaridade do grande é melhor porém não é tão melhor quando eles fazem a comparação das performances a performance do SM é de 62% a do large é de 64 não é tanto assim e esse do ada que é o mais antigo só que esse AD é bem mais caro ele é 61 é um pouquinho só mais abaixo então o small pro large não tem tanta diferença no final das contas vocês vão ter que testar isso agora que a gente Entendeu como separadores funciona a gente tem que vir pro hag nesse meu caso aqui eu tentei usar o GPT for All embeddings e deu erro então parei de usar e eu comecei a usar o open embeddings normal e o que que muda para mim a gente vai fazer o Splitter normal a gente vai fazer a separação do texto normal vai fazer a separação Ok do jeito que a gente estava fazendo com a diferença que agora a gente vai criar um vetor aqui essa Vector Store aqui que a gente vai passar todo o texto que foi cortado junto com o embedding da Open ai ou seja ele vai fazer aquele vetor para nós e a gente pode já fazer algumas perguntas essa pergunta vai mandar para essa Vector Store e ele vai fazer uma busca por similaridade com o score no k = 4 ou seja nos quatro melhores scores e ele vai mandar essa questão e vai printar pra gente qual foi o resultado uma outra coisa que vale falar é esse percentual de overlap aqui que eu tô colocando 02 que significa 20% esse percentual de overlap ele tem a ver pelo seguinte imagina que você tem um texto inteiro aqui e que você vai começar a cortar ele ele para fazer buscas mas imagina que esse texto aqui tem um pedacinho dele que tem a ver com a parte de baixo e que desse texto tem um pedacinho dele que tem a ver com a parte de baixo isso significa que você pode fazer um recorte do texto que o texto de baixo pega um pouquinho do texto de cima essa parte que é um pouco do texto de baixo com o texto de cima a gente chama de overlap eu coloquei aqui como 0,2 porque aqui ó quando eu pego o tamanho do meu Chunk eu multiplico pelo total do overlap ou seja se eu colocar Se eu colocar 10 aqui vai ser dois se eu colocar 1000 aqui vai ser 200 e por aí vai para já automatizar um percentual fixo uma coisa importante que eu tô usando esse chroma esse chroma é um banco de dados local Ou seja eu vou até o meu É como se eu tivesse um banco de dados que tem a minha listinha de embeddings aqui dos dos textos que foram convertidos e aqui tem o texto que ele tá fazendo referência esse chroma poderia ser um pinecone por exemplo que seria um banco de dados online e não estaria no computador aqui como vocês podem ver ó ó o chroma aqui ó ó o chroma aqui dentro significa que tá tudo rodando localmente nesse exemplo aqui eu não tô salvando mas no próximo exemplo eu vou salvar então tô aqui no lama 31 Vamos colocar um Chunk de 1000 e vamos e vamos fazer uma busca por similaridade vamos ver o que que vai acontecer quantos parâmetros tem o maior modelo do liama 3. 1 nesse caso aqui Apesar dele ter escrito que ele poderia encontrar quatro resultados ele só encontrou um resultado e já tá claro que aqui no começo Ó tem assim ó código aberto com 45 bilhões de parâmetros aqui no meio desse testão ele vai falar que tem o que tem o 405 tem o 70 e tem o 8b e ele vai me dizer que essa similaridade aqui tem um erro de 031 e é basicamente assim que a gente vê Vamos fazer um teste aqui ó com esse de perguntas e respostas que é um pouquinho mais curto ó o de perguntas e respostas é curto e grosso e eu fiz aqui ó com o de perguntas e respostas e eu coloquei o asterisco triplo entre as perguntas então se eu mudar aqui para cá ó vou colocar só 10 vou mudar o arquivo aqui pro arquivo de perguntas e respostas e agora vou falar assim quantos parâmetros tem maior modelo do lama vai dar a mesma coisa hein Olha só como ficou diferente ó ele fez toda aqui a separação ficou bem menor porque eu diminui aqui pro meu Chunk size para 10 então ele fez um perguntas e respostas bem mais curtas para cada pergunta tinha um Chunk o meu separador ficou com asterisco triplo e aqui ó ele achou quatro resultados cada resultado ó esse aqui tinha 0,1 de erro esse tinha 0,24 de erro 0,24 de erro e 0,26 de erro e aí como a minha pergunta Era exatamente a pergunta do texto ó quantos parâmetros tem o maior modelo do lama 3. 1 e tá aqui ó quantos parâmetros tem o maior modelo do lema 3.
Related Videos
Personalizando o Llama 3.1 Grátis com Seus Próprios Dados Fazendo um Fine Tunning
23:17
Personalizando o Llama 3.1 Grátis com Seus...
Inteligência Mil Grau
4,734 views
SGC21- Oskar Stålberg - Beyond Townscapers
52:01
SGC21- Oskar Stålberg - Beyond Townscapers
Sweden Game Arena
31,631 views
Novidades da Meta do Zuckerberg Surpreendem Com Modelo De Visão Extraordinário | Agora vai!
9:42
Novidades da Meta do Zuckerberg Surpreende...
Inteligência Mil Grau
1,165 views
Fazendo um Sistema de Agentes com I.A do Zero Sem CrewAI
11:12
Fazendo um Sistema de Agentes com I.A do Z...
Inteligência Mil Grau
2,445 views
Marker: This Open-Source Tool will make your PDFs LLM Ready
14:11
Marker: This Open-Source Tool will make yo...
Prompt Engineering
48,153 views
COMO USAR O GEMINI NO PLANILHAS GOOGLE: Otimize a sua Análise de Dados com IA
6:55
COMO USAR O GEMINI NO PLANILHAS GOOGLE: Ot...
Antonio Bennati - The BI Lab
9,508 views
Aprenda 10X Mais Rápido com a IA da Google! 🤯
16:16
Aprenda 10X Mais Rápido com a IA da Google...
Sancler Miranda | IA Revolution
10,002 views
Como Fazer a IA Trabalhar Pra Você com CrewAI
13:56
Como Fazer a IA Trabalhar Pra Você com CrewAI
Inteligência Mil Grau
3,374 views
Qual A Melhor Inteligência Artificial? ChatGPT? Claude? Llama? Gemini?
10:29
Qual A Melhor Inteligência Artificial? Cha...
Inteligência Mil Grau
1,683 views
GEMINI da Google com AI Studio | Melhor Ferramenta de IA
8:26
GEMINI da Google com AI Studio | Melhor Fe...
Inteligência Mil Grau
6,632 views
Extraindo dados de Arquivos PDF com Python
31:03
Extraindo dados de Arquivos PDF com Python
PyAjudeMe
13,267 views
Como Programar com I.A. Sem Saber Programar E Fazer Programas Incríveis
12:47
Como Programar com I.A. Sem Saber Programa...
Inteligência Mil Grau
1,511 views
Introducing Lindy 2.0 - The FIRST True AI-First Automation Platform
27:17
Introducing Lindy 2.0 - The FIRST True AI-...
MattVidPro AI
37,065 views
NOVA INTELIGÊNCIA ARTIFICIAL pra criar VÍDEOS e FILMES Realista (Grátis) LUMA DREAM Melhor que SORA!
13:19
NOVA INTELIGÊNCIA ARTIFICIAL pra criar VÍD...
MidArt A.I
78,979 views
Depois de 20 Anos Criando Software
23:49
Depois de 20 Anos Criando Software
Lucas Montano
51,901 views
Como CRIAR AGENTES de IA com CrewAI - com ANIMAÇÕES!
22:29
Como CRIAR AGENTES de IA com CrewAI - com ...
CANAL SANDECO
25,318 views
Llama 3 8B: BIG Step for Local AI Agents! - Full Tutorial (Build Your Own Tools)
17:32
Llama 3 8B: BIG Step for Local AI Agents! ...
All About AI
59,106 views
Melhores Agentes Inteligentes Com Interface Gráfica Grátis com GPT-4o mini mandando ver
9:19
Melhores Agentes Inteligentes Com Interfac...
Inteligência Mil Grau
1,983 views
Conheça o Anything LLM a ferramenta que te permite treinar sua IA em ambiente local
23:57
Conheça o Anything LLM a ferramenta que te...
dcode
8,713 views
O PRIMEIRO BILIONÁRIO BRASILEIRO DA INTELIGÊNCIA ARTIFICIAL
12:47
O PRIMEIRO BILIONÁRIO BRASILEIRO DA INTELI...
Conhecimento Disruptivo
17,228 views
Copyright © 2024. Made with ♥ in London by YTScribe.com