🚀 Aprenda Web Scraping com IA e LLM's 🤖

0 views5271 WordsCopy TextShare
Eduardo | Ciência dos Dados
Neste vídeo, vou te mostrar como realizar web scraping de maneira eficiente utilizando IA e LLM's (M...
Video Transcript:
Opa beleza uma honra ter você aqui em mais um tutorial de Inteligência Artificial utilizando aquilo que há de mais novo no mundo da aplicação web olha só que interessante nós vamos desenvolver hoje um tutorial onde a gente vai fazer um web scrapping utilizando o poder das inteligências artificiais com llms Tranquilo então já iniciando esse nosso bate-papo mostrando para você aqui a interface do nosso software onde a gente vai ah escolher um site né E é claro a gente vai escolher esse site com muito cuidado e eu já vou explicar o por nós vamos escolher o site para que a gente busque informações que são importantes Ah para um contexto específico Então imagina aí nós estaremos Ah num contexto onde buscaremos numa Startup Ah um grande repositório de aplicações que são desenvolvidas e esse Hub de startups ele tem uma série de links que encaminha a gente para soluções de Saas soluções de I com vídeo solução de I com chatbots solução de várias coisas E aí o nosso grande objetivo é encontrar o conteúdo que a gente tá querendo fazer o scrapping e não ficar caminhando no site para que a gente ah verifique linha a linha Então nós vamos utilizar a potência do llm né do modelo de ia para que ele varra o conteúdo da página e encontre ali de forma pontual e traga pra gente o conteúdo que a gente tá procurando surreal ou não então beleza se você tá empolgado aí pra gente fazer essa aplicação Ah fica comigo aí até o final do vídeo que essa aplicação depois eu vou disponibilizar eh gratuitamente lá no nosso no nosso Hub aí de de de projetos no nosso telegram tá bom ah antes de mais nada eu queria fazer um convite para você nós vamos realizar um treinamento gratuito chamado ai Experience nesse treinamento a gente vai desenvolver aplicações profissionais de ia que navegam na web então nós vamos criar agentes autônomos que vão navegar na web e Construir ali um um p de conhecimento Ah para resolver um problema de negócio específico é um treinamento gratuito onde eu vou mostrar para você ali tudo que um Expert ia pode desenvolver para as empresas Ah uma stack bem completa com python Crew ai L chain aquilo que há de mais aquilo que há de mais novo na ia eu trago aqui para vocês inclusive esse tutorial que eu vou mostrar para você aqui é uma das formas de eu buscar conteúdo que eu sei que pode ajudar aí você no seu a desenvolvimento aí da sua formação ah como um expert em a como entusiasta né né como um um profissional que tá querendo crescer nessa área e esse tutorial ele vai mostrar um pouco de como que eu acho essas aplicações né porque o meu grande objetivo é encontrar uma excelente aplicação e compartilhar Ah aqui com você com os meus alunos então assim meu grande objetivo é além de fazer isso mostrar como que eu faço tamos junto Beleza então vamos lá se inscreve basta entrar aqui no site essa página coloca aqui o seu e-mail o seu WhatsApp para que eu você receba os scripts e aqui fala o conteúdo né do que a gente do que vai ter no ai Experience né a gente vai aprender a como criar agentes com frameworks como crio ai a a gente vai trabalhar com o processo de criação de Agentes navegando na web por meio de algumas apis a gente vai trabalhar com llms que é um dos que você vai trabalhar nesse Case hoje e no final eu vou mostrar para você um Framework completo um passo a passo para você eh explicando por onde começar Como que você pode utilizar o Machine e Deep learning para customizar esses llms para os negócios das empresas porque isso é muito bom usar o chat GPT é massa o cloud só que há mais valor quando você entende como construir e desenvolver os próprios llms tunados ali com os dados das empresas Inclusive eu vi a o openi dev se eu não me engano o open ai Dev Day e uma das coisas que foi muito compartilhado foi o fato de das pessoas não somente utilizarem as apis mas customizarem as apis de acordo com os dados e as necessidades específicas das empresas E é isso que você vai aprender aqui nessa nesse passo a passo aqui da aula 4ro bem sucinto um treinamento tora gratuito ah onde a gente vai compartilhar de forma gratuita todo o conhecimento e após esse treinamento eu vou abrir vaga paraa formação ai Expert tá bom que é a nova formação da ciência dos dados em EA tamos junto Beleza então Simbora bora para cima porque o conteúdo ele tá muito doido aqui hoje beleza então vamos lá primeira coisa que a gente vai fazer é ah eu vou mostrar aqui nós estamos usando visual code para desenvolver essa parada nós temos aqui ah os requirements que são necessários para fazer essa aplicação ah a gente já vai fazer um teste na aplicação vou fazer o teste depois eu vou mostrar a codificação nós vamos trabalhar com uma uma utilização de llms que são proprietárias hoje nós vamos usar aqui o o GPT 4 Omni Mas também eu quero trazer uma forma de você trabalhar com llms que são ah locais né então eu vou deixar aqui para você é uma forma de você setar o o prompt e utilizar o olama que é uma forma onde a gente utiliza ali uma gama imensa de llms compartilhados entre eles o lama 3 que é do da da meta e por aí vai que são tudo Open tudo aberto e compartilhado beleza Ah nós vamos trabalhar com o scrapping da Open Ai Eu Fiz alguns ajustes aqui que eu vou compartilhar todos os ajustes com você mas agora eu quero mostrar você a nossa aplicação O que que a gente vai fazer Beleza então Ótimo vamos lá nós temos aqui um site bem interessante chamado Y combinator esses caras eles são ah praticamente o um Hub ah daquilo que tá acontecendo no Vale do Silício lá na Califórnia que é o maior pull de startups aí no mundo tá bom é o maior pull de startups no mundo então essa galera aqui se reuniu para compartilhar para ser um Hub de inovação e muitas empresas elas eh eh participam de treinamentos né Na época que eu trabalhava no Banco do Brasil não tive a oportunidade de ir mas tive colegas que foram passaram meses lá aprendendo como que esse Como que essa galera Pensa como que essa galera Trabalha e compartilha o conteúdo para trazer inovação pro Banco do Brasil e assim as empresas fazem no mundo inteiro Tá bom vamos lá pra Califórnia E aí nós vamos trabalhar em cima desses caras né porque eles compartilham na web também as coisas que vão acontecendo né então o y combinate e eles dão as startups uma vantagem desproporcional né olha só uma Eles já financiaram 5. 000 Startup taps já tiveram aqui uma avaliação combinada de quase 1 trilhão de Dólares M 600 bilhões é grandes empresas passaram por lá como openi Ah olha só o tanto né stripe uma das maiores credenciadoras aí de de de de e pagamento no mundo né rbnb brex muito conhecido twit webflow reser pay que é de pagamento também cara tem mu Zap só a empresa tora aqui e que foi aí participou aqui da da aceleração né então aqui esse site ele realmente tem muitas coisas Ah E aí uma das coisas que que essa galera tem aqui é um blog onde eles compartilham a a as coisas que estão acontecendo né então esse blog deles que é aqui o o o show né o y é o News Y combinat pcom barow Vou deixar na descrição também pode ficar tranquilo e cara isso aqui é é eles eles mostram praticamente aqui o que que cada empresa ali o que que cada eh participante do mercado está desenvolvendo né então aqui eh a gente tem aqui uma cacetada de soluções de a de Ah enfim desenvolvimento web que estão acontecendo no mundo real aqui eh no Vale do Silício então uma das coisas mais interessantes é que a gente vai poder utilizar né o esse blog para navegar em cada uma dessas sessões aqui ó eu tenho uma duas três eu tenho aqui ah muitas páginas tá bom muitas páginas e é um blog Então tá acontecendo aqui ó H 20 horas atrás se você olhar aqui ó há 20 horas atrás eles mostram aqui por exemplo ó 70. 000 n livros gratuitos tem muitas coisas tá bom tem muitas coisas nem tudo é é é uma notícia excep ial é uma grande ideia de ia mas daqui eu já tirei cara Vários projetos compartilhados e que são assim excepcionais tá bom ah bibliotecas novas de Python enfim Aqui tem de tudo tá bom ó aqui eu já encontrei alguma coisa do dia um novo jogo por dia gerado com ia ó Isso aqui já já já chama a atenção assistente de pesquisa de ia para cientista da Computação achei interessante eh eh converse com qualquer página da web no Chrome usando ia ó tá vendo uma coisa mais mais interessante aqui parecido com o que a gente vai fazer né então depois eu vou até pesquisar isso aqui pesquisa de voo com tecnologia de ia cara aqui tem de tudo então nossa missão vai ser nós precisamos encontrar fazer um scrapping dessa página de forma que a gente encontre o conteúdo Ah que a gente queira já de antemão a gente vai escolher uma uma pesquisa aqui qualquer E aí depois a gente vai fazer a o scrap de forma que a gente eh mostre ali no prompt o que a gente quer encontrar e a gente quer que o nosso scrapping seja um scrap que encontra aquilo que a gente tá procurando Então a gente vai olhar aqui antes para fazer a prova de conceito né escolher a notícia e depois a gente vai lá no scrapping para ver se ele traz exatamente aquilo que a gente tá procurando combinado Beleza então vamos lá ah voltando pra nossa aplicação a gente vai utilizar o open ai então você vai ter que usar sua chavinha da Open ai aí já deixei aqui pronto só para você colocar e dar o enter beleza e aqui eu escolhi poucos modelos coloquei dois aqui só para mostrar para você que você poderia criar um drop Down aqui com quantos modelos você quisesse inclusive os mais novos tá bom vai tá bem customizado aqui no código você vai ver que é só entrar no código e colocar aqui o o o modelo que você quer então coloquei aqui ó ah o GPT eu vou descer aqui rapidão só para você ó coloquei aqui na lista ó na lista GPT 3 5 e GPT 4 mas você pode colocar vírgula aqui e sair colocando todos os modelos que estão disponíveis tá bom E aí a gente vai trabalhar aqui com o GPT 4 deixei o três só pra gente fazer uma comparação para você ver o tanto que o llm mais avançado ele realmente traz melhores resultados beleza e aí a gente vai fazer a nossa aplicação Então a nossa aplicação vou pegar o site Tá bom então Ó vou pegar aqui ó o y combinator Vou tirar vou vou copiar só só a raiz aqui tá bom vamos lá paraa nossa aplicação vou colocar o site que eu quero fazer a aplicação E aí eu o que eu quero encontrar né então ah vamos vamos colocar aqui eu quero encontrar Vamos pesquisar exatamente aquilo que a gente aquilo que a gente quer né então Ó a tecla de atalha para economizar tempo ao trabalhar com llms para desenvolvimento de software então ó o que que eu vou colocar aqui llms tá bom llms llm para desenvolvimento de ah software software Beleza então ó vamos lá aí que que ele vai fazer ele vai fazer o scrapping a gente clica no botão ele vai fazer o scrapping no no na no site vai analisar Tá bom então ele vai analisar a notícia E aí entregar o link pra gente ele não vai só analisar ele vai entregar um link também você se você tiver usando Chrome você pode fazer a tradução ou pode pedir também para ele responder em português que funciona também tá bom eu fiz isso aqui porque é mais rápido mas tá tudo bem então ó Qual foi a análise que ele fez né Ó o título da página é do do hacker News a é a estrutura de dados fornecidos sugere que a página é uma lista de mensagens enviadas por usuários né ah pel com a tag show HN Então essas postagens geralmente destacam projetos criações de software que os usuários desejam compartilhar com a comunidade hacker News ah dado que você tá procurando llm para desenvolvimento de software provavelmente se refere a modelo de linguagem grande e aplicados no contexto de desenvolvimento de software podemos identificar postagens levantes na lista fornecida então ele trouxe aqui ó uma lista de duas então vamos lá ah ele trouxe aqui uma um tal de e lolit né uma análise de dados simples de código aberto com llm Interessante não não não vi essa parada inclusive ele mostra aqui ó publicada a 22 horas então já é uma coisa aqui a mais vou clicar no link aqui para depois a gente olhar ele deu o link do github Ah tá aqui a discussão então se você quiser olhar lá já tá o link aqui da discussão do L lyrics tá aqui ó a llm data driven data Analytics é L lyrics ah essa postagem menciona explicitamente um llm que parece ser a solução para análise de dados impulsionado por grandes modelos de linguagem esse projeto pode ser relevante para quem tá interessado em aplicações de llm no desenvolvimento de software especialmente no contexto de análise de dados isso me interessa Beleza então ótimo estrutura de orquestração para aplicações de ia e llm agentes então ó ele trouxe aqui ó ah essa postagem né ele ele trouxe até coisas a mais do que a gente do que a gente eh tava procurando né Mas vamos lá eh duas duas coisas aqui é orquestrações e Framework de Agentes de ia e llm aplicações de llm sugere foco para facilitar o uso de grande modelo e cenário de Inteligência Artificial complexo ah tal tal tal se o seu interesse é específico em código aberto tá aqui então Ó ele trouxe aqui ele contextualizou esses dois aqui não achou que a gente queria o que a gente queria tava numa outra página talvez pode ser por isso mas vamos lá ah eu vou tentar melhorar aqui ó e vou colocar aqui ó vou tentar colocar uma coisa mais direta você vê que ele não trouxe exatamente o que a gente queria porém ele trouxe conteúdos que o llm analisou e falou cara isso aqui pode te interessar né então eu acho isso aqui é muito tora vamos lá vou colocar agora para ver se ele vai achar exatamente o que a gente quer né na tecla de atalho para economizar ah tempo ao trabalhar com llms para desenvol de software Então agora ele vai rodar agora ele vai raspar eu vou ver se ele vai fazer a a paginação né vamos ver se ele vai fazer a paginação que a gente tá procurando né ele não encontrou né ele não encontrou a a aplicação que a gente estava querendo né ele não varreu a página Se eu colocar aqui ó na na próxima página então ó aqui tem a página dois aqui tem a página três eu vou mudar e vou colocar na página três que aí você não precisa olhar link é link mas talvez depois um avanço seja Exatamente isso né seja você colocar uma forma dele ir paginando até chegar na última página tem como fazer isso Eduardo tem também só que eu fiz uma coisa mais simples Beleza então ó agora a gente opa vou trocar aqui vou dar um Ctrl Z cont CRL Z eu vou colar aqui ó no no site que eu quero fazer o scrapping E aí sim agora ele vai encontrar de forma mais simples porque a gente já vai est ah orientando o llm para descer e fazer a varredura na página que a gente quer e aí é claro ele vai encontrar pra gente né então vamos lá título uma tecla de atalha para economizar tempo ao trabalhar Beleza então ele foi direto ao ponto ah já trouxe o link também eh trouxe aqui um o cara que é o autor né o wagen valoy o cara deve gostar de PCA foi postada há quatro dias atrás por isso que tava numa página mais para trás teve dois comentários Então beleza ótimo né que solução tora cara o que é mais fera é que você pode fazer alguma coisa mais genérica como a gente fez aqui agora né ó llm eu não quero dar mais nem contextos né então vou colocar llm ele vai raspar agora essa página aqui e vai trazer tudo que é de llm que está aqui na na parada né então ó ele trouxe aqui nessa página só tinha Exatamente esse né que é da tecla de atalho se eu voltar pra página raiz né E aí é claro a gente vai estar eh orientado a fazer o Web scrap na página que a gente né por ventura tenha programado aqui Você pode iterar de forma que a gente faça esse projeto como eu falei né isso pode ser o seu next level aí né fazer essa iteração eu tenho certeza que isso vai economizar zilhões de tempo aí no seu processamento Tá bom então olha só ele trouxe aqui a o l lyc né o llm eu coloquei llm puro e simples Ele trouxe aqui a mensagem do L lyc surreal né Então bora ver como é que foi o desenvolvimento dessa parada já te digo antes de Ah vou mostrar um pouco mais aqui ele mostra né os dados que foram analisados Então você veja que a gente colocou simplesmente o link né da página inicial e ele vai mostrar aqui pra gente a os metadados né eu pedi para ele dividir aqui os metadados então o que que ele mostrou aqui ele trouxe pra gente aqui a janela de visualização referenciador o contexto de metadados em si Então olha só a mensagem tá aqui nesse nesse metadados Ele trouxe o metadados completo Aqui tá o href Né que é o é o é o é o link da parada Ahã aqui estão os títulos aqui estão os parágrafos né É claro que ele só trouxe uma coisa então ah já está completamente eh abarcado aqui se porventura você fizer um um um um contexto Mais amplo ele traz ali Ah ele traz de forma até mais detalhada aqui esses dados que ele analisou então por exemplo ó eh eu vou colocar aqui ó quero que você encontre ah algo parecido com agentes de ia com llm Então vou dar um raspar e analisar E aí agora ele vai fazer o trabalho aqui vamos ver se ele encontra mais eu tô procurando ah eu tô procurando Ah ele trouxe só duas também mas enfim vai ter que perguntas que você vai fazer que ele vai trazer muito mais do que do que ah tá aqui ó eu achei ó as ligações aqui dentro ó então ele traz aqui um contexto bem amplo daquilo que ele fez o scrapping né daquilo que ele ele analisou então Ó aqui ele trouxe aqui na no zero ele trouxe aqui o newscom neat.
com que foi o raiz aí ele vai trazendo ali vários hrefs né os href de comentário mostrar o perguntar ou enviar e aí depois ele vai adentrando em a nas aplicações né então ele vai adentrando na no nos menus E aí cara você vai navegar você vai ver zilhões de menu que tá estruturada que depois você pode inclusive utilizar aí para fazer um sei lá um treinamento um ajuste fino no llm Ah para que depois você para que depois você eh alimente aí uma nova ia tá bom vou até olhar uma parada que ele achou aqui ó suas PDV deixa eu ver o que que é essa parada aqui que isso aqui me interessa ó Ah isso aqui é um simples rápido e veloz full stack é um kit nux 3 Full stack simples rápido e inteligente Ah tem aqui autenticação banco de Dad pagamento assinatura e-mail gerenciamento de armazenamento como funciona tá aqui um microbt um Saas né um Saas eh já vem tudo pronto né O cara já criou um Saas aqui praticamente pronto Ah para que você possa simplesmente implementar aí a sua solução carrega na Amazon no S3 enfim você vê que como é interessante isso aqui né um trabalho simples que você faz aqui dentro você já encontra um milhão de coisas para você ah trabalhar aí e desenvolver e criar aplicações de a tamos junto Beleza bora paraa codificação agora vou abrir o visual code vou falar primeiro do dos requirements né Então essa interface que você tá vendo aqui é o streamlit né Nós usamos ah praticamente o streamlit nós trabalhamos com a com o open ai eu vou dar um PIP list aqui só para você visualizar vou dar um cont CRL C agora para derrubar aqui a nossa aplicação porque eu quero eu quero fazer uma parada aqui só para para você visualizar Ah nós utilizamos nós estamos aqui no ambiente né o ambiente que eu criei né o ambiente virtual Ah eu vou dar um Python Python menos menos Version para você ver qual foi o Python que eu usei né eu utilizei o Python 3. 12 Tá bom 3. 12.
5 tô trabalhando em cima do do sistema operacional Windows tá bom a maioria a maior parte de vocês utilizam o Windows eu gosto muito do Linux também tá bom eu gosto de tudo do Mac também tudo isso é muito bom para trabalhar ah o Windows todo mundo usa então é mais fácil você compartilhar por isso que eu uso o Windows beleza e vou dar um PIP list só para você ver as aplicações ah as aplicações que já estão pré-instaladas aqui nesse ambiente porque à medida que você instala uma biblioteca ele vai instalando as dependências né E aí eu vou copiar esse PIP list aqui para que você na hora que você tiver na hora que você tiver fazendo aí refazendo essa aplicação se porventura faltar alguma coisa você acompanha aqui nessa nessa list aqui que eu vou colocar como e vou vou colocar aqui como um um um Hack de requirements 2 tá bom hack 2. txt vai no anexo também que eu vou compartilhar contigo lá beleza ah por por hora o que é mais importante tá aqui né O que é o o o raiz do nosso projeto é o scrap graph tá bom que vai permitir que a gente trabalhe aqui com o Web scrapping utilizando llms Tá bom se você for olhar aqui ó o scrap graph ai ele ele é um site né ele ele tá no no site aqui ó a o Web Cadê tá aqui ó não tá aqui ó scrap graph a ai beleza esse link aqui ó scrap graph ai vou abrir o site aqui ele vai mostrar para você o que que ele é vou colocar em português né então é um é um gráfico de raspagem por ia né extração de conteúdo de site e documentos locais utilizando llm Ah você vê que é uma parada bem nova né eles fizeram um site bem simples aqui já tiveram 1.
Copyright © 2024. Made with ♥ in London by YTScribe.com