Saia do zero em Webscraping no Python com Scrapy

107.08k views9036 WordsCopy TextShare
Hashtag Programação
CLIQUE AQUI PARA SABER MAIS SOBRE O CURSO COMPLETO PYTHON IMPRESSIONADOR: https://lp.hashtagtreiname...
Video Transcript:
e Fala galera beleza meu nome é Daniel candiotto que tô mais uma vez para falar com vocês sobre Python e hoje a gente vai falar sobre o Hélio scraping web Scraper que é um esses temos que pessoal mais fala quando fala de Python que é basicamente o que você perdeu uma espécie de sanguessuga em algum site que você vai conseguir coletar aquelas informações de forma automática tá sem várias aplicações no mercado de trabalho e se por acaso você não sabe com ela escape fica no vídeo até o final que você vai descobrir um pouquinho vai
tentar Facundo você podia usar isso no dia a dia podia usar esse meu trabalho se por acaso você conhece o Edson aí vem mas você não conhece o escape que a gente vai usar aqui nesse vídeo fica porque você vai aprender sobre isso se por acaso você já conhece webscreping e não conhece e conhece o escape E você acha que já sabe tudo fica o vídeo até o final também só para você ter certeza que você sabe o tudo ou então vai que se aprende uma coisa no meio do caminho então fica no vídeo aproveita
para deixar um curtir compartilhar isso ajuda o canal se ajuda a gente e aqui controle de presença dos conteúdos para seis a gente também quer saber que você pensa então bota um comentário tá se inscreve no canal que a gente semanalmente tá fazendo aí conteúdo para vocês para para você poder ir entrar conhecer essa linguagem programação nem conhecer a linguagem do pai tem que é uma gigante mas está crescendo o mundo tem uma ótima aplicação mercado de trabalho beleza vamos para o vídeo Então beleza gente qual é o princípio aqui na minha casa de trabalho
que ele pode ser usado pegar as coisas por exemplo Vamos ver que você vendesse o sorvete tá ou então você vende fogão sei lá qualquer coisa que você venda e você tem seus concorrentes que também vendem aquele mesmo produto e fazem aquela vende online também no site e veja então você querendo saber qual é o preço deles você ia no site deles ia ver as cara tava vendendo a 15 reais eu tô vendendo a 13 não tô mais barato esse cara tá vendendo as 16 reais eu tô vendendo a 13 muito mais barato e esse
cara tá vendendo a 12 e não faz isso de vez em quando vai poder ver se você tá no preço de mercado imagina fazer isso o tempo inteiro seu seus concorrentes não te aviso quando ele manda o preço então você pode criar um é biscoito para pegar as informações dele e automaticamente Você sempre tem informação disso tá nesse caso que a gente vai fazer nesse vídeo o que algo um pouco mais simples mas que Segue o mesmo exemplo porque mais simples mas segue um exemplo meu minha ideia aqui e tirado zero e fazer a conhecer
o script e como ele faz ele funcionar então tentou no setup que a gente vai fazer ele vai criar ambiente virtual e criar um projeto no Spike Charme a gente vai instalar o Skype fazer o linha de código e fazer webscrap então eu quero que você entenda isso porque isso é uma parte que no começo Principalmente quando você não sabe você tá fazendo gera uma confusão danada entendeu isso depois a gente grava vídeo pegando a Amazon no Mercado Livre A Casas Bahia tanto faz a gente pode pegar qualquer coisa mas esse vídeo a gente vai
usar aqui pegando e do IMDB o quê que eu ia beber um site que tem filmes onde tem nome dos filmes O ano de criação do filme e a avaliação geral tem outro aqui nessa página que tem os 250 melhores filmes do IMDB tá tudo começa com algo um pouco mais simples entende como funciona esse clipe e lá na frente quem sabe a gente não faz uma um vídeo se você acha legal Bota lá no comentário queria pegando do site da Casas Bahia queria pegamos o site do se Ela quem e a gente vê se
a gente faz um vídeo para vocês sobre isso mas o primeiro passo que a gente quer fazer é o seguinte beleza vamos fazer um passo a passo Zinho aqui ó bem simples para gente poder não se perder E aí a passo um eu vou abrir e a pasta do projeto passo a passo 2 eu vou criar um ambiente o virtual e eu vou explicar para você o que é um ambiente virtual daqui a pouquinho três eu vou instalar os programas os modos as bibliotecas e assim vai que eu preciso quatro eu vou abrir um projeto
no pai Charme 15 eu vou a buscar as informações e no IMDB e seis eu vou criar o meu código bom então por que que eu falei para gente fazer esse passo a passo você pode ver que código mesmo a gente vai fazer lá no finalzinho então o primeiro têm todos você tava que eu preciso fazer para poder a gente conseguir fazer isso vai buscar ele ainda forma correta Beleza então esse é o passo a passo que eu vou seguir primeira coisa abrir a parte do projeto beleza como é que eu vou abrir a parte
do projeto eu vou abrir a parte do projeto de uma forma um pouquinho diferente eu dei por ele ia fazer usando direto entramos lá no próprio usando o mouse criam na pasta mas eu vou aproveitar para falar com vocês um pouquinho sobre o prompt de comando que é bem comum e você vê pessoas usam nesse prompt de comando em outros vídeos de outros canais e outras pessoas dos Estrangeiros ou então quando tiver Bibi pesquisar na internet essa informação é bem comum dos seus ver esse tipo de interação Então você precisa entender o que que tá
acontecendo ali tá nesse caso o que que eu vou fazer eu vou usar o anaconda prompt lá é Mas você falou que ia fazer o pai Charme Você precisa usar anaconda então legal da Anaconda que não ele não funciona simplesmente para Júpiter por exemplo ele também me permite gerenciar esses meus pacotes essas minhas coisas que eu tenho aqui dentro do meu computador ligado ao Python então eu vou usar o anaconda pronto mas alguém vai perguntar Daniel queria usar o powershell dá para usar Daniel eu queria usar o pronto de normal sim a Daniel eu tenho
um inox dá para usar e Daniel tem um Mac dá para usar Sim a gente vai chegar todas essas dessas opções sim dá para usar tudo bem É para as pessoas que tiverem usando por exemplo o Linux ou então o MEC é sem pegar o dá uma olhadinha Quais são as os comandos que você vai precisar usar para poder fazer a mesma coisa que eu vou fazer aqui nesse caso eu tô usando o Windows então por exemplo eu vou usar o comando CD que é um comando que me permite entrar dentro de uma pasta o
hino que hoje é diferente Então vale a pena se jogar pronto de comando Linux comandos se puder votar em inglês melhor ainda porque Vai facilitar a tua busca tá E aí você vai com certeza achar uma lista de comandos possíveis e você vai tentar fazer o de para aqui e com que eu tô fazendo dormindo Se você Ah não conseguiu Bota lá no comentário Daniel queria uma aula só de comandos de para bota que a gente tenta entender mas eu quero que você entenda que o pronto ficou mão dele pode ser assustador no começo mas
ele é nada demais é tranquilo dá para a gente usar tá na hora que eu entrei no meu anaconda pronto você pode ver que ele já entrou com esse barzinho na frente tá depois a pouco a gente vai ver se por acaso você não está usando o anaconda prompt ele vai ter por exemplo só você esse carinha aqui não vai existir ele vai estar direto se tá que por aqui a gente está dentro desse ambiente do lá na conta e essa pasta e o Daniel é uma parte que existe no meu computador bom e o
que eu quero fazer é acessar minha área de trabalho eu vou criar para aquele meu passo um que era criar a pasta do projeto eu vou criar essa parte na minha área de trabalho como é que eu vou fazer isso se eu souber as pastas que eu tenho dentro da pasta Daniel eu vou usar o comando CD tá mas por acaso eu não sei não faço a menor ideia que eu vou usar eu vou usar o dia e esse dia ó me dá todas as partes que existem dentro de usuários Daniel e aí ó eu
posso ver que eu tenho essa faixinha um drive no meu computador é um drives o seu o que eu comprei lá com certeza vai ser diferente você pode ter uma outra situação então aqui ó eu vou botar CD o Android não precisa escrever tudo após escrever e com ele por exemplo e da tabi primeiro tablet já dá o Android se eu der outro drive olha vai aparecer o outro um drive e assim vai nesse caso cd-rom drive doente é e percebe que mudou a a leitura aqui ó antes estava usuários Daniel agora trouxe no Android
também então agora eu tô em outra pasta se eu der um dia de novo eu vou conseguir ver que eu tenho outros pastores aqui dentro documentos hashtag e assim vai e a área de trabalho que é que eu quero Então vou pegar aqui ó a esse trabalho então CD1 a área de trabalho só já deu o tabi Zinho já apareceu para mim então agora estou na minha área de trabalho o que eu quero fazer eu quero criar uma pasta aqui dentro e para o criar uma pasta eu vou usar esse comando MK ir MK de
que é uma pasta que cria um diretório cria um diretório de novo tô no Windows então esses comandos são para o Windows Ok e vou dar um nome dessa parte que eu quero criar vamos dizer que eu quero criar uma pasta chamada filmes IMDB 250 o filme cm de Wilson E se eu der um dia olha na área de trabalho vai aparecer aqui e MDB cadê tu o filme de Annabelle filme cmdb aparecendo aqui para mim Olá tudo bem sapato filmes MDB eu posso botar você de filmes IMDB Olá tudo junto filmes IMDB entre e
o comando CLS o acaso você acha que é muita coisa tá confuso CLS limpa tela para você não ligo tá então filme CNBB entrei dentro da pasta filmes IMDB o que eu quero criar agora é um ambiente virtual tô indo por fácil dois o nosso meu para o meu passo a passo que que é um ambiente virtual a gente vai usar o Skype na documentação do Skype que eu vou deixar lá na descrição para você ela diz que é indicado que você crie um ambiente virtual específico para os projetos que você for fazer E como
você cria um ambiente virtual é como você tivesse criando uma outra dimensão dentro do seu computador É como se eu tivesse pegando uma partezinha dele e criando outras regras Ali vai outra coisa Tá ao invés de você usar o pai então por exemplo de anaconda que tá aqui no sistema geral assistindo todo os meus meu usuário Daniel tá usando esse anaconda e esse pai tão que tá ligado esse anaconda eu vejo você fazer isso você vai criar um ambiente virtual onde você vai usar as regras específicas para ele que vale lá e apenas lá tá
então por exemplo criar um lugar onde eu tenho pai tu 3.6 tudo bem E lá também vai ter o a biblioteca escape que eu vou instalar o que que é que que é importante tem mente é esse ambiente virtual ele é pode ser um pouco confuso na hora de entender mas a gente vai sempre buscar E no caso dos peito e criar um ambiente virtual específico para aquele projeto Tudo bem eu vou explicar como a gente vai criar um ambiente virtual aqui mas eu também vou botar na descrição um vídeo com Lyra fez especificamente para
falar sobre ambiente virtual tá então aqui embaixo ó eu vou botar conda.exe Conda é um comando que eu digo que eu vou usar o anaconda prompt usar o a lógica da Anaconda para poder criar esse ambiente virtual e vou botar Conda Create tracinho n para dar o nome desse meu ambiente virtual e eu vou chamar por exemplo de filmes e MDB 250 ó e vou botar que eu quero nesse lugar o Python 3.6 e como garante o que que vai acontecer ele vai processar essa informação e vai começar a criar o meio ambiente virtual Beleza
começou a criar um ambiente virtual e aqui apareceu a esse para o Cid que embaixo para o sítio Y ou n Ele tá dizendo para mim que ó esses novos pacotes vão ser instalados você tá de acordo com isso ou não inclusive o Python Python 3.6 conforme eu imaginei o pique é um módulo aqui também permite um pacote que também permite a gente faz a instalação de outros modos sqlite então outras coisas que estão aqui dentro então eu vou botar Y para ele de Yes e vou da Índia e ele vai continuar fazendo essa criação
beleza criada que o meio ambiente virtual ele inclusive me dá essa dica aqui ó para você ativar o ambiente virtual você vai usar Conda activate filmes md250 se você em desativar você vai usar algo com the activity tá então são as duas opções que ele tá dando para mim o que que eu vou fazer aqui criei o meu ambiente virtual eu vou ativar eu sempre Sisu ativar o ambiente virtual para começar entrar nessa outra dimensão tá então eu tô numa dimensão do meu computador na dimensão da base aqui no caso e eu vou fazer onda
activate filmes e mb250 Ah tá tanto criando esse ambiente virtual entre Ah tá lá percebe como é que mudou que antes estava base Agora eu tô em filmes em BD 250 então entrei nessa outra dimensão que eu criei onde as regras são apenas válidas para esse ambiente virtual tá então tá criado aqui o meu filme cm de bebê ó o que que eu quero fazer agora eu quero ir para o passo 3 eu já fiz o passo 1 que foi que a parte do projeto Eu Já Fiz o passo 2 que eu quero criar um
ambiente virtual chamado filmezinho de 250 agora eu quero instalar o que eu precisar instalar dentro dessa descendente virtual que eu criei eu já instalei o meu pai Tom meu parto já está instalado é naquela hora que eu usei o comando condá Create Python 3.6 então agora o que eu quero fazer é usando Pipe que foi um daqueles pacotes que ele falou que instalar instalar o Skype bom então vou botar ape escape agora quero instalar o Skype uma outra pi pi e estou escape Ah tá lá tá pegando as informações tá trazendo as informações do escape
para dentro desse no ambiente virtual então enquanto ele carrega ali ele tá fazendo essa instalação desses clipe no meio ambiente virtual Prefeito instalado escape agora no meio ambiente virtual eu já tenho pai tu já tem escape para esse caso específico para esse nosso vídeo aí é o que a gente precisa tudo bem então o que que eu vou fazer agora eu vou começar a preparar o meu projeto lá no pai Charme eu vou criar um projeto não pode Charme vou dizer que eu quero usar esse ambiente virtual que eu tô usando aqui para começar a
fazer as coisas lá entendeu eu quero usar o vs code pode pode Daniel eu quero fazer o chá palavra aluga igual eu Lira fala e pode A questão aqui eu aqui vou usar para Charme então se você nunca viu isso que eu tô fazendo tudo para você a novidade sugestão uso para tirar porque pelo menos você vai ter um vídeo para comprar se por acaso você já usou o pai Charme já usou o dress code já fez outras coisas você entende o que você tá fazendo aí você fica à vontade só tenta fazer o de
para do que eu tô fazendo porque você quer fazer beleza mas você nunca viu nada segue que o passo a passo vai ser melhor para você segue o passo a passo faz uma duas três vezes tá tranquilo tá entendendo o que você tá fazendo aí sim aí você começa a aumentar o grau de complexidade beleza vamos lá eu vou deixar isso quieto por enquanto vou vir aqui na minha barra de pesquisa e vou botar o pai que charme que o Minute Ed chave aqui ó parte arma como no serviço já tá até aqui para mim
vou clicar nele e ele vai carregar para mim é a ser versão gratuita do pai charme que você pode usar e instalar eu vou deixar minha descrição também o vídeo que o livro explica como fazer configurações como instalar aí assim vai no pai tarde tudo bem nosso objetivo aqui vai ser Enquanto carrega buscar um projeto tá criar um projeto que seja usado o escape direto beleza abriu aqui o pai Charme para casa não entrou nessa mesma tela que eu talvez ele tenha entrado dele um projeto porque você já usa o pai Charme para outra coisa
então sem problemas é só você buscar lá opção de fechar o projeto e abrir um novo projeto agora a gente vai criar um novo projeto Então agora eu vou criar um novo projeto aqui New Project eu vou escolher a pasta que eu queria Então se por acaso não veio a parte que você queria você procura a pasta que você quer no caso a filmes IMDB para parte que eu queria ir com meu progresso não foi eu tô vou escolher o que eu quero um interpretador já previamente configurado eu poderia colocar um novo e configurar aqui
como eu gostaria mas no caso eu já fiz isso eu já fiz essa etapa anteriormente se esqueçam de fazer ela fora do Júpiter Exatamente pra gente poder ver como fazia lá e também poder utilizar aqui então se por acaso Você clicou e não apareceu esse ambiente virtual que você criou você cria... E escondi aqui escolhe aqui ó Conda em vários com da e vários então eu tô criando esse com devagar vou clicar aqui e vou procurar se acho Qual é o ambiente virtual que eu acabei de criar foto o nome do ambiente virtual que eu
acabei de criar se chama o IMDB então aqui eu tenho a opção filmes IMDB Então essa é a São que eu vou escolher aqui para o meu interpretador vou dar ok feito isso eu vou dar sorvete E aí ele vai criar um projeto para mim aqui no pai charme que eu vou fazer eu vou usar o pai Charme e eu vou usar o terminal do pai Charme para fazer a mesma coisa que eu vinha fazendo aqui na anaconda pronto Daniel eu queria continuar usando a macumba pronto posso pode não é um problema eu só para
não precisar ficar indo e voltando aqui no no alt-tab para o vídeo eu vou usar tudo aqui no terminal do próprio pai Charlie pode ter que eu tô no mesmo lugar tá vendo ó filmes IMDB usuário área de trabalho filmes IMDB etc então onde eu tô no mesmo lugar que que eu quero fazer agora eu já criei o passo 1 foi o criação da parte do meu projeto já que eu meio ambiente virtual Já criei meu projeto do pai Charme agora eu vou criar um projeto escape um projeto já decifrei marca desse Até que a
gente que a gente falou chamado escape então vou botar o Skype um start Project ó e vou dar um nome que eu quero dar para esse projeto por exemplo e MDB [Música] há 250 E aí e quando eu fizer isso ele vai criar para mim um projeto escape então dentro desse ambiente virtual está sendo criado um projeto nesse frame nessa até aqui é chamado superei tudo bem E esse projeto vai se chamar AMD b350 E aí a gente começa entrar na questão do scrap que que é o espeto streep ele não é simplesmente é um
módulo que você bota dentro do seu computador e você vai chamando Neto ele vai chamar na função o escape é o que a gente chama de freio amor que que é uma estrutura de programas de arquivos de script de afiliados já feitos de uma estrutura mais específica que te facilitam a fazer certas coisas por exemplo Jango é um tremor que o flash que é um freimor o escape é um frango que permitem você mas a estrutura para conseguir um resultado mais fácil aí você tem que programar tudo já tem coisas pré-programadas para você simplesmente seguindo
aquela estrutura resolveu o teu problema no caso aqui essa estrutura vai ser criada uma série de pastas Então vai ter uma pastinha que vai ser eu IMDB 250 que o projeto e Vai ter outras pastinhas de arquivos já são criados para a gente começar a criar o nosso código enquanto eu falava com vocês aqui ó apareceu e foi criado e você pode começar o seu projeto seu primeiro Spider que a gente vai entender o que é usando CD e MD b250 mas antes de fazer isso eu queria só mostrar para vocês o seguinte Olha que
acontece dentro da pasta aqui não tinha esse trekinho dá um Clique nele aqui ele vai atualizar e ele criou o IMDB 250 que era o nome do projeto que eu pedi para criar e ele criou uma série de arquivos aqui dentro ó são arquivos que o fêmur para esse vídeo eu não vou entrar tanto em detalhe nesses arquivos aqui mas eu vou entrar em detalhe nesse Spider os aqui a gente vai criar um arquivo específico e essa criação desse arquivo exatamente a próxima etapa que a gente vai fazer usando o que ele cantando para mim
então se por acaso eu esqueci presta atenção no que ele sugeriu que é CD e MD b250 a beleza e aqui eu vou botar Skype o gene Spider esse Gene Spider Gere no Spider que é um desse arquivo que tem um faz uma função específica de fazer essa o sanguessuga que eu falei para vocês no começo do vídeo e esse example ex amazon.com a gente vai trocar eu vou chamar de MDB né porque é o nome do nome do arquivo o nome do site que a gente tá querendo botar esse sanguessuga e o ex é
bom conto com depois de mais para frente a gente vai mudar mas eu vou botar e mpb.com e eu vou da Índia a beleza rodou aqui ó se eu volto no Spider ele vai criar para mim esse arquivo e MDB e e esse aqui me devia percebe que ele não veio vazio ele veio já com algumas informações Olha já importou o escape ele já trouxe esse essa Class IMDB Spider criada que é uma classe diz pai diz que é o que permite a gente pegar as informações ele já deu o nome MTB esse nome foi
dado Exatamente porque eu disse para ele que se chamar IMDB esse a lower dolmens a gente não vai usar nesse vídeo então eu vou jogar fora depois eu volto mais aqui esse status vai lá os depois a gente volta também Ele criou também essa função aqui ó que a função de Paris dentro dessa classe dos pais ou seja isso aqui é algo que esses pai dele vai poder fazer e aqui aonde a gente vai colocar o nosso os códigos de buscar informação num site específico e converter essa informação que ele leu lá do site em
algo que a gente consiga usar Tá mas antes de a gente começar a fazer código aqui hoje eu vou mostrar para vocês um lugar que é um ambiente de teste é um lugar onde a gente consegue testar os nossos códigos antes de fazer a versão final aqui esse para quem não há quem gostar os Dragon Ball Z tinha lá aquele lugar onde os carros precisam treinar e o tempo não passava Então esse lugar aqui de forma grosseira é o lugar que a gente vai entrar a gente vai entrar no Shell script scripting Shell scripting Shell
scripting Shell eu consigo executar os códigos e tem algum site consigo fazer isso dentro de si é meio ambiente controlado esse meio ambiente de teste Tudo bem então eu vou fazer tudo aqui através do meu terminal percebe que agora ele tá com esse 3 as carinhas aqui assustei sinalzinho de maior ele não tá mais naquela estrutura ele não tá mais na Casa de Cultura diferente ele tá na sua estrutura jantar mais nessa estrutura aqui o que a gente tinha das partes ele tá dentro do céu ele tá dentro desse ambiente lá do Dragon Ball Z
Onde você consegue fazer as coisas treinam beleza que que eu vou fazer primeira coisa que eu vou fazer eu vou tentar fazer uma conexão conexão com o nosso site e para tentar fazer essa conexão como site eu vou usar o frete e vou botar depois da "o endereço do nosso site qual o endereço do nosso site é esse aqui volto para cá control ver fecho parentes quando derem ter o que que ele vai tentar fazer ele vai tentar criar uma conexão entre esse meu Shell intensamente de treinamento do Dragon Ball Z com o meu computador
enfim com o site site vai tentar fazer essa conexão e essa conexão ela vai ter uma resposta essa resposta muitas vezes são sinaizinhos 200 400 300 é bem quando você faz o Google e aparece erro 400 alguma coisa not found então aquele númerozinho para cada número sim daquele tem um significado se você tiver 200 tá tudo bem se você tiver 400 tem algo estranho aí que não tá acontecendo ou você escreveu errado ou então a sua internet tá funcionando ou então o link que você deu para ele no site não tá certo não pode ter
alguma coisa que você vai ter que tentar entender o que é tá nesse caso eu vou dar enter Ele vai tentar fazer essa conexão se tudo der certo vai aparecer um vizinho de 200 beleza ó trouxe para mim fez essa conexão e falou ó 200 tô conseguindo acessar tô conseguindo ter eu consigo mandar uma pergunta o site ter uma resposta até Nossa resposta beleza que eu vou fazer agora eu vou começar a tentar interagir com esse site vai pegar as informações mas antes de começar a interagir eu preciso entender que informações são essas que eu
quero pegar e para isso eu vou fazer o seguinte eu vou lá no meu site e ir vou falar com um pouquinho com vocês sobre a estrutura de um site bem por alto mas para vocês conseguirem entender mais ou menos o que está acontecendo aqui nesse site se você vai clicar em qualquer lugar aqui ó com o botão direito por exemplo no nome dos desse filme aqui ó o e botar em inspecionar vai aparecer é uma janelinha para vocês a linha de código que representa esse item nesse site tá essa linha de código ela tem
aí a gente tem HTML a gente tem CSS tem já inscritos tem outras coisas que acontecem aqui nesse site tá mas normalmente a gente vai falar HTML então um CSS HTML para quem nunca ouviu falar É como se você imagina um corpo humano tem um teu corpo a arrumar de um manequim mas no manequim tão HTML que o livro se tem a forma daquele corpo daquele manequim você SS ele já é se o cabelo do manequim é rosa é amarelo é preto a cor da blusa roxa ou não então CSS é mais o princípio de
estético de deixar arrumada e o HTML ele é mais uma deposição ou da forma como aquele site é construído tá bem a grosso modo Esse é o a ideia e quando a gente queria essa inspecionar aqui ó a gente passa o mouse em cima vocês vão vendo que cada linha de código tem um cara específico que ele representa tá nosso nossa intenção quando a gente faz o webscrap é criar um código que consiga a identificar uma dessas estruturas que a gente quer e pegar a informação que existe dentro dessa estrutura meu objetivo aqui é pegar
o nome desse filme e pegar o ano desse filme e avaliação desse filme tá se eu clico nesse botãozinho aqui ó que essa setinha o e passo o mouse em cima hoje eu percebo que tem esse carinha aqui ó por exemplo e o que é o conjunto é uma Quadradinho que tem informação tanto do nome quanto do ano não tem avaliação mas bom pelo menos eu consigo ter uma ideia do que é tá só que quando eu clico nele o que acontece ele me traz para cá Class cartão como beleza essa informação classe estar tocólogo
a informação que eu vou usar lá no meu Shell lá no meu script Shell para poder ver se tá funcionando ou não mas ao invés de pegar aqui direto eu vou apresentar para vocês uma ferramenta chamada selectorgadget que é muito útil quando você tiver trabalhando com os CSS vocês vão ouvir vezes a SS para poder um selector CSS selector ou seja uma coisa que tá ligado a o código CSS daquele site que você consegue identificar especificamente nesse caso seria a classe ou seja essa classe tá então: é representa um formato representa uma estrutura que a
comum a vários desses carinhas aqui tá e será que tu pede ele é uma extensão que pode ser utilizada aqui no seu Google Chrome é só você jogar selectorgadget igual tá escrito aqui no Google o primeiro link que apareceu lá vai você vai conseguir instalar no meu caso tá instalado Então vai aparecer aqui e aqui no quadro no da pecinha do quebra-cabeça a gente tensões você pode deixar ela disponível fixada ou não a sua barra aqui do Google Chrome Você que sabe se não quiser não precisa mas no meu caso tá aparecendo aqui e o
que que legal ele será que Teddy não que não deu para fazer pelo inspecionar tá gente super dar mas será que tu ia legal quando você clica nele e ele permite fazer a mesma coisa que inspecionar fazia só que ele tem uma outra qualidade que na hora que eu clico nele ele me diz todos os outros que tem aquela estrutura e isso me facilita muito saber se eu tô pegando exatamente quem eu quero então Ó aqui são 250 filmes ele tá me dando que eu tenho 250 estruturas que tem essa classe tarde tu Cola que
exatamente a classe que a gente tinha visto anti Então o que eu vou fazer aqui com Será que tu vier a gente vai pegar esse cara control c e vou jogar aqui ó um bloquinho de notas só para a gente não esquecer o tato colo ele pega caixa com nome e ano do filme E agora se eu quisesse pegar por exemplo a só o nome como é que eu ia fazer vou dar um Clear aqui ó clico com selectorgadget só nome e aí tá me dando 611 mas eu sei que eu só tenho 250 filmes
então tem algum outro estrutura que tá fazendo ele pegar mais informação do que eu gostaria Então vou botar lá É nesse Action por exemplo que tá pegando essas informações que estão amarelas aqui e eu vou dizer quando ele fica vermelho e volta significa que eu não quero ela então não quero as informação fica tempo aqui no 611 ó não quero esse tipo de informação já baixou para 506 então agora vou procurar alguma outra estrutura que está sendo pegar errada Aparentemente tudo tá certo porque todos os nomes estão certos em ó e vou aqui em baixo
tá aparecendo esse cara estranho aqui vou desmarcar ele 250 Então você usar a estrutura. Tá então Cola ah lá no meu painel eu consigo direcionar apenas para o nome então vou botar aqui embaixo ó o nome do filme a próxima informação que eu quero é a seguinte vou dar um Clear aqui ó tirar todo mundo vou pegar só o ano quero pegar só o ano ó ó 250 informações secundárias em futon esse cara I Promise You Oi e o último que falta é avaliação vou daqui ele aqui vou clicar na avaliação tá me dando 250
strong então site relativamente fácil a gente conseguiu pegar as informações tá vai ter site com um pouco mais difícil do que isso mas é essencialmente a lógica é bem parecida com essa e a gente vai pegar esse chão e eu vou botar consiga avaliação Ah beleza então já peguei Quais são as estruturas do meu site que representam a informação que eu queria o ponto tarde o cólon é a informação do da minha caixinha parte o Cola Ah é só o nome do filme secundário info é o ano daquele filme e strong é u.a. variação pegamos
aqui voltando lá para o meu pai que charme que eu vou fazer o seguinte eu vou tentar interagir para tentar interagir com o meu site através do Shell usando essas estruturas como é que eu vou interagir eu vou interagir numa lógica de pergunta e resposta vamos assim então vou perguntar para ele Ó Qual é a resposta E se eu disser para você que eu quero as estruturas o ponto Tito: Então vou botar esse "ponto tá então colo vou fechar aspes fecho parênteses e vou botar a opção no comando Guedes Guedes então agora vou tentar fazer
essa comunicação através de como fosse uma pergunta e resposta então dizer para ele ó se eu perguntar para você e qual é a resposta para o CSS do tipo pão totally True Color que aquele primeiro que a gente viu que a gente me deixou aqui guardadinho que pega a caixa com o nome do filme Se eu perguntar isso para você qual é a resposta disso me dá me traz a resposta desse caso ele trouxe para mim ó esse primeiro filme aqui de chou Xing Redemption 1994 e trazendo informação tá mas ele trouxe um só que
a gente queria 250 que significa é porque esse comando Betty ele pega apenas o primeiro de uma lista de as estruturas que ele na verdade conseguiria trazer Então esse Luis ponse ele que ele tá trazendo para mim é uma lista então trazendo para mim uma lista de resultado onde o primeiro item dela é esse aqui só pra gente conseguir entender o que tá acontecendo se eu colocasse Jet ou por exemplo lá e eu tô trazendo todos os filmes que a gente tinha lá na lista tá vendo pode 249/250 250 filmes aqui sendo coletados em e
eu posso inclusive colocar isso numa variável se eu quiser só podia colocar numa variável chamado os filmes por exemplo e vou botar response on CSS a estrutura que eu vi lá no meu site que aponta otário: e vou botar Olá cats o e tem que seria a verdade posso botar aqui direto e vou botar o seguinte já e nem filmes então alto trazendo Qual é o tamanho com o tamanho dessa minha lista de filmes que tá dentro dessa resposta variável aqui poderia botar filmes a 15 então vai ser o filme que posição de número 15
está trazendo para mim ó o resultado dessa função dessa lista tá então eu consigo interagir com é assim meu site e três vezes informações que são necessários à Ah beleza então eu sei que está funcionando que eu vou fazer é pegar esse essa minha estrutura de filmes response.css e jogar aqui ó dentro da minha função Force né que a gente vai criar que vai fazer essa função de entender o site que eu tô querendo ir depois trazer as informações para mim então vou deixar aqui por enquanto depois a gente entende melhor que a gente vai
fazer com ela vou fazer o mesmo processo para os demais estruturas que a gente viu então Alves bons pontos ISS boa vir aqui no meu bloquinho de notas e vou pegar a estrutura dos nomes E aí o cacho as cores e vou botar. Guedes ó ó trouxe aqui primeiro da lista Se eu quisesse usar pegar todos os nomes eu pude usar o great Wall uma dica aqui ó quando está trabalhando com próprio de comando no terminal se você apertar a setinha para cima ele traz exatamente o mesmo comando que você usou anteriormente então preciso reescrever
posso simplesmente colocar setinha para cima depois vem depois do Jet escrevo ó e vou dar entre a trouxe todos os nomes dos filmes aqui para mim tudo bem então depois que eu faço isso eu vou fazer aquele mesmo teste por exemplo de tirar essa informação e vou botar aqui ó em e títulos eu não quero pegar uma lista de títulos E aí depois eu quero saber você sabe lista de atitude só tem 250 beleza também tem 250 que era que eu tava mais não são 255 só que você pode estar passando pela cabeça de vocês
ele ó eu já tô entendendo o que você tá conseguindo pegar as informações Mas como você dá esse guete parece um bando de coisa que eu não quero eu quero só o nome do filme Eu queria só esse deixar um cheque meu dente aqui que eu lembro filme então o que eu vou fazer eu vou pegar essa informação vou botar um dois pontos: text igual da Índia é preciso só colocar "em tudo tá eu vou dar entre deixar um cheque vidente agora eu peguei só o nome no filme eu queria você usa essa mesma estrutura
e bota o great Wall Olha o que vai acontecer eu peguei os nomes certinho de todos os fios se eu faço aquilo que a gente eu tinha feito antes tá aqui agora trocando a botando títulos é igual a response ISS eu tô dizendo aqui títulos vai receber uma lista que é resultado dessa resposta o resultado dessa resposta são esses nomes aqui ó só esses nomes aqui então tá doente e tá lá estou vendo que funciona títulos nem títulos há 250 Então tá o tamanho que eu quero vou pegar essa informação e vou jogar aqui em
cima Daniel mas eu não podia fazer isso direto para quê que você faz esse negócio de no céu eu gosto de ir no céu porque o Shell que eu falei é onde o você pode treinar lá igual o Dragon Ball Z aqui se você errado só esperança nenhuma só tá tentando está testando tá vendo se o resultado que você quer tá tranquilo talvez você ficar mandando rodar todo o projeto todo o seu seu Spider você primeiro testa vê se você consegue pegar informação conseguiu pegar informação você vai levando para o seu arquivo dos Pais depois
é só juntar essas informações e fazer os pais de rodar inteiramente tá então é por isso que eu tô indo sempre aqui no Shell primeiro é bom para nossa terceiro estrutura terceiro estrutura esta altura dos anos a vou pegar. C com der info Oi boa tarde Luiz Ponce pontos é se você puder info e já vou direto pro Jet ou aqui ó e pronto tô pegando o nome de todo mundo o ano de todo mundo eu vou usar a mesma lógica para usar a mesma lógica usando aquele text Então vou botar o Ivo os pontos
da ponte das pontes técnicos ó e vou botar o jet o lavar mente E aí o Olá peguei o anos certinhas agora estou pegando só o ano daquele daqueles meus dados percebe aqui ó olha a lista Agora ficou um pouco mais fácil a gente ver porque os dados também nozinhos a lista aparecendo aqui para mim um de cada uma delas não item de uma lista ó e vou botar aqui ó anos igual a é o melhor rodar setinha para cima quem vai pagar esse aqui é show e vou botar lá no início o anos igual
a Luis fonsi desse cara nem anos só para gente ver se tem o tamanho certinho 250 perfeito funcionou pego esse cara trago ele para cá e agora eu já peguei filmes títulos anos falta avaliação e novamente vou pegar só o strong aqui ó ó e vou criar e vou ver se tá funcionando talvez pontos.se strong on o ponto Guedes a palavra strong tá então 9.2 baseado no celular quantas pessoas que variaram 9.2 usando a mesma estrutura eu posso botar o chão: dois pontos de táxis Oi gente ou e peguei aí a nota de todo mundo
dos 250 filmes on o seu tio Albert Hall colocar nossa estrutura aqui de avaliação vou chamar de nota por exemplo nata o que botar em nota falar 250 Beleza então essa etapa um pouco mais chatinha mas é tá porque a gente foi testando se o que a gente queria fazer tá fazendo sentido e tá fazendo porque a gente tá conseguindo pegar sempre 250 resultados nós temos 250 filmes nosso site Então tudo indica que vai dar certo vou pegar essa última se último teste que a gente fez aqui para nota e vou trazer para cá para
o meu Spider tá E aí já posso sair do meu Shell que eu sair do meu chão vou fazer aqui ó kit abre a gente abre parentes transparente dentro Oi beleza é feito isso que que eu vou fazer eu vou usar o começar agora sim de fatos é o pai Charme aqui na linha de código esse arquivo que a gente está criando esse aqui no final. Pai significa em um arquivo Python como Imagino que já tem um prejuízo se chama IMDB e percebe que o local dele é relevante por conta do frame local dele é
importante ele tem que tá dentro da pasta Spiders como a gente criou usando aquele Gene Spider ele automaticamente já colocou no lugar que a gente queria mas por acaso você não tiver usado de Spider você pode criar o arquivo IMDB ou seja qual for dentro da pasta Spider só você clicar aqui o botão direito ó e vai botar New Python files aí você vai colocar o importante que o Spider precisa estar dentro da pasta Spider então o que você está criando preciso estar dentro da pasta Spider por conta do fêmur Tá eu vou botar aqui
ó Nessa está tio Elson o nome o caminho da URL ou endereço aqui do site que a gente tá usando o meu tava aqui pronto só acho o site eles estão pegando é esse aqui essa função ela vai ter o princípio de que ela vai ter o princípio de vir aqui no meu site eu vou fechar o meu selectorgadget que eu não preciso mais usar ele e vai ser olhar essa página dentro daquelas estruturas de caixinha que a gente viu pegar essa estrutura e pegar a informação do nome e do ano e avaliação tá para
isso eu vou fazer o seguinte eu vou usar um só a taxa tudo four lembre futuro do for preciso estar inventada tá no jeito que a gente tá aqui ela não vai funcionar Então ela precisa de uma hidratação é tão tudo aqui no DF Então esse for precisa ter uma alimentação com e com defe e aqui precisa também tentação desses códigos para o pó funcionar no pai então a indentação é obrigatória para você fazer as coisas funcionário ela não é decorativa Então vou pegar este cara joga para casa para casa kkk tudo bem então criei
essa em tentação e aí vou botar filmes eu vou dizer que esses filmes são uma resposta a tal. CSS um pouco mais sentida eu tô dizendo que e eu vou rodar para todos os filmes na lista que esse resposta csm da tão se respostas S me dá uma lista que foi o que a gente viu aqui embaixo ó que ele me deu Aqui ó retro Cola me deu uma lista também aqui ó sinal Zinho até da lista aqui o colchete Então tá me deu uma lista então vou fazer ó para cada um desses filmes dessa
lista então para cada uma dessas estruturas dessa lista eu vou fazer o seguinte eu vou gerar é um carinha O que vai ter as informações de títulos anos e nota E para isso a gente vai usar esse Wild tá esse Field ele é parecido com o Vitória é bem como um parente dela falando de função a gente usar o Britânia mas nesse caso não é biscoito pneu caso dos Cravos especificamente mais indicar a gente usar o humilde que ele funciona você fez com você retorna para a gente alguma coisa que era que o britânico fazia
só que ele retorne um jeito mais específico que é melhor para essa interação que a gente vai fazer com esse site Tudo bem então a gente vai usar o Emoji e a gente vai voltar aqui ó que eu quero título num formato de dicionário ao invés de botar o igual vou botar que é esse cara aonde eu vou botar um formato de dicionário vou tirar esse igual a nota mesma coisa para botar no formato dicionário para tirar esse bloco Oi tudo bem e lá no finalzinho vou botar uma viva para separar cada um deles o
meu fim eu vou botar comer Chaves então eu tô dizendo para ele seguinte Você percorre todos os filmes dessa lista resposta para lá e para cada um deles você me diz qual é o título dele qual é o ano dele e qual é a nota dele tá Vou Te Botar título ano e nota no singular para não confundir com a lista e aí que que acontece quando a gente volta no site a gente volta no site aqui a gente pode dar uma olhada aqui essa estrutura que a gente viu do quadradinho ela continha duas informações
querem formação de ano que a gente já sabia qual era e é foi esse sonho de liberdade aqui que é o título né tá dando até inglês lá para gente então a gente já tem dentro dessa estrutura da caixinha essas duas informações então ao invés de botar novamente no espons aqui eu vou botar filmes é porque esse filmes já está sendo já está pegando a informação desse dessa dessa caixinha que é o Luis fonsi pontos SS tarde o colo Então eu tô usando para cada uma dessas caixinhas cada uma dessas caixinhas você olha dentro da
caixinha e pega o título dele para essa caixinha você pega um ano dela então para caramba da caixinha você faz isso quando a gente chega na nossa a gente tem um problema porque a nota não tá dentro da caixinha a caixinha ela para aqui a caixinha lá para aqui então essa nota está numa outra caixinha então para esse caso especificamente ao invés de eu colocar filme eu vou deixar o espons porque eu vou pegar apenas a informação dela E aí por mais estranho que pareça porque a gente tá essa lá 40 minutos fazendo milhões de
coisas e só agora que a gente começou a programar É só isso que a gente precisa fazer que agora acabou é só a gente colocar para rodar esse nosso projeto escape que a gente fez então eu vou botar O que é Skype the crown o escape from e vou botar o nome do projeto que eu quero mdd é porque IMDB porque tá aqui ó nome do projeto e MDB se por acaso usando hospedado nome para ele você pode botar MTB. Pai que é o nome do arquivo inteiro doente e vão ver se funciona se tudo
tiver funcionando a gente vai aparecer novamente aquele 200 que a gente fez várias vezes dizendo que tudo está funcionando e a gente vai conseguir ver aqui no nosso terminal os resultados que a gente quer beleza mas Entrou mas ficou muito estranho ainda não tá no jeito que eu queria porque porque a gente aqui ó na hora que eu coloquei essa estrutura eu botei essa estrutura mas não botei o ponto Betty que era aquela estrutura que a gente viu que pegava a informação correta então vou botar aqui ó novamente. Jet e vou mandar rodar de novo
o meu projeto G1 o Skype Call IMDB e agora já aparece diferente olha eu não gosto em menor se eu subir aqui ó já tá aparecendo para mim título A Batalha Vovó Ana 1996 nota 9.2 índice de Word 2007 9.2 e assim vai eu já consegui pegar as informações 200 aqui eu tinha falado que vocês ele conseguiu pegar as informações de todos eles nem eu mas eu não quero ficar isso que no meu terminal faz mais sentido para mim eu quero pegar esse no outro lugar eu quero mostrar aqui vou ficar entrando aqui para ver
isso então a gente vai fazer para usar a mesma coisa tá vou botar scrip Troll e MDB e vou comprar tracinho tem o o minúsculo e tem o o maiúsculo tá o o minúsculo ele pega o arquivo que já existe ele vai sempre colocando informação ali quem tá no mesmo Arquivo ele não subscreve né Não sobrepõe o que tava ele já o o maiúsculo Ele sempre vai começar como se fosse do zero então ele vai subscrever o que tava escrito eu vou botar o o maiúsculo nesse caso Pior que eu quero e vou para dizer
que o NBB. A extensão que eu quero vamos aqui é uma extenção Jason que eu acho muito utilizada quando se quer fazer em pé aí vocês vão criar um arquivo desse que depois eu consigo acessar as informações de forma simples podem ter ele vai rodar novamente sempre invés de trazer as informações simplesmente aqui no terminal ele vai jogar para uma um arquivo externo e esse arquivo externo seu clicar né minha parte nb250 vai aparecer para mim aqui ó IMDB. Jason cliquei tá lá aparecendo para mim o nome o título O ano e a nota e
de forma automática em pó 251-a linhas nós estamos 250 porque tem essa primeira linha aqui tá lista então consegui acessar as informações conforme Eu tava imaginando Eu posso também jogar isso por exemplo um csv MDB. Csv e fica aqui ó cada atualizada o IMDB pontos sv tá lá o título ano nota e tem todas as informações feitas aqui beleza Daniel mas aqui você colocou mas não queria esse parentes aqui por exemplo lá tranquilo Se a gente tem uma situação O que é o nosso caso onde é que essa resposta tá me dando item de uma
lista e esses itens de uma lista são texto só porque eu tô buscando os textos dele e todo o texto é uma string no Python então eu consigo tratar uma esfinge como lista como uma lista né eu vou fazer o seguinte vou pegar toda a informação que vier do ano só que eu vou pegar apenas os caracteres de um até menos um esse menos um não está incluído se menos um significa o último caractere só que ele não tá incluído e um significa o segundo o caracter porque o primeiro seria de posição de número zero
então eu tô pegando o segundo o caracter até o penúltimo caracter que exatamente que eu quero porque o parente está sempre o início tá sempre no final então eu quero os caras do Meio quando mandar rodar novamente a e no meu arquivo csg pronto meu ano já tá feito certinho do jeito que eu gostaria que estivesse Oi e aí gente tá feito creme a visão queremos S ver posso fazer isso criar uma programação para poder ele acontecer de forma recorrente sempre tá atualizando Qual o melhor filme por ele é seu melhor preço poderia ser o
os produtos que estão sendo vendidos qual era a quantidade de estoque no sistema enfim posso ter milhões de coisas que eu posso fazer aqui com webscreping aqui é o início é a ponta do iceberg o que a gente pode fazer mas espero vocês tenham gostado de lá no comentário se você assistiu isso tudo disso você gostou se você achou bom se te ajudo se Foi útil para você se você tem vontade que a gente faça alguma outra coisa aqui no canal se você gostou compartilha curte se inscreve no canal para mais vídeos como esse a
gente tá aqui a gente fica motivado vídeo desse tamanho a gente fica motivado e é o que movimenta a gente essa vontade aí que vocês têm de aprender Beleza Espero que tenham gostado um abraço
Related Videos
Quais as Novidades do Python 3.10 e Como Fazer a Instalação
28:50
Quais as Novidades do Python 3.10 e Como F...
Hashtag Programação
33,364 views
Introdução ao BeautifulSoup - Raspagem de Dados com Python
32:04
Introdução ao BeautifulSoup - Raspagem de ...
Hashtag Programação
48,288 views
WEBSCRAPING COM SCRAPY  E PYTHON PARA INICIANTES
1:10:25
WEBSCRAPING COM SCRAPY E PYTHON PARA INIC...
Programação na Prática
6,182 views
Python Tutorial: Web Scraping with BeautifulSoup and Requests
45:48
Python Tutorial: Web Scraping with Beautif...
Corey Schafer
1,127,461 views
Como Fazer uma Automação Web Utilizando o Python e o Selenium
32:35
Como Fazer uma Automação Web Utilizando o ...
Hashtag Programação
176,312 views
Como fazer web scraping com python em sites dinâmicos // O site muda toda hora
22:55
Como fazer web scraping com python em site...
Codifike
73,826 views
As Bibliotecas Mais Importantes do Python e os Módulos que Você tem que Saber
20:25
As Bibliotecas Mais Importantes do Python ...
Hashtag Programação
93,658 views
Coding Web Crawler in Python with Scrapy
34:31
Coding Web Crawler in Python with Scrapy
NeuralNine
114,208 views
Como Criar API com Python - Crie a Sua Própria API no Python
27:51
Como Criar API com Python - Crie a Sua Pró...
Hashtag Programação
149,123 views
Como fazer Web scraping através da linguagem Python | Tutorial Avançado
1:10:41
Como fazer Web scraping através da linguag...
Xperiun | Data Analytics
7,140 views
How To Generate Google Maps Leads with Selenium Python
46:46
How To Generate Google Maps Leads with Sel...
Michael Kitas
5,097 views
Curso Básico de Python 2024 - Aula 1 - Introdução ao Python
36:12
Curso Básico de Python 2024 - Aula 1 - Int...
Hashtag Programação
68,216 views
Aprenda a fazer Web Scraping em sites com Automa
32:54
Aprenda a fazer Web Scraping em sites com ...
dcode
13,975 views
webscraping com python - 5000 itens OLX com scrapy e python em 5 minutos.
31:26
webscraping com python - 5000 itens OLX co...
Programação na Prática
10,001 views
Como fazer webscraping com python em múltiplas páginas
17:18
Como fazer webscraping com python em múlti...
Codifike
20,882 views
Projeto Python Freelancer de R$800,00 do ZERO! [Como Fazer]
36:22
Projeto Python Freelancer de R$800,00 do Z...
Dev Aprender | Jhonatan de Souza
184,900 views
MELHOR FORMA DE APRENDER PYTHON (Google Colab Notebook)
30:39
MELHOR FORMA DE APRENDER PYTHON (Google Co...
Filipe Deschamps
865,318 views
Live #19 - Web Scraping: Como extrair qualquer tipo de dado da internet
2:12:47
Live #19 - Web Scraping: Como extrair qual...
Escola de Dados Preditiva
9,954 views
Como Deixar o Código Python Rodando Automaticamente com o Computador Desligado
25:40
Como Deixar o Código Python Rodando Automa...
Hashtag Programação
65,995 views
Como fazer Web Scraping utilizando Python e Selenium?
23:51
Como fazer Web Scraping utilizando Python ...
Comunidade DS
27,789 views
Copyright © 2024. Made with ♥ in London by YTScribe.com