isso aí pessoal boa noite tudo bem com vocês Tudo tranquilo por aí mais uma terça-feira começando uma live da preditiva Live 19 hein caramba cara tá passando tempo 19 semanas aqui toda semana compartilhando conhecimento com vocês né tanto alunos ou para as pessoas que nunca viram apreensiva é a primeira vez na Live são muito bem vindos Hoje vamos falar de coisa bem interessante hein pessoal né acho que é uma das dúvidas mais assim que aparecem aí quando os nossos alunos aqui a gente vê na internet também quando a gente não consegue baixar os dados de
bases do Excel bases do SQL e do DW ou mesmo via apis aqui que a gente faz o dado existe só que a gente não consegue capturar porque ele não tá acessível E aí que entram conjunto de técnicas de extração que a gente vai falar na aula de hoje tá boa noite a todos quando o pessoal vai entrando aí deixa eu ver como é que tá o chat quem já tá aqui ou Marcos aí direto de Portugal da terrinha Boa noite Marcos tudo bem deixa eu ver acho que tem algumas pessoas aqui que parecem que
são novas hein Coloca aí no comentário pessoal no chat se é a primeira vez aqui talvez aqui eu Peçanha quem mais aqui Patrícia o Fernandão aqui boa Fernando Quem mais tá aqui Felipe sempre aqui com a gente o Elton também outro aluno da primitiva Olha o Ralf aí não perde nenhuma muito bom pessoal Parabéns aqui pela Constância né está aqui semanalmente com a gente para nos ajudar aqui com interações com dúvidas a Live sempre fica mais gostosa de fazer para gente quando Vocês participam para quem é a primeira vez coloca aqui nos comentários para ter
uma ideia de quantas pessoas novas tem aqui e para quem é novo pessoal né Eu sou o Vini um dos professores da preditiva a preditiva é uma escola de análise e ciência de dados A gente ajuda qualquer profissional a tomar boas decisões com o uso de dados Ah você não precisa ser um analista de dados um cientista de dados você não precisa ser de ti você não precisa ser de exatas dúvidas que muitas vezes aparece importante é você tem dado a ser analisado na sua empresa Você precisa aprender as técnicas e as ferramentas e as
metodologias que a gente ensina aqui na escola e aí semanalmente a gente tem esse encontro aqui com alunos e não alunos ainda que não são alunos da preenchendo para compartilhar conhecimento e vocês terem uma ideia do universo de dados o que a gente consegue resolver com o uso de dados né que é muita coisa para quem acha que isso conteúdo pessoal é interessante para alguém que conhece algum colega de equipe chefe time manda essa Live para as pessoas eu tenho certeza que esse conhecimento vai ser muito útil para todo mundo que trabalha com dados e
tem o dado lá na frente mas tem dúvida de como é que isso daqui vai virar uma planilha vai virar um arquivo que você consiga trabalhar aplicando as técnicas de análise e ciência de dados tá já dá um curtir aqui também pessoal no vídeo para que o YouTube entregue esse conteúdo para mais pessoas por favor nunca te pedi nada e aí a gente vai continuando deixa eu mandar aqui um salve aqui para o pessoal do Instagram né Geralmente as pessoas começam lá no Instagram e vem aqui para o YouTube para a gente para a gente
falar deixa eu mandar aqui para eles é isso boa então tá lá também ao vivo no Instagram daqui a pouco eu tiro do Instagram para a gente focar aqui só no YouTube isso aí gente deixa eu ver aqui Anne é primeira vez quem mais aqui primeira vez o Michel o Luiz boa pessoal sejam bem-vindos aqui tá novato querendo adquirir seu curso boa Thiago então é uma ótima oportunidade aí para você ter uma ideia aqui um pouco da nossa metodologia dos assuntos que a gente trata fique à vontade aí para perguntar é isso gente bom então
sem mais delongas eu falo essa frase muitas vezes vamos começar aqui então com a nossa Live de hoje né como eu falei para quem começou entrou aí pontualmente às 8:31 eh Hoje a gente vai falar sobre um tema importante dentro do universo de análise de dados que é o tema de web ou seja do inglês raspagem de dados né basicamente é o seguinte você tem uma página de internet que tem tabelas que tem informações que tem dados que você gostaria de cruzar com outras outras fontes gostaria de aplicar técnicas estatísticas como análise descritiva correlação relação
com esse dado que tá aqui na internet e outros dados internos Então você quer aplicar análise de dados só que esse dado ele não tá facilmente acessível por outras formas que você já conhece por aí tá na Live passada a gente falou sobre o processo de etl lembra disso processo gtl é aquele processo de você extrair o dado esse dado ele tá bruto ele tá cheio de ele tá sujo né ele tá com problema pode ter dado duplicado fora de padrão etc você transforma esse dado aplicando uma série de técnicas de manipulação e Deita preparation
lá do inglês e aí com isso esse dado tá limpo para você conseguir aplicar as técnicas estatísticas que vão gerar os insights de negócio né através dessas técnicas que você consegue resolver os vários problemas de negócio que estão por aí como é que você melhora a venda no encosto como é que você melhora a vida do seu cliente enfim vai depender Claro do ramo que você trabalha mas basicamente você vai aplicar sempre as mesmas técnicas que quando bem aplicadas você vai gerar soluções com o uso de dados que isso que tem grande valor no mercado
né Qualquer profissional que desenvolve essas habilidades é um profissional que vai ter futuro na carreira então simples quanto porque já saiu inclusive o último relatório do Futuro de trabalho vale a pena vocês lerem um relatório bem legal de 2023 e ano após ano o fórum econômico Mundial pesquisas de todas as consultorias consolidadas eles percebem que não tem é um caminho sem volta se você não aprender a analisar dados você vai estar fora do mercado e já está né Isso já está acontecendo tá então é esse esse conhecimento de você transformar o dado informação é mais
do que relevante hoje em dia e aí a gente tem que aprender uma série de técnicas uma série de metodologias para isso acontecer né então no tema de hoje a gente vai falar sobre esse essa forma de extrair dados que a gente não tratou nas últimas lives na última a gente falou sobre apvo até relembrar para quem não viu a Live passado mas antes disso pessoal para quem é novo aí principalmente ou não tá inscrito no nosso canal do telegram embora o telegram tá vindo né às vezes no Brasil eles cancelam aí o telegram deixa
ele fora do ar né tá meio embaçado esse negócio aí mas tudo bem temos o nosso canal do telegram Para que serve esse canal para compartilhar os PDF as bases de dados e os dessas lives para quem é aluno da preditiva já tá lá na plataforma né sempre um dia depois a gente posta lá na plataforma se você não é aluno preditivo a gente manda lá e fica disponível por 7 dias depois a gente remove do telegram então uma oportunidade para você ir lá e ficar atento para baixar esses materiais e reproduzir os exemplos que
estão aqui guardar como referência futura tá o link está na descrição e para quem não sabe também a gente tem uma lista de presença que eu passo uma palavra chave no final aqui do treinamento e aí pessoal né Depois de um tempo eu vou especificar aqui quantas lives a gente vai fazer o sorteio a gente vai fazer o sorteio de Prêmios podem ser canecas livros descontos no curso da preditivo ou menos bolsas integrais é bem legal é uma forma de reconhecer Quem tá aqui online com a gente compartilhando aqui conhecimento fazendo perguntas que geram Novas
Novas respostas novos conteúdos então é uma forma bacana Aí que a gente começou a fazer recentemente tá então fica até o final você vai receber a palavra chave entra aqui na lista de presença o link está na descrição E aí você vai concorrer os preços beleza é isso meus amigos vamos lá então tá Relembrando o conceito da Live passada a gente falou sobre etl e é isso naquela Live nós falamos sobre o processo de você gerar valor com dados esse processo está baseado em você ter dados brutos e desses dados brutos você quer gerar o
valor tangível então todo mundo fala que dados gera valor então como é que isso acontece através de uma jornada e essa jornada começa aqui com a transformação dos dados e aqui que entra o tal do etl que a gente falou na Live 18 se você não viu a Live 18 vale muito a pena ver lá e explica é no detalhe como essas coisas funcionam e claro né Tem etls de milhares de formas diferentes vai depender do seu Dário vai depender do tipo de informação que você quer vai depender da ferramenta que você usa mas o
fundamento de eterna é importante que todos entenda tá e a gente já falou isso daí é ontem não né na última lá certo E aí pessoal do processo de etl você coloca o dado algum VW algum repositório em algum deita Lake E aí na empresa que você atua Tem algum tipo de ferramenta é que eles usam para dedar esse tipo de ferramentas são bancos de dados SQL são bancos de dados na Cloud pode usar soluções da WS pode nos usar soluções aqui do gcp que é o Google Cloud plataforma pode usar soluções aqui do EJA
então assim Existem várias ferramentas plataformas em que os dados são armazenados Para quê Para que todos os times da empresa utilizem o primeiro conjunto de pessoas que usam esses dados são os times de negócio tá então o time de negócio aqui ou analistas de dados os analistas de dados eles usam esses dados para gerar análise exploratórias ou seja analíticos e criar das coisas né se esse é o objetivo aqui do projeto de dados então eles vão lá e bebem dessa fonte que depois do processo aqui de etl foi disponibilizado certo e aí depois pessoal a
gente tem o time que aplica Machine Inteligência Artificial nesses dados que nada mais é se você já participou né ela não dá priva já estuda é isso sabe que machine learning nada mais é do que você aplicar basicamente as mesmas técnicas estatísticas que você aplica em camadas aqui anteriores Mas você aplica elas de forma automática através de alguns algoritmos que garantem uma automação do processo de decisão Então você quer verificar a probabilidade do seu cliente da charme você pode não só analisar isso variável a variável que é o processo manual como você também pode fazer
isso de uma forma automática todas as variáveis simultaneamente e quando você faz isso você tá aplicando um algoritmo de Machine né no mercado quem aplica machinani geralmente são os cientistas de dados certo então os cientistas são os profissionais que fazem isso para quem não sabe essa já é uma primeira dúvida muito comum qual é a diferença de um analista um cientista de dados um analista ele geralmente não tem atribuição de fazer modelos apesar de ter algumas vagas ou outras aí que perguntam esse tipo de experiência e eu acho bizarro para caramba já até coloquei não
é um poço sobre isso no Linkedin é porque porque não dá para conhecer tudo né a gente precisa separar aqui os grupos de profissionais por exemplo até o profissional que faz o etl para quem não viu a Live passada esse profissional no mercado é o chamado engenheiro de dados porque o engenheiro de dados Ele precisa conhecer uma série de linguagem de programação formas de desenvolver software é um profissional mais ligado a ti enquanto um profissional que trabalha aqui fazendo analíticos ou mesmo modelos é um profissional mais de negócio que sim usa ferramenta usa ti mas
ele esse não é o ponto a ferramenta é só um meio o fim dele ia gerar valor para o negócio é responder uma pergunta por isso que tem essa diferença né entre os perfis dos profissionais tá E aí depois que o analítico foi feito foi feito ou mesmo machiname a gente precisa colocar isso para rodar ele precisa colocar isso para produção e aí quem faz esse processo geralmente é o cientista ou analista ou dependendo da sua empresa uma empresa mais estruturada você tem o papel aqui dos Engenheiros de Machine ou Engenheiros de analíticos que eles
pegam a solução feita pelo analista ou cientista de dados e eles têm problema essa palavra aqui eles criam um produto que esse produto deles é uma automação para fazer com que é esse produto de dados feito pelo jornalista os cientista o analista de negócio entre em ação e aí com isso você espera de fato ter o valor tangível então essa essa jornada pessoal bem importante eu sempre faço questão aqui de frisar porque ela já explica muita coisa dentro do universo de dados o dado tá lá bruto nas ferramentas no arquivo csv nas planilhas no sites
que é o que a gente vai ver aqui hoje E aí ele tem toda uma jornada até de fato aquilo gerar algo de valor para empresa tá E essa jornada Depende de ferramentas dependem de técnicas dependem de vários profissionais trabalhando em conjunto dentro de uma estrutura das empresas Depende de tempo Depende de paciência Depende de investimento enfim tem várias coisas que acontecem aqui por isso que não é tão trivial do nada você tá lá com dado bruto e já começar a Gerar milhões na empresa geralmente não funciona assim né Tem um processo para essas coisas
acontecerem tá bom é isso gente falamos também na Live passado o processo gtl lembra dele primeiro eu tenho uma etapa que distraiu o dado que eu extraio ele de dados aqui de determinado sistemas dados diversos depois a gente tem uma etapa de transformação que eu verifico duplicados tiro lá valores faltantes padronizo Verifica o se o dado Tá certo se ele é texto se ele é número deixa ele lá bonitinho para ser carregado e um DW E aí no processo de carregamento do load que ele vai ser disponibilizado para as equipes e lá no na Live
passada a gente falou aqui às vezes esse dado você não precisa carregar em nenhum lugar porque ele já tá carregado e você mesmo assim Precisa fazer extração e mesmo assim Precisa fazer uma certa transformação para aplicar na análise de dados que você quer fazer na empresa certo então essa etapa de longe aqui geralmente acontece você é um engenheiro de dados caso Claro se você é um analista ou cientista um profissional de dados qualquer que tá usando lá o dado da empresa você Geralmente só vai fazer as etapas de extração entre transformação E aí você pula
a etapa de carré carregamento e já vai direto para o Analytics para aplicar no seu processo E aí pessoal para finalizar o overview da aula passada né da nossa Live a gente mostrou para você um exemplo de todo esse processo é para pegar dados de ações em uma API então a gente usou aqui uma API para quem não sabe que uma API é uma forma de você capturar dado de serviços de sistemas e através de algumas requisições que você faz na linguagem de programação ele extrai esse dado para você a gente usou ferramentas como Python
e o Power na Live passada para mostrar como isso é extraído através dessas ferramentas depois a gente mostrou exemplos de transformação também nessas mesmas ferramentas tanto no pai então como no power para você ver como a gente pega esse dado bruto e transforma ele para ele ficar útil para sua análise e aí depois a gente simulou aqui o carregamento isso não DW usando a ferramenta de cloud do Google chamada é uma ferramenta bem comum no mercado né as empresas que usam a estec de tecnologia do Google e aí né Esse foi um processo por exemplo
que um engenheiro de dados faria o engenheiro de dados que geralmente vai lá e carrega a informação no DW os analistas de negócio analistas de marketing CRM isso trabalha com logística você é o usuário geralmente você não carrega o dado lá no Big quireras não carrega o dado na Cláudia certo a gente usa esse dado para as análises Tá mas simulei para vocês entenderem como isso é feito e como eu falei se você é um usuário geralmente você fica só nessas duas etapas na extração e na transformação o dado para o seu uso a sua
análise o seu décimo a sua análise exploratória tá e assim por diante beleza bom meus amigos então é isso posto Qual que é o ponto aqui né para você fazer a extração do dado o dado geralmente ele vem estruturado se ele já tá no DW se ele já tá aqui numa pi ele tá minimamente estruturado existem dados mais estruturados que outros naturalmente mas às vezes né o dado ele não tem tabelas lá do SQL ou ele não tem api então ele tá disponível em algum ambiente como uma página de internet É nesse momento que a
gente precisa usar essa nova forma né de captura de extração chamada pessoal que vem do termo aqui em inglês raspagem de dados é o processo que eu vou lá na internet e capturar os dados que estão numa página que estão numa tabela e coisa do tipo por exemplo Imagine que você tá aqui numa uma numa página de internet como essa aqui que o consultor de vez em quando que a página aqui da fundamentos a página do fundamentos aqui é uma página que tem preços de ações de ativos né então se você investe tem uma carteira
de investimento você geralmente usa serviços como esse E aí quando eu clico aqui por exemplo em empresa Redondo buscar que que acontece ele vem aqui e mostra uma série de dados certo todos esses dados aqui pessoal você gostaria de analisar em um software de analíticos né que pode ser desde uma planilha de excel ou no pai ou no power não importa ferramenta de menos O importante é você aplicar técnica entender os conceitos e aí você precisa do dado e esse dado tá aqui na internet como é que eu pego isso tá como é que eu
pego os dados que estão aqui às vezes é fácil você poderia simplesmente chegar aqui a dar um control c control V certo quem nunca fez isso control c control V só que é muitas vezes esse control c control V é ele não é tão simples assim porque às vezes o dado quando você cola numa planilha Ele cola todo desconfigurado todo mundo já passou por isso né E aí com isso você acaba sendo um problemaço para tratar esse dado E com isso analisar e fazer aquilo que você gostaria Então seria bom ter um processo mais automático
ou mais produtivo para isso acontecer E aí que entra meus amigos o tal do Então webscraping são as técnicas que vão fazer com que a gente captura esses dados que estão na internet tá bom E para isso acontecer a gente tem que ter algumas noções de alguns de alguns tópicos aqui pessoal um deles né um dos Tópicos mais importantes para você entender o processo de você entender sobre minimamente como que as páginas de internet são construídas certo então coloca nos comentários aqui se alguém aqui já tem experiência por exemplo em HTML CSS que são duas
estruturas importantes para construção de páginas da internet só para ter uma ideia coloca aqui por favor nos comentários do YouTube tá para quem está assistindo no Instagram eu só tô olhando aqui né respondendo no YouTube tá pessoal então por isso que eu recomendo que vocês tá aqui no comentário fixado o link na para o YouTube então comenta lá pessoal se você já tem noções de html se você já desenvolver alguma página ou mesmo isso dou isso para fazer algum tipo de webscraping só para ter uma ideia aqui deixa eu dar uma olhada aqui nos comentários
porque a gente chegando aqui boa noite para todos né Não conheço muita coisa ansioso para conhecer Maravilha boa hoje aí sempre conosco aqui também dá uma curtida completamente o alerta uma boa oportunidade para dar um bom entendida ler bastante o que tem para trás sim né Tenho boa Francisco deixa eu ver aqui não tenho nenhuma noção o André falando Conheço pouco conheço pouco não conheço Jair o Ralf perdão Maravilha pessoal então nossa esse daqui é antigo hein Deixa eu ver aqui o Francisco falando usei bastante no Dream Weaver né chega macro mídia foi comprada pela
Adobe depois né também já usa esse software legal deixa eu ver a dele falando aqui conheço com o apoio consigo usar para desenvolver pequenos projetos gratuitos online legal né Isso vai ser útil para você entender muito bem meus amigos então a gente precisa conhecer HTML mínimo né e CSS mínimo eu vou dar exemplos disso na Live de hoje fica aí que vai ser bem bacana mais coisas que a gente precisa entender são algumas estruturas de selecionar objetos numa página essas estruturas são chamadas de expert e selectors então vocês vão entender como isso é feito é
muito simples a gente capturar aquilo que a gente precisa e já coloca por exemplo do nosso processo de extração e raspagem de dados pessoal a gente também precisa para aplicar o scrap em geral alguma linguagem programação existem ferramentas eu vou mostrar algumas aqui para vocês hoje ferramentas que você não precisa programar para extrair Mas elas têm um problema a maioria é paga e eu acho ela bem elas bem caras geralmente aí 40 50 dólares por mês para você utilizar ferramentas como essa claro que se você trabalha numa empresa né isso daí faz parte do custo
para que a área funcione até aí tranquilo só que se você tá estudando se você tá aprendendo como isso é feito e você não quer ter esse custo aí você geralmente vai ter que utilizar programação para isso tá então se você é um aluno ou é um profissional que ainda não estudou pai então qualquer coisa e tá começando analisar dados não tem problema é você não precisa fazer a raspagem do dado como primeiro projeto para você né Por exemplo com seus projetos de estudo ou portfólio você deve o que vive falando aqui na preditiva para
você você tem que começar a aprender as técnicas os conceitos as técnicas que vão gerar extração aqui dos insights E aí você usa dados que já estão estruturados é para isso você usa um Excel é um SQL ou mesmo Power então é um erro na minha opinião o aluno que nunca viu dados começar a utilizar Python porque você provavelmente vai se desmotivar é uma linguagem que não é da noite para o dia que se aprende você nunca programou nada por mais que ela seja fácil para quem já programou para quem não programou é uma barreira
de entrada então aqui Pessoal esse exemplo que eu vou mostrar é para você entender como isso é feito para você já saber colocar na sua trilha de aprendizado que em algum momento se você quer ser um analista de dados e principalmente um cientista você vai ter que aprender paithon para conseguir ser mais produtivo dá para ser uma lista de dados sem conhecer Python Claro que dá né a maior parte do mercado você precisa trabalhar bem no Excel no SQL não é e se você for fazer dashboard Aí você usa um table ou um par agora
se você não quer ser um analista não quer ser um cientista aprende Excel as técnicas estatísticas por exemplo lá a gente coloca nas trilhas da primitiva lá na plataforma que você já tá de bom tamanho né por isso que quando a gente entra lá na comunidade da primitiva aqui na parte dos conteúdos na nossa plataforma né melhor dizendo aqui a gente tem as trilhas fundamentais né Essas são as trilhas que todo mundo que entra na preditiva consome primeiro o Excel para você ter uma ferramenta para ser produtivo aí você aprende estatística descritiva análise com relação
técnicas de projeção probabilidade aí você trabalha com amostra prende métodos aqui para gerar valorizados então começo é técnica e uma ferramenta depois você vai lá e [Música] começa a expandir o seu conhecimento para outras ferramentas Tá bom então para o webscraping sendo mais objetivo Você vai precisar provavelmente de linguagem de programação que mais que você vai precisar pessoal algumas ferramentas de automação que também estão relacionadas aqui a linguagem uma uma que a gente vai olhar na aula na aula de hoje é o selênio que é uma ferramenta de automação como é que você pega e
clica automaticamente alguns elementos da página e essa página vai lá e captura o dado e processa para você a gente vai falar sobre sobre isso E aí por fim pessoal acho que pouca gente fala sobre isso mas eu sempre gosto de frisar é a ética e por que a ética Você vai precisar de ética Como assim porque pessoal não é à toa que esses dados não estão estruturados muitos sites inclusive eles não querem que você vai lá e capture esses dados porque são Dados confidenciais são Dados que você precisa pagar para obter Então tem que
sempre tomar cuidado a dica que eu dou aqui de você olhar os termos que você é de alguma ferramenta ou site que você tá trabalhando para que você consiga entender se vale a pena ou não fazer o scraping desse site porque é tem dados são muito valiosos e algumas ferramentas dificultam bastante aí que tem bastante que colocam Caps E aí vai lá eu não sou um robô lembra aquele negócio você clica porque né porque ele não quer que você fique capturando dados de forma automática é dado hoje é uma nova moeda né dado significa dinheiro
então quando você tem esse dado e pessoas que saibam analisar os aplicando as técnicas isso gera muito valor isso as grandes empresas já sabem Então existe aqui um processo relacionado à privacidade proteção dos dados que você sempre deve observar tá antes de sair raspando de tudo que é site que você tem acesso Tá certo bom meus amigos então para isso Resumindo você precisa conhecer um pouquinho de html alguma forma de você obter o dado na página algumas linguagens de programação e claro não é bom senso ética para isso fazer para isso acontecer tá então vamos
para a primeira demonstração pessoal da Live de hoje e eu vou mostrar para vocês um pouco de html CSS para quem nunca viu inclusive vou construir uma página aqui para vocês para vocês entenderem como essas páginas são criadas e depois a gente vai lá e vai extrair o dado dessa mesma página criar Tá bom a gente começar a dar um exemplo mais simples e depois a gente vai para um exemplo mais complexo Hoje a gente vai extrair dados do LinkedIn que é uma ferramenta que não quer que você extraia dados o Linkedin tem vários dados
bem importantes bem relevantes e ele faz de tudo para que você não estraga mas os dados que a gente vai usar aqui são Dados públicos né se você não precisa de uma conta então não vai ter problema certo mas é para você entender sempre se é possível extrair isso dado é público Sei lá tá bom deixa eu ver aqui como é que tá o chat só para ter uma ideia muita gente falando aqui também que nunca trabalhou com htmélio pouco Maravilha pessoal vai colocando aqui para a gente para a gente observar para quem tá aqui
no Instagram eu vou terminar aqui o Instagram Eu só coloco aqui no começo para vocês pularem lá para o YouTube tá bom beleza pessoal um abraço tchau tchau muito bem então vamos lá HTML e CSS pessoal eu até coloquei aqui ó uma tela preta para gente olhar isso isso junto tá as páginas de internet elas dependem de uma linguagem né que até tem uma questão Tem gente que fala que não é linguagem de programação é linguagem de hipertexto tudo bem é código e o código é construído de forma a Gerar as páginas E aí basicamente
você tem é três pilares para as páginas de internet que é o HTML o CSS e o Java script mas aqui a gente não vai falar de JavaScript que não precisa para nada aqui para webscraping nós vamos falar sobre HTML CSS tá bom e o HTML pessoal o que que é né deixa eu dar uma aumentado aqui ó lado esquerdo eu tô usando aqui um site que é usado para se programar HTML CSS java script e aqui do lado direito ele mostra a página sendo criada tá tudo começa com algumas tags né e a primeira
tag que se estuda é a tag chamada 200 ml tá espero que esteja dando para enxergar aí ó deixa eu aumentar aqui HT HTML e aí sempre que a gente começa uma tag dentro do HTML a gente tem que terminar essa tag com o html html e a gente coloca aqui uma barrinha para terminar o comando certo então uma página começa com html para abrir até HTML depois para fechar até HTML depois a gente tem o cabeçalho da página então eu venho aqui ó e abro o cabeçalho Tá bom então tem aqui ó abre e
fecha o cabeçalho e dentro do cabeçalho eu tenho uma tag chamada title que é basicamente o título da página Então vou colocar aqui ó exemplo esse daqui é o título da página Então vem aqui abrir o Python E aí eu vou fechar ele tá bom tudo isso é linguagem de programação HTML tudo bem E aí do lado direito ele já vai montando a página para mim depois que eu fecho o cabeçalho pessoal que que eu tenho também eu tenho aqui o corpo da página que no inglês e o corpo da página também tem o que
vir aqui e fechar com com as séries certo então é aqui ó abre e fecha e aqui pessoal aqui no corpo que você vê as páginas acontecendo você vê as imagens os textos as tabelas tudo aquilo que a gente está acostumado numa página de de internet tá Então olha só deixa eu dar uma diminuída aqui até então tá vendo que do lado direito não tá aparecendo nada né porque eu não coloquei nada no corpo da mensagem é agora que eu vou escrever uma coisa né eu vou colocar aqui por exemplo Olá pessoal da Live por
exemplo tá vendo que do lado direito aqui ó ele já preencheu com o Olá pessoal da Live Então pronto esse daqui já é a nossa primeira página de internet criada Eu só coloquei alguns códigos e Esses códigos criaram a página é claro né pessoal que é só uma página bizarra porque não tem nada né só tem uma frase é feia tem uma página em branco né não tá enfim com cores e aí que você vai sofisticando certo eu poderia chegar aqui ó do lado do lado aqui dessa dessa desse texto colocar outras tags que vão
formatando uma delas é a tag e poderia colocar aqui uma Line que alinhamento e aí eu poderia fazer isso aqui ó a Line Center tá nada disso você precisa decorar tá pessoal é só para vocês entenderem a coisa a coisa funcionando Então olha só eu fechei aqui a pele ela e ou melhor Abrir né E aqui ó eu vou fechar ela barra p para fechar essa tag olha o que aconteceu do lado direito aqui ó tão vendo a tela aqui pessoal ela é a frase ela ficou centralizada porque eu coloquei a linecenter Então sempre que
a gente for raspar dados fazer web scrap a gente precisa entender as tags que vão ter a informação que você quer pegar né e por isso que eu tô mostrando aqui para vocês Tá bom então continua eu poderia chegar aqui ó e colocar uma tag de fonte essa fonte colocar um atributo aqui de cor e aí eu venho aqui ó coloca uma cor Red E aí que que vai acontecer Olha lá então ficou com a cor vermelha Tudo bem então eu vou conseguindo colocar formatações aqui no HTML também eu preciso fechar essa tag fonte então
Barrinha fonte perceba Então essa pessoal é uma estrutura muito simples de uma página de html você tem as tags principais HTML as tags de cabeçalho que são as rédeas Você tem os títulos da página e aí dentro de Bari que você vai lá e vai colocar todas as informações Tá bom eu até deixei aqui ó no jeito uma outra página aqui para vocês apagar essa daqui e vou colar Então essa daqui ó é um exemplo que olha que ele faz ele gera uma tabelinha olha aqui ó Então essa aqui é uma página simples que tem
dado eu tenho três colunas duas linhas e aí eu poderia extrair essa informação de uma página se cuida com essa tá com essa esse tipo de informação Então tá lá pessoal né para construir isso eu usei aqui ó uma tag chamada table uma tabela Depois tem outras tags que fazem as linhas e tudo mais Então é só para vocês entenderem Como que é o processo isso é HTML tá bom para quem nunca viu agora a página tá feia né Eu gostaria de fazer formatações colocar cores background e tudo mais é aí que na internet pessoal
para quem trabalha com desenvolvimento de site eles têm que estudar o carinha chamado CSS que aqui nessa ferramenta eu escrevo código CSS aqui então exerce é uma forma de você formatar o código HTML os dados que estão lá no código HTML tá bom E aí para você ter uma ideia Olha só para você formatar isso eu já deixei aqui no jeito Olha só como que funciona Olha como ficou a nossa página aqui do lado direito você viu deixa eu apagar aqui ela volta aqui ó sem formatação e agora colocando código CSS ele foi lá e
formatou né ficou muito melhor é a visualização dessa tabela coloquei aqui background deu um espaçamento e tudo mais então toda página pessoal de internet que a gente vê né Por exemplo aquela que a gente tava olhando agora a pouco é uma mistura de HTML e CSS certo o HTML é para Popular a página com informação e o CSS é para formatar essa página com cores espaçamento imagens e uma série de outra coisa inclusive animação tá então as páginas que você vê que tem animação também são feitas por SSP não por JavaScript que é uma outra
forma de você animar e tudo mais tá certo e aí para você ter uma ideia Olha só como que é o CSS funciona ele vai lá você precisa passar aqui para ele ó deixa eu aumentar aqui para vocês você precisa passar aqui para ele Qual é a tag que ele vai formatar então no caso a gente tem aqui uma tag de tabela tá vendo o table o table tá aqui ó uma tag de tabela Então essa tag de tabela tudo que tiver abaixo do table eu coloquei aqui para ele colocar para ele formatar a o
espaçamento né na verdade a largura com 100% da página bordas e tudo mais olha aqui ó mais configuração tudo que tiver tag th e TD que tá aqui ó th e entender que são essas esses dados ele vai alinhar à esquerda ele vai colocar aqui um ted nada mais é do que é uma como se fosse uma moldura interna aqui dentro da da da caixinha né que tem o dado enfim mais informações aqui o tamanho aqui da borda então perceba pessoal aqui é o background color que eu tenho na no cabeçalho então o CSS você
tem que passar para ele Qual que é o elemento HTML e aí você passa todos os códigos de formatação tá Vini eu preciso entender tudo isso para fazer webscraping não você precisa entender o que que é o HTML o que que é o CSS para depois a gente se localizar na ferramenta que vai extrair esses dados Tá bom então para você conseguir extrair os dados você precisa se localizar no que que é Body no que que é tem bom no que que é né os elementos que tem o dado tá vendo aqui ó tá vendo
nome idade e cidade esse aqui é o elemento que tem o dado E aí na página a gente vai ver dessa forma só que a gente vai usar o código para pegar informação que a gente precisa tá certo então por isso que é importante você entender beleza bom isso é HTML CSS e daqui a pouco eu vou mostrar para vocês como é que a gente extrai o dado dessa desses códigos mas por hora para quem nunca viu essa já é uma boa introdução beleza pessoal coloca aqui no chat para ver se tá claro se ficaram
com alguma dúvida deixa eu ver aqui um pessoal já já interagindo pois a única coisa que fiz em HTML foi o famoso É isso aí Diogo quem nunca né É assim mesmo agora você vai para extrair dado de webscrap você não vai precisar se preocupar muito com programar HTML só entender mais ou menos como que ele é localizado na página Marcos o CSS é o Photoshop do HTML é basicamente isso Marcos é basicamente isso beleza gente bom então para quem nunca viu prazer HTML CSS O que que tem agora aqui na demonstração eu vou mostrar
para vocês como é que a gente extrai esses dados né de uma página e para que vocês percebam isso eu vou construir uma página rapidamente aqui para vocês com algumas informações que eu capturei inclusive lá do nosso portal eu peguei os comentários dos nossos alunos lá no portal é sorteei 50 porque é o limite aqui da ferramenta que eu vou mostrar no plano gratuito E aí eu vou importar esses dados dessa ferramenta para a gente criar página de internet tá bom então hoje pessoal para quem cria página de internet a maioria não usa mais códigos
como esse eles usam ferramentas no code ferramentas que você não precisa programar tanto uma delas que eu já deixei aqui no jeito essa ferramenta aqui ó chamada web Flow tá bom essa ferramenta pessoal é uma das Ferramentas mais interessantes que tem para você construir páginas né que tem um bom performance etc simplesmente vindo aqui e é dando arrasta e solta de elementos prontos depois você vai lá e simplesmente configura a formatação que é o CSS né coloca a sua texto coloca a sua imagem E aí você já consegue publicar a página Tá bom eu vou
usar essa ferramenta aqui para vocês não se preocupem em entender como que a ferramenta funciona para você reproduzir isso que eu vou fazer não é esse ponto eu só quero te mostrar a construção de uma página e depois a gente focar no código HTML CSS que é o que a gente vai usar para extrair o dado Tá bom então olha aqui comigo pessoal eu tô aqui ó tá vendo que ele tá aqui como pare né tá bem o pequeno de enxergar aqui deixar aumentar dare então é como se a gente tivesse lá naquelas tags Vale
que eu acabei de mostrar para você tá bom então o que que eu vou fazer aqui ó eu vou boa jogar é um carinha chamado divlock nada mais é pessoal do que uma caixa em que eu vou colocar coisas e a maior parte das páginas de internet pessoal são feitas por caixas tá E vocês vão ver isso visualmente daqui a pouquinho então coloquei uma caixa aqui dentro dessa caixa eu vou dar um nome para ela e esse nome a gente faz através de um de uma coisa no HTML chamada classe eu vou aplicar uma classe
tá bom E aí eu vou chamar isso aqui como classe geral tá vou dar um nome para ela tô fazendo aqui do lado direito tá para quem não tá enxergando tô dando aqui o nome de classe geral Beleza agora que eu fiz isso o que que eu vou fazer pessoal vou colocar uma listagem e aqui na ferramenta da web Flow ele já tem um elemento próprio para você construir tabelas e listagens eu vou chegar aqui ó e colocar dentro dessa caixa que eu acabei de criar aqui do lado esquerdo ele até mostra olha só que
interessante ele até mostra a estrutura da página tá vendo que eu tenho aqui uma caixinha chamada classe geral e aqui embaixo acabei de colocar esse negócio chamado Collection list que é só uma lista tá vocês vão ver isso funcionando tá Então beleza Tô aqui com a minha com a minha caixinha eu vou colocar mais uma caixa agora para isso eu vou aqui no web Flow clicar aqui ó em divin Block E aí né aqui dentro do nosso da nossa estrutura Olha que eu vou fazer eu vou expandir aqui ó até chegar aqui no item e
eu vou pegar esse divórcio e olha que eu vou fazer pessoal vou colocar aqui dentro dele certo colocar aqui dentro do opa mais fácil dar um entra aqui fazer de novo deixa eu pegar aqui de vlog Vamos colocar aqui o de block aqui dentro volta volta então aqui ó é que ele tá tá dando um erro aqui deixa eu ver aqui que ele tá falando conecte Ah tá eu não tinha eu não tinha feito um passo anterior que ele a ferramenta precisa eu preciso conectar um banco de dados a essa listagem E aí como eu
falei para vocês eu exportei dados lá da nossa plataforma com comentários de alunos então isso aqui eu fui lá exportei da plataforma e importei aqui e eu tenho por exemplo o nome do aluno o módulo lá da plataforma da preditiva a aula e o comentário feito nessa nessa tá então eu tinha esquecido de fazer isso aqui eu vou clicar nele e vou selecionar aqui ó os comentários legal então agora sim ele colocou os comentários eu venho aqui pessoal dentro da estrutura da página e vou colocar o nosso Jimmy Block aqui dentro maravilha então você tá
vendo um monte de linhas e cada uma dessas linhas vai ser um comentário de aluno Eu tô construindo para vocês uma página para vocês verem como isso é feito tá aguenta aí que parte aqui é povinho eu não vi aqui na live para aprender a construir página Calma que esse conhecimento vai valer a pena para você entender como a raspagem de dado funciona Tá bom então chega aqui ó eu vou agora pessoal colocar dentro dessa nossa dentro dessa Nossa desse divórcio coloquei eu vou dar um nome para ele e esse nome eu vou chamar comentário
tracinho aluno Tá bom vou dar um nome comentário Acabei de dar tá vendo Olha só como ficou a estrutura da página eu tenho o Bari dentro do bari eu tenho aqui ó um uma caixa grande chamada classe geral dentro de classe geral tem uma lista E aí eu tenho aqui ó comentário do aluno Tá certo bom maravilha aqui que mais que eu vou fazer pessoal vou continuar dando nome para as coisas um deles é isso aqui ó Collection list eu vou chegar aqui ó do lado direito e vou dar um nome de lista tá bom
lista vou dar um enter também só para a gente ver como depois lá no HTML isso daqui vai funcionar Tá bom que mais agora pessoal agora que eu tenho aqui ó os retângulos que significam cada comentário do aluno eu preciso colocar texto e esse texto ligar com a minha base de dados tá então o que que eu vou fazer eu vou colocar aqui ó um bloco de texto chamado text Block e eu vou colocar aqui dentro de comentário do aluno Olha só como ficou ele vai lá e preenche um monte de texto esse texto não
significa nada para gente agora mas olha que interessante se eu pegar aqui ó dentro desse texto clicar aqui na engrenagem web Flow que a ferramenta que eu tô usando Olha só ele tá me falando você quer pegar esse texto de onde eu vou falar que eu quero pegar o texto Dentro de comentários eu clico aqui e aí eu vou selecionar da minha base de comentários Qual é o campo que tem a informação e eu vou colocar aqui é o campo nome que é o nome do aluno quando eu clicar nisso daqui olha que interessante ele
já começa a mostrar alguns dos alunos que eu sortee gente lá na plataforma certo é tá feio ainda claro que tá porque eu não formatei nada eu só tô alimentando com dado eu tô fazendo isso como se eu tivesse preenchendo o pessoal lá programação em HTML só que eu tô usando a ferramenta chamada web Flow para fazer isso de forma sem programar Tá certo então coloquei aqui e vou continuar fazendo isso só que a hora que eu vou fazer agora pessoal eu vou dar control c nesse texto tá certo e aí eu vou dar control
c control V depois vem aqui a compra eu ver de novo e mais um control V agora perceba que eu tenho quatro blocos de texto porque eu quero construir uma tabela nesse site que tenha quatro colunas então eu coloquei reservei aqui dentro do meu bar e quatro cordas quatro espaços de texto tudo bem bom pessoal calma que tá feião a gente vai programar a gente vai fazer a formatação disso que que eu vou fazer agora é nesse segundo texto não é o nome que eu quero tá então eu vou aqui ó selecionar agora por exemplo
o módulo Tá bom então agora eu tenho um módulo certo nesse terceiro texto aqui ó não é também nome então eu vou selecionar agora aula e no quarto texto que eu tenho não é nome eu quero que seja o comentário do aluno vi pelo amor de Deus não tô entendendo nada Calma aí que vai fazer sentido pessoal eu só tô mostrando como que eu criaria essa página numa ferramenta como essa porque daqui a pouco a gente vai pegar essa mesma página e extrair lá no Python tá bom beleza isso posto Olha só pessoal o que
que eu preciso fazer agora eu preciso dar uma formatada né porque eu já alimentei com dados a minha página E aí é só clicar aqui publit e publicar essa página todos vocês vão conseguir ver aí no computador de vocês essa mesma página que tá aqui então olha aqui ó exemplo de página ponto web Flow tá E aí ela tem HTML puro ela não tá formatada certo só que ela tá pegando de um arquivo csv que eu tinha importei na ferramenta e ele construiu e isso daqui para Gente o que que a gente precisa fazer agora
aplicar CSS tá E para aplicar CSS aqui na ferramenta é muito simples vocês vão ver aqui agora tá bom primeira coisa que eu preciso fazer eu preciso dar nome da esses textos então o primeiro aqui ó eu vou dar o nome de nome tá coloquei nome segundo texto aqui eu vou dar o nome de módulo o terceiro texto aqui ó vou dar o nome de aula e o quarto eu vou dar um nome de comentário tá teu comentário do aluno certo comentário Tudo bem então olha como ficou a estrutura eu tenho aqui uma página que
tem um blocão chamado classe geral dentro desse blocão eu coloquei uma lista e essa lista tem várias células para cada comentário do aluno e nessas células eu coloquei uma caixinha chamada comentário traço aluno e essa caixinha ela tem três Campos com o nome o módulo a aula e o comentário tudo bem O que eu preciso fazer agora pessoal é formatar E para isso eu vou comentar eu vou começar formatando essa parte aqui ó que é o comentário do aluno essa caixa que tá todos os dados um embaixo do outro que não tá ajudando em nada
que que eu vou fazer eu vou chegar aqui e aqui do lado direito no Apple pessoal eu vou ajustar o layout dele então eu vou clicar aqui ó nesse botãozinho para ele transformar isso em linhas ou colunas eu dele e aí do jeito que tá ele já está estruturado para os dados estarem ondulado do outro olha só Caraca Vini que bizarro que tá aqui calma que tá começando a formatação certo mas pelo menos ele não tá um embaixo do outro ele tá um ao lado do outro que é isso que eu quero que que eu
preciso agora pessoal fazer é dentro aqui por exemplo de classe geral preciso colocar um espaçamento aqui entre os as extremidades aqui da página então é que eu vou fazer vou colocar aqui ó um espaçamento é horizontal certo então olha como eu faço isso aqui no web Flow para vocês verem a coisa funcionando [Música] fiz aqui um espaçamento desse desse dado então agora essa caixa geral ela já tá com um espaçamento que que eu preciso fazer agora é dentro aqui da do nome do módulo aula comentário eu preciso também colocar aqui a largura de cada um
desses Campos e olha como web Flow ele vai lá e te dá todas essas formatações essas formações aqui pessoal É como se você fosse preencher no CSS lá na mão quando a gente chegou aqui ó e colocou o CSS um programador web ele faria isso com linguagem de programação essas ferramentas de hoje elas possibilitam a gente fazer isso de uma forma visual tá então eu vou colocar aqui ó por exemplo 25% para cada um dos elementos que a gente tem lá na nossa página Tá bom então 25% aqui 25% nesse outro aqui em aula 25%
certo e aqui em comentário é 25%. Tá bom então olha como já vai tomando tomando forma isso daqui pessoal tá mais simples da gente da gente observar não é isso que mais eu posso fazer eu posso colocar aqui é um ted um pede aqui também na extremidade superior para ele ficar mais Centralizado tá vendo olha só eu tô pegando lá e formatando dado certo que mais eu posso fazer ah esse nome aqui tá muito Campo deixa eu diminuir ele então eu chego aqui ó e diminuo Olha só como eu vou fazendo Olha como a ferramenta
vai trabalhando certo então tudo isso é formatação que mais eu posso fazer Olha cada uma das Linhas eu gostaria de ter um espaçamento para dar um respiro então eu venho aqui ó embaixo e é justo Olha só eu posso tanto aumentar Como diminuir o espaçamento certo tudo isso pessoal de uma forma visual aqui na tabela poderia colocar um no nome então vem aqui ó coloco um Olha só tenho aqui o nome poderia colocar também no no comentário chega aqui a bold e eu vou colocar agora uma cor tá por exemplo um azul tá aqui não
né vamos voltar aqui eu quero uma cor aqui no texto Então vem aqui ó coloco o azul certo então tá aqui né os comentários dos alunos e olha como já deu uma outra roupagem certo então é que mais aqui que eu vou fazer antes da gente fazer o webscraping eu vou chegar aqui pessoal nessa nessa lista e eu vou colocar né cores entre as linhas para facilitar aqui a gente observar então aqui do lado direito [Música] Deixa eu chegar aqui vamos colocar deixa eu selecionar aqui a nossa a nossa lista deixa eu ver aqui onde
eu coloco Então essa aqui é uma lista Deixa eu só ver aqui rapidinho onde na ferramenta a gente coloca coloca isso deixa eu dar um Collection comentários pessoal agora não lembro onde que eu coloco esse essa cor sim e cordão né sabe zebrar a lista depois eu vejo seu lembre isso daqui mas era alguma dessas opções aqui dentro do nosso do nosso web Flow né Mas tranquilo vamos vamos seguir aqui o exemplo então eu vou publicar essa página aqui vou dar um publish tudo bem vou publicar ela e aí meus amigos que que a gente
tem voltando aqui na página e dando um refresh nela agora eu tenho uma página de internet com as listas de comentários de alunos certo então É como se você chegasse numa página de internet e tivesse esses comentários e agora você quer extrair Isso é para você analisar esses comentários tudo bem Então esse é o estudo de caso aqui o primeiro que eu vou mostrar para vocês antes da gente ir em todos os casos mais complexos como extrair dados do LinkedIn tá então eu mostrei para vocês através de uma ferramenta como a gente vai colocando HTML
depois eu vou formatando o CSS até fazer com que os dados estejam organizados é isso que um desenvolvedor de internet de front-end né um desenvolvedor web faria para que é a página fosse construída Tá bom o que que entra da parte de web scraping agora é como se a gente tivesse acesso essa página e eu preciso ir lá e capturar esse dado né como eu falei para vocês nem sempre dá para a gente chegar aqui a dar Ctrl c control V principalmente porque muitas vezes você quer fazer isso de forma automática Então você não vai
ficar fazendo um processo manual de entrar em todas as páginas da internet fica dando Ctrl c control vs quer fazer de forma automática certo é agora que eu vou mostrar para vocês como que funciona isso dentro do Pai então que é a linguagem de programação que a gente vai fazer tá beleza pessoal entender essa primeiro parte aqui deixa eu ver como tá os comentários é uma parte um pouquinho mais chatinha né Principalmente para quem não tem muito interesse em páginas de internet né mas para você que vai extrair informação você precisa entender como essas coisas
funciona deixa eu ver aqui alguns comentários atirando que via aprender escreve e acertando que não vi tô ganhando de webpow exatamente né um pouco é um pouco nessa linha professora só quero mais ou menos só para me programar aqui Ítalo Geralmente as aulas vão até 9:30 ou 10 da noite tá deixa eu ver aqui ó tem uma dúvida teria como extrair dados no caso em TXT diretamente do PDF sim mas aí é para extrair dados de PDF você pode fazer isso via pacotes bem simples lá no Python né só digitar lá pacote Estação PDF e
isso daí é feito né aqui não é scraping a gente não tá fazendo isso para PDF porque PDF já é um formato de arquivo que você pode importar usando esses pacotes aí tá bom deixa eu ver aqui o além é interessante vou dar para fazer o portfólio lá também também dá para você usar o upload para isso né como qualquer ferramenta Maravilha meus amigos agora que que eu ia mostrar para vocês né Lembra que eu falei que a página HTML é tem código E aí esse código é CSS né para você formatar Quando você vê
uma página de internet como essa que a gente acabou de criar a gente pode ver o código HTML CSS dela certo se você tem um navegador Chrome que é o que eu mais indico para isso mas também funciona o Safari se eu não me engano Edge também funciona que que você vai fazer você vai clicar com o botão direito do mouse é em qualquer elemento da página que você quer extrair o dado E aí você vai clicar em inspecionar certo clicando aqui inspecionar o que que ele vai mostrar pessoal ele vai mostrar o código HTML
da sua página esse código HTML é vai ficar aqui disponível do lado direito como vocês estão vendo aqui e do lado último canto direito ele vai mostrar o código CSS da página é aqui que a gente tem que começar a lembrar dos Comandos HTML para que a gente consiga entender onde está a informação que eu quero capturar Tá bom então olha comigo lembra que aqui no web Flow eu dei vários nomes aqui ó na lista eu dei o nome de lista aqui ó no divive que é cada uma das linhas que tem os comentários eu
dei o nome de comentário aluno e depois eu coloquei uma série de textos eu dei o nome do texto de nome ou outro de módulo outro diálogo comentário tudo isso pessoal vai estar disponível lá no inspecionar da página e através desse inspecionar que você vai conseguir entender Quais elementos tem a informação que você quer tá certo Então olha só aqui dentro de da página olha como fica vai ter um HTML grandão né a gente não vai se preocupar com isso agora mas olha como que a gente tem que a gente tem que ver algumas coisas
tá vendo classe geral olha o que o classe geral como tá tá deixa eu ver se dá para aumentar aqui um pouquinho para vocês enxergarem mais só que aqui não dá para aumentar muito né É mas aqui ó classe geral ele é o esse Box que do lado esquerdo aqui o próprio Chrome ele vai lá e sublinha para você tá depois ó ele tem aqui a lista que é a lista de comentários depois você tem aqui ó uma classe chamada comentário aluno que é aquela que eu acabei de escrever lá no upload tá aqui tá
vendo aquele sobrinho é comentário aluno é uma linha que tá dentro da lista E aí cada uma delas pessoal eu tenho aqui ó o nome eu tenho módulo olha como ele vai sublinhando ali para a gente do lado esquerdo e tem um comentário certo tudo isso é o código HTML e é isso que eu preciso entender para capturar o dado lá no Python tudo bem então precisa pessoal o inspecionar é aplica o botão direito clique inspecionar E aí ele mostra o código HTML com as informações de cada linha da sua tabela O que que a
gente precisa agora para extrair de fato fazer a roupa a raspagem eu preciso ir lá numa ferramenta como Python numa linguagem de programação que eu já deixei aqui ó esquematizado para gente e a gente precisa através da programação entrar nessa página e procurar cada uma das tags que tem a informação que a gente quer capturar tudo bem bom então olha como funciona aqui pessoal primeiro de tudo a gente vai usar aqui ó dentro do Python uma um pacote chamado requests que é um pacote para a gente lá na internet capturar uma informação depois a gente
vai usar o primeiro pacote de scraping né um dos mais famosos aqui do Pai então que é o chamado beautiful super eu vou importar esse carinha E aí eu deixei esquematizado aqui ó a nossa página que a gente acabou acabou de criar que é o exemplo da página Web Tá bom depois aqui ó é para a gente capturar geralmente a gente pode passar alguns cabeçalhos nessa requisição para quem viu as aulas lá de api lembra o que são esses cabeçalhos eu não vou colocar nada aqui tem um código que ele vai lá e usa né
esse requestros para entrar nessa página de internet e capturar todos os dados dela tá bom e aí Olha só eu vou usar o beautiful que é essa esse pacote para ele processar esse dado e jogar aqui numa variável chamada sup para gente tudo bem vamos rodar isso aqui ó então Roda a Roda Pronto ele já foi lá no site pessoal que a gente acabou de criar que é esse esse site aqui certo e ele já capturou a informação e já está disponível aqui no pai então para a gente para eu olhar essa informação é só
onde tá solto e não entra pessoal todos esses códigos de Matrix aqui é o código HTML da página é aqui que as coisas se complicam para quem nunca viu HTML para quem está começando a aprender e aqui que já era bastante dúvida Tá vou tentar sempre ficar o máximo isso aqui que quando você pega o jeito você vai perceber que até que é simples Tá só que demora um pouquinho no começo para pegar o jeito então Acompanha comigo coloca as dúvidas aqui aproveita esse momento para tirar as dúvidas Tá certo bom então todo esse código
aqui pessoal a gente não consegue a gente não consegue ficar olhando isso para entender tá por isso que a gente tem que voltar aqui na página e utilizar um inspecionado Chrome para conseguir entender como as informações estão distribuídas Tá certo então primeira coisa olha só o que que eu quero pegar aqui Eu quero pegar por exemplo pessoal a lista né Essa lista aqui ó ele tá com que tá sublinhado aqui do lado esquerdo eu quero pegar toda essa lista e processar no Python tá para isso aqui dentro do beautiful a gente em vez de ficar
aqui ó pegando todas as informações vou até deletar isso e a gente tem que usar aqui já deixei aqui pronto para a gente olhar a gente precisa passar aqui para o pacote do Pai com de raspagem Qual é os elementos HTML que contém a informação que a gente busca Tá certo então a primeira coisa que eu vou passar é eu quero pegar a lista a lista que tá aqui ó certo e para pegar essa lista eu tenho que passar o comando HTML que ela está que é um comando chamado e depois eu tenho que passar
com essa estrutura tá pessoal isso aqui é chamada sintaxe o vírus funciona dessa forma eu vou usar aqui um ponto find para procurar dentro das dívidas a classe que contém lista certo e aí vem aqui eu vou dar um enter com isso o que que virou lista aqui pessoal olha só ele já filtrou aquele código gigantesco da página inteira e ela foi direto na lista que essa parte que já está aqui para gente ó essa parte é em azul certo agora dessa lista que que eu preciso fazer eu preciso ir lá e pegar o que
pessoal o comentário o aluno tá e dentro do comentário aluno eu vou pegar os nomes os módulos as aulas e os próprios comentários então o que você precisa entender pessoal no processo de raspagem de dado é entender o HTML básico e desse HTML básico entender que é uma estrutura que tem uma hierarquia das informações lá e é essa aqui é que a gente vai passar aqui tudo bem Então olha só como funciona eu passei aqui ó e coloquei dentro de uma variável chamada lista as informações que a gente quer só que não acabou Claro que
que eu preciso fazer agora eu preciso dentro dessa lista continuar procurando coisas eu vou dar aqui ó um Ctrl C dessas informações que estão em cima colocar aqui dentro de lista só que agora o que que eu quero pegar eu quero pegar pessoal os por exemplo vamos direto aqui no comentário comentário aluno então eu venho aqui ó e eu digito comentário a primeira linha dessa página que tem lá é o primeiro comentário dos alunos Então tá vendo essa página que é do lado esquerdo né que a sublinhada essa linha aqui no código Ele me trouxe
o código que tem essas informações certo E aí vamos chamar isso daqui ó de comentário comentário aluno tudo bem caramba e mais eu quero pegar dentro do comentário aluno eu quero fazer um find dentro do comentário aluno que é o que tá aqui pessoal lembra disso é sempre importante a gente entender o visual da coisa tá aqui dentro do comentário Luna eu quero pegar o quê dele quero pegar o nome a classe nome então vem aqui ó bem bom enter perceba que agora só ficou um nome olha aqui ó no código chamado Cristiano né o
nome de um dos alunos Cristiano que que eu preciso fazer agora pessoal né isso daqui vai ser o meu nome né então O Cristiano é eu quero só pegar essa parte que é o próprio nome não quero pegar isso aqui essas coisas tudo aqui ó então para isso aqui no Python a gente vai usar uma função chamada get essa função vai lá Nesta parte que tá aqui ó e vai capturar para gente só aquilo que nos interessa que é o texto que está dentro das tags html Então olha como ficou a estrutura eu fui lá
peguei a lista dessa lista eu procurei os comentários coloquei aqui dentro da variável comentário e dentro do comentário eu fui lá e busquei as classes de nome e aí coloquei aqui dentro da variável nome Vamos ver como ficou Olha lá extrair aqui Cristiana então eu já fiz o meu primeiro scraping que que eu fiz aqui eu fui lá na página fui aqui ó dentro do HTML da página e aí eu fui exatamente nesse quadradinho aqui ó e capturei essa informação certo pessoal se você entendeu 80% do que eu disse aqui você já tá meio caminho
andado para fazer qualquer webscraping que você queira fazer tá entender isso a parte mais difícil depois é a gente só ver a página que você quer capturar o dado e construir um código no Python que vai trazendo todas as informações mas a parte Pior né assim de entender essas técnicas entendeu HTML a estrutura das páginas E aí eu mostrei aqui para você como que é uma página criada E aí né como que a gente busca os elementos dentro aqui do inspecionar do navegador e quando você faz isso você sabe exatamente onde está a informação dentro
da estrutura da página e aí com isso Você joga isso na linguagem de programação muito difícil as pessoas coloca nos comentários aqui vê coloca eu estou vivo hashtag estou vivo só para ver se vocês estão assimilando aqui por mais que seja difícil por mais desafiador Coloca aí pessoal só para ter uma ideia para ver se vocês não morreram até agora tá bom beleza Então vamos da próxima passo agora que eu fiz essa extração eu fiz a extração aqui de um dado da minha tabela obviamente eu quero trazer todos os dados então Acompanha comigo aqui tá
bom eu fui lá e tenho o comentário do aluno né Eu não quero pegar só um comentário eu quero pegar uma lista de comentários certo então para pegar uma lista de comentários Olha o que eu vou fazer pessoal vou deixar isso aqui ó que a gente usou como exemplo vou vir aqui ó numa nova célula eu vou usar uma outra função chamada ou seja procurar todos porque agora eu não quero pegar só uma linha da minha tabela eu quero pegar todas as linhas aí com isso o beautiful que é o pacote aqui de web scraping
ele vai trazer para gente todos esses dados então aqui agora se eu chegar e colocar comentário ele vai me trazer pessoal uma listagem de todos os comentários e o que que eu preciso fazer eu preciso isso é uma lista no pai então para quem estuda Python a gente vai lá e estuda algumas estruturas da linguagem uma das estruturas da linguagem são as listas né então por exemplo que que é uma lista do Python né Por exemplo está trabalhista 1 2 3 4 só que é uma lista né se eu apertar aqui o a e rodar
essa célula ele vai me retornar à lista eu poderia pegar uma parte da lista aqui por exemplo a parte zero que significa o primeiro elemento da lista se eu faço isso ele vai lá e me retorna O primeiro elemento então o comentário aluno ele é uma lista se eu chegar aqui ó pegar a primeira parte do elemento Olha só ele vai me trazer só aquela lá do Cristiano certo e aqui no Cristiano Eu poderia usar lá de novo find para pegar o nome então vem aqui ó Control aí eu vou procurar o nome dentro lá
da do comentário aluno Dá um enter olha só ele trouxe Cristiano se eu chegar aqui ó em do zero trocar para um olha o que ele vai fazer pessoal ele vai trazer o Ralf Se eu colocar aqui o 3 ó a crisiane quatro então perceba que você tem uma lista de alunos ele foi lá e capturou uma lista de alunos como é que você faz isso de uma forma automática vini como é que eu pego todos de uma vez só bom pessoal é só pegar e processar toda essa lista certo para fazer isso o que
que eu posso fazer vou dar um nome aqui para ficar um pouquinho melhor então a lista comentários então lista de comentários ou dar o nome de lista de comentários aqui para isso apaga isso para essa lista de comentários o que que eu vou fazer eu vou fazer um forte é um look em qualquer linguagem de programação você tem um laço né que é uma coisa que um loop para ele ir tem aí tem de uma lista Então a hora que eu vou fazer fora para cada para cada comentário é dentro do que da lista de
comentários que que eu vou fazer eu quero é mostrar o print esse comentário só que não é esse comentário qualquer eu quero que ele pegue esse comentário e traga o nome olha só então eu quero procurar o nome desse comentário vamos ver se funciona Olha só rodando isso daqui pronto olha o que ele fez pessoal então eu tenho todos os nomes já extraídos tão bem então a primeira parte do scraping eu já fiz eu capturei todos os nomes da lista que que eu preciso fazer mais agora eu preciso é pegar não só o nome mas
eu quero pegar agora o quê Qual que é a próxima elemento o próximo elemento é o módulo Tá vendo Depois eu tenho aqui a aula e depois eu tenho comentário vamos fazer isso para todos os outros Olha só agora é fácil né quando você vai lá e resolve uma pequena parte do problema o restante fica fácil porque agora é só eu ir lá e dar control c control v e atualizar essas coisas né Tudo bem então o que que eu vou fazer aqui vou dar control serviço e aqui embaixo control V em vez de nome
eu vou colocar módulo só colocar módulo Dá um enter olha lá pegou todos os módulos que estão disponíveis lá na plataforma certo que mais vou fazer agora em vez de módulo né eu posso fazer aula digito aula aqui não enter olha lá pegou todas as aulas que estão na página E aí eu posso viver de aula colocar comentário certo então enter Olha lá todos os comentários então todos os comentários dos alunos então vocês estão percebendo pessoal que a Gente Tá acessando a página lá da internet baixando a página inteira em HTML e através dessa ferramenta
aqui desse pacote chamado beautiful a gente está procurando os elementos da página html Então esse pacote serve para que Facilite o nosso trabalho de buscar essas informações a partir daí Aí fica fácil porque aí entra a parte de preparação do dado e se você já né estudou a preparação do dado já tem aí minimamente uma noção de usar o pandas né que é o pacote é do Python para se trabalhar com tabelas ou seja consegue estruturar Isso numa tabela vamos fazer aqui rapidinho Olha só eu não quero mais ficar colocando todos os nomes dessa forma
o que que eu quero fazer eu quero criar lista de alunos Então olha só vou dar um nome aqui a lista de alunos a lista de alunos é uma é uma lista vazia e eu quero alimentar ela dentro desse fora então o que que eu vou fazer ó eu vou apagar isso vou apagar esse código eu vou deixar aqui na manga porque claro que eu vou fazer eu quero pegar a minha lista de alunos ponto eu vou usar esse comando chamado apêndio que eu vou a cada comentário que ele vai passar eu quero que ele
pegue o nome desse comentário e coloque dentro da lista chamada lista alunos Tudo bem então olha como fica a estrutura do código pessoal dessa forma aqui dentro do apêndio eu fui lá né e recortei e colei aquele nosso dado aquele nosso comando anterior Quando eu der um ente isso aqui não vai acontecer nada porque porque ele não tá pintando nada só que agora Olha só pessoal agora o lista de alunos de alunos Olha só agora tem uma lista com todos os alunos e essa lista que daqui a pouquinho eu vou usar para colocar dentro de
uma tabela tudo bem Então olha só que eu vou fazer agora só quando você controver eu vou criar uma lista de módulos lista de módulos certo uma lista de aulas e vou reservar aqui uma lista de comentários alunos tá beleza e aqui ó dentro desse fora pessoal é só a gente dar contra você controlando e substituir tudo isso tá aqui dentro de aula aqui dentro de comentários para que dentro aqui em nome já tá certo aqui ó eu vou substituir para módulo nessa outra parte eu substituo para aula e nessa outra que eu substituo para
comentário tudo aquilo que eu fui interpretando o que do nosso inspecionar para entender como que a página foi estruturada certo tá aqui vamos ver se a mágica funciona só rodar tudo isso aqui rodou Agora eu tenho não só a lista de alunos como tem a lista de módulos ó deixa eu colocar aqui os módulos Olha lá todos os módulos tem agora aqui as aulas Olha só as aulas E aí eu tenho a lista de comentários alunos Beleza então construir pessoal quatro listas de informação o que eu preciso pegar agora é pegar essas quatro listas e
colocar juntas numa tabela para a gente analisar certo então para isso o que que eu vou fazer eu vou usar o pandas que aquele pacote do Pai então para quem estuda na área de dados do pai não sabe que é um dos principais então eu vou importar o pandas vem aqui ó PB ponto que é o comandos pessoal para o quê para a gente criar uma tabela E aí eu vou passar dentro aqui ó todas as minhas listas então eu pego aqui a lista de alunos e coloca aqui vírgula mix de módulos coloca aqui vírgula
lista de aula você coloca aqui vírgula Lisa comentários coloca aqui certo beleza Gente esse é o comando pandas para construir uma tabela Com todas essas listas e viram e elas vão virar colunas dando enter pessoal até colocar isso aqui ó dentro de um variável chamada DF é bem da frente da DF acima de direito à Franca Olha lá como aconteceu Ele criou uma tabela só que ele criou de uma forma horizontal né Eu gostaria que essa tabela tivesse transposta então aqui ó dentro do DF a gente pode colocar um ponto t maiúsculo significa transpor a
tabela Tá bom fazendo dessa forma pessoal Olha só como que vai como que vai ficar doente e maravilha olha que temos agora temos todas as linhas da mesma forma que a gente tinha aqui no site Olha só Cristiano não por esse módulo excelente guias de estudos certo todas as informações dentro da nossa da nossa tabela perfeito meus amigos então Parabéns vocês construíram um processo de raspagem de dados a gente foi lá na internet né capturou o dado que tá aqui dentro e esse dado ele virou na é um pandas deita frame dentro do Python para
você ir lá depois e fazer a análise de dados que você quiser por exemplo aqui ó se eu quiser contar dentro dessa dessa listagem quantos módulos eu tenho né basta chegar aqui dentro do DF aqui ó F ponto coloca um aqui que é a segunda é a coluna de número um porque eu não coloquei os nomes né das colunas Mas tudo bem Posso dar um velho calma por exemplo [Música] [Música] [Aplausos] [Música] Então desse dessa amostra de 50 comentários Olha só eu tenho 11 comentários para o módulo Como trabalhar com amostras de dados lá da
plataforma da preditiva 9 comentários aqui para Microsoft Excel 7 comentários para prevendo o futuro e aí pessoal você tá fazendo a sua análise de dados por quê Porque é um dado que agora ficou disponível para você analisar antes que que você teria que fazer você teria que dar control c control V jogar no Excel formatar lá pagar um monte de coisa agora você já tem o código e aí sempre que essa tabela for atualizada você vai lá e é só copia essas informações por exemplo aqui no web floa deixa eu ver aqui se eu consigo
fazer uma modificação rápida aqui eu poderia chegar aqui na nessa lista e eu poderia fazer uma filtragem por exemplo eu vou filtrar agora só um dos módulos do curso que é o módulo como trabalhar Microsoft Microsoft Então vem aqui ó na página vou fazer um filtro o filtro aqui é quando o módulo foi igual a esse valor Vou salvar deixa eu ver tem que colocar aqui entre parentes módulo é isso né deixa eu pegar aqui de novo Cadê Vamos colocar aqui ó entre aspas melhor dizendo [Música] não tá filtrando módulo foi no modo certo né
módulo não é aula é módulo não save é ele não tá filtrando aqui não sei porque deixa eu ver não entre eles encontrados na sendo que aqui tá tá na página talvez ele tem algum algum aspas alguma coisa assim e aí ele não tá não tá ajudando aqui no filtro deixa eu dar mais uma tentativa Então tá vendo que eu dei uma filtrada o que que eu vou fazer eu vou dar um publiche agora vou publicar essa página lá na internet certo então publiquei olha aqui ó na página você dá um refresh agora nela tá
vendo que eu só tenho essa informação certo agora que que eu vou fazer aqui dentro do Python a gente tinha vários módulos aqui nos comentários né se eu Executar tudo isso pessoal Olha só vem aqui ó entra nisso ele foi lá na página capturou o HTML agora que que eu vou fazer eu venho aqui ó Cadê comentário aluno então enter essa parte aqui eu não preciso mais tá já rodei isso rodar aqui ó a lista de comentários e agora eu rodo tudo isso aqui de baixo tá roda o nosso DF olha agora o nosso DF
filtrado só com as informações que nós temos lá cadê rodar de novo aqui né ele sabe faz ao vivo hein vamos lá roda a roda roda roda roda roda roda agora foi eu não tinha rodado uma parte do código né então Olha só pessoal ele código funcionando essa é a beleza de quando o código tá pronto lá porque aí você não precisa se preocupar em ficar reescrevendo se preocupar em fazer de novo o mesmo processo de forma manual código tá pronto se tiver bem feito bem testado ele vai funcionar e claro se a página de
internet manter a mesma estrutura ele vai estar lá tá perfeito meus amigos entenderam o processo geral né de como funciona o webscraping então a gente foi aqui numa página clicou com o botão direito inspecionar nesse inspecionar a gente entendeu Como que a página está estruturada e a partir daí a gente foi lá né no Python e através do beautiful que foi processando e localizando os elementos que tinham a informação depois disso a gente usou o bom e velho Python para criar listas Loops E com isso e ligando os pontos né construindo aqui os bloquinhos até
a solução completa de raspagem tá tá feita certo vamos ver aqui os comentários como é que vocês estão deixa eu ver aqui quando eu clico no botão no código HTML direito na página a parte referente fica destacada o contrário também acontece a parte o contrário o que que seria o contrário da gente ir na parte e acho que sim vamos ver aqui ó daqui do lado direito é superior né na verdade bem no meio da minha tela aqui ó vê se dá para ver aqui Marcos tem um botãozinho aqui de uma de um ponteiro você
clica no ponteiro e aí você vai passando Mouse nos elementos que você quer ver tá vendo que quando eu passo o mouse do lado direito ele vai lá e mostra no código onde que está Então é isso que você olha você olha onde é que tá o código e aí aqui dentro do código você vê qual que é a classe e aí nessa classe você vai lá e coloca aqui dentro né dessas códigos de procura aqui tá bom eu acredito não sei se é exatamente você perguntou mas é isso Joaquim quero ser igual a você
quando crescer Fica tranquila isso aqui é só prática é praticar praticar praticar esse aqui vai ficar influente para cada um para todo mundo minha parte que você extrai essa tabela o Linkedin você chegou a mostrar eu vou mostrar agora tá joia Lembrando que isso aqui ó é só para ver se Ficou claro isso aqui é um dado que é um dado próprio nosso da plataforma que eu fui lá na plataforma da preditiva cliquei aqui ó na comunidade aqui eu tenho todos os os comentários dos alunos e a gente foi lá e eu fui lá e
cliquei no botão exportar tá é isso que eu fiz e coloquei aqui para criar uma página Web a gente construir do zero como que isso é feito para vocês entenderem A Essência tá essa que foi a ideia Tá parte do LinkedIn eu vou mostrar agora tá bom vamos ver top demais boa moleza Fica tranquila Isso aqui vai ficando Claro a medida que você vai treinando muito bola de hoje no entanto eu fiquei com uma dúvida quando Como monitorar por exemplo discurso de ódio em uma sessão de comentários de uma página Web aqui ela é Ótima
pergunta aqui a gente tem que usar códigos e algoritmos de processamento de linguagem natural esses algoritmos eles pegam um texto como aquele dos comentários dos alunos e procuram determinadas palavras para saber o sentimento do texto né então depois pesquisa lá na internet por exemplo análise de sentimento é basicamente processamento de linguagem natural para atribuir sentimento positivo neutro ou negativo de comentários de clientes de pessoas e assim por diante é um tipo de aplicação já bem consolidada hoje hoje em dia tá grande Juliano Tá aí precisa deverá de novo para assinar melhor claro Juliana não espero
que ninguém Saia daqui experien scraping isso vem com o tempo tá E vocês percebem que todo caso é um e agora pessoal já tinha reservado aqui para a gente falar eu vou mostrar para vocês como é que faz um scraping do de páginas reais né da internet Então olha o que eu vou fazer ó eu vou pegar aqui uma página de trabalho lá do LinkedIn de vagas vou dar um contra você e vou aqui abrir anônima e jogar aqui a compra ou controverso essa daqui ó é uma página do LinkedIn pessoal que você não precisa
estar logado tá no Linkedin para para estar e essa daqui eu coloquei aqui ó dentro de trabalho a palavra dados dentro de Brasil e como vocês sabem né Tem mais de 40 mil oportunidades de vagas que as pessoas precisam ter habilidade em dados coisa que vocês quando ela não é preciso tão se desenvolvendo para quem não é aluna ainda né se estuda em outros lugares estão se desenvolvendo então todas essas vagas aqui em geral São vagas que a palavra dados né dados a serenalizados e extra lá no na descrição Então imagina o seguinte imagina que
você queira extrair essas informações pessoal que que você faria porque o Linkedin lembra que eu falei é um daqueles sites que ele não quer que você fica fazendo o webscraping disso ele quer que você use as plataformas dele para localizar lá dentro com os filtros comprando lá o softwares pagos lá o Linkedin recruta ou seios Navigator para você né trabalhar com o dado que ele tem mas se você quer fazer uma análise de dados você poderia extrair essas informações por exemplo quantas vagas tem qual que Quais são as empresas que abriram Qual é a quantidade
aqui de tempo que essa vaga tá aberta Qual que é a empresa que abrir Qual que é o tamanho dessa empresa tudo isso são coisas que você poderia fazer aqui o webscraping dos dados do LinkedIn certo E aí pessoal você vai fazer exatamente o mesmo processo que a gente acabou de fazer você entra aqui na página Clica com o botão direito na parte que você quer extrair em casa aqui para ele trabalha conosco E aí vai inspecionar tá aqui ó tá aqui um pouquinho inspecionar Então olha só é Você precisa olhar tá vendo aqui ó
que o Linkedin cada uma das Linhas É bem parecido com a lista de comentários que a gente viu lá dos alunos cada vaga aqui do Jobs do LinkedIn é um conjunto de informação e cada uma dessas células tem aqui ó o que o nome da vaga você tem aqui o nome da empresa a localidade e a quanto tempo que essa vaga está aberta certo E aí pessoal você vai clicar num deles né e do lado direito aqui ó no inspecionar você vai ver qual é a classe que tem essa informação da mesma forma que a
gente fez lá no na lista de alunos vamos fazer aqui olha só então eu já deixei aqui pronto com o mesmo código que a gente fez aqui em cima só que eu já deixei aqui com a URL do LinkedIn Tá certo entendeu então fui lá e já capturei esse esse dado lá do LinkedIn então agora a gente tem que usar o beautiful para extrair né Vamos dar um nome aqui de por exemplo é vaga né então vaga Essa vaga É o quê É eu pegar aqui o som [Música] para você controlar decorando aqui Como são
feitos aqui certo tá aqui e lá na página da preditiva no exemplo era a classe lista então lá no Linkedin pessoal a gente precisa olhar qual é a classe certa e aqui ó vou até dar um Control deixa eu ver ó uma classe aqui que a gente gostaria de olhar é a classe deixa eu ver base Jobs deixa eu ver aqui em cima como é que tá lista Não é vamos ver ó resolution certo então jobsch result que que eu vou fazer clica duas vezes dá contra você nesse negócio vai lá no seu código e
coloca aqui ó certo já coloquei list tudo bem bom dei um enter essa aqui é a lista de vagas certo então isso aqui ó [Música] legal capturou que mais eu preciso pegar eu preciso ir dentro desse Job eu pegar cada uma dessas listagens aqui ó e dentro dessas listagens o que que é exatamente eu quero pessoal eu quero olha só vamos ver vamos ver olha só tem aqui a parte de título tá vendo Então qual é o comando é o base Surf Card Titan que tá aqui ó do lado direito tô dando control c control
V olha como ele vai lá e do lado esquerdo sobrinha para gente essa informação que eu quero tá então volta aqui então dentro de lista de vagas que que a gente vai fazer mudar contra você contra o Benício [Música] aqui de vagas vai ser título a vaga certo ele vai pegar as informações que ele localizou ali ó e ele vai tentar localizar o base que é o que tá lá no Linkedin tá pessoal não decorei isso aqui não isso aqui a gente tem que experimentando certo então roda a roda né vamos ver aqui ele deu
um erro a lista vagas find título da vaga Ah vamos ver aqui ó se a gente está colocando com o mesmo o mesmo tipo de elemento Olha só pessoal uma coisa importante tá vendo que é o search ele é um elemento do tipo u tá bem discreto aqui de enxergar pessoal deixa eu ver aqui se eu consigo enxergarem nada de repente o tamanho da tela que vocês estão olhando talvez tá tá difícil de enxergar coloca aqui por favor ó algumas pessoas já colocou no comentário aqui que faltou o cless É exatamente esse é o ponto
ó deixa eu voltar aqui tá aqui ó control c deixa eu jogar aqui ó Nessa tela e ficar fácil para a gente Agora melhorou né o gênio aqui não teve essa ideia então vamos lá olha o que a gente fez aqui pessoal a gente pegou aqui o jobsurf result e esse é um elemento do tipo u tá vendo aqui ó u Então esse é algo que eu não fiz aqui no meu código eu esqueci eu tenho que chegar aqui ó em vez de div eu tenho que substituir para u que esse é uma pega HTML
que contém a classe chamada jobsurf E aí dentro dessa classe Olha só ele tem aqui ó um elemento do tipo H3 que esse elemento do H3 que tem a classe que eu tenho título E aí olha só a informação do título estão enxergando certo então agora eu tenho que selecionar H3 tá para o código não dá erro vamos ver aqui vamos testar H3 pelo rodo isso daqui rodou agora eu venho e coloco find Opa promissor não deu erro vamos pegar aqui o título da vaga Dá um enter ver o que tá dentro dela Olha só
pessoal ele tem aqui ó trabalho conosco ele achou o elemento não é então lembra que eu tinha feito antes a gente tem que fazer um teste isso daqui para ele pegar essas informações Olha só então ele tirou as tags aí eu tenho aqui ó trabalho conosco mas tá vendo que tem um monte de coisa desse tipo isso aqui é comum é uma sujeira que a gente também pode eliminar para eliminar Guarda essa dica aqui dentro do você pode usar o comando chamado vem aqui ó abre e fecha parentes não enter e olha só olha lá
o trabalho conosco já capturado então perceba que é exatamente o mesmo processo que a gente fez antes a gente tem que ir lá na página no inspecionar entender a estrutura que esses que essas tags estão armazenando a informação e aí a gente vai resolver o problema pequeno o que que é o problema pequeno pessoal é a gente ir lá e entender é como que a gente pega uma informação única para depois expandir para todas as informações certo então daqui para Em Diante O que que eu preciso fazer eu preciso em vez do lista de vagas
eu tenho que dar um find All eu quero pegar todas certo então não entra aqui ó aí eu vou usar um fora que é para cada vaga dentro do que dentro do lista de vagas que tá aqui a gente quer pegar né Vamos brincar inicialmente para ver se ele tá pegando certo então eu tenho que pegar aqui o vaga que tá dentro aqui ó do loop ou para essa parte confunde né para quem nunca viu o pai então a questão de como que os looks funcionam tá pessoal Então como não é o motivo aqui da
Live então isso fica para uma próxima oportunidade mas para quem é só ir no módulo de parto que está bem explicado lá né para vocês entenderem paga ponto e aí que que eu vou fazer agora eu vou dar um find desse H3 aqui ó certo depois eu venho aqui ó ponto text ponto strip e a gente coloca aqui no finalzinho do enter lista de vagas ele deu rodar de novo lista vagas deixa eu dar um enter aqui ah pessoal tem um erro aqui ó tá vendo que eu fiz que eu fiz o fórum e ele
não localizou todas porque porque o LIS Tavares não é o elemento que contém todas essas informações o elemento que contém todas essas informações deixa eu ver é o é mais fácil olhar aqui no inspecionar né Deixa eu ver aqui ó o elemento que contém todas as informações vamos diminuindo diminuindo até a gente chegar aqui no que a gente quer pegar aqui Deixa eu olhar aqui no Linkedin é que maravilha ninguém entendeu dá um erro aqui né Deixa eu rodar de novo aqui a página vamos lá cadê cadê cadê onde estão os elementos essa parte chata
viu pessoal isso daqui é eita ele tá voltando direto aqui mas essa parte chata que não tem glamour mesmo tá é um trabalhinho de formiguinha de você entender onde que as informações estão tá isso demora tô fazendo aqui rapidinho um exemplo para vocês para vocês entenderem que isso como que isso é feito né mas é a parte mais chata mesmo abrir de novo aqui a página do LinkedIn só para você E aí vamos ver de novo ó são todas as listas então o Clécio jobelist Card aqui pessoal eu tava dando um l Job Surf início
mas o que que acontece ele não tem vários desses então não adianta dar um findrol eu preciso ir num elemento de baixo e nesse elemento de baixo que ele tem vários Então olha só o que eu vou fazer eu vou trocar aqui é o o nosso o nosso código aqui de cima para em vez de volta volta em vez deletar o l eu vou colocar um div certo vamos ver aqui ó vive e eu vou colocar o base Card olha só a classe que contém as informações que eu preciso é o básico Card agora rodou
rodou isso aqui não preciso deletar isso E agora se foi então essa parte chata pessoal que eu tô dando um exemplo do LinkedIn e cada projeto que você for atuar para fazer o webscraping você vai ter que se virar para encontrar isso é um processo de tentativa e erro vai dar pau vai dar erro é normal pessoal lembre-se que qualquer linguagem de programação Você tem uma dose de resiliência muito grande aqui para você não ficar puto da vida existir né Então olha o que eu tô fazendo aqui eu tive que olhar deu erro fui lá
ver entendi ah tá uma outra estrutura e agora sim beleza meus amigos Vocês entenderam a estrutura né eu já tinha deixado um código pronto aqui para a gente não ficar perdendo tempo com isso então eu já tinha deixado aqui ó uma tabela para ele pegar e dentro dessa tabela pegar títulos as empresas as localizações E aí eu usei a mesma estrutura que a gente tinha feito lá no exemplo do nossos comentários de alunos certo então agora a mágica funcionando ó Dá um enter Dá um enter então enter E aí agora eu já tenho um data
7 pessoal com todos os nossos [Música] dados olha aqui ó aqui volta tá meio ruim de enxergar olha aqui pessoal então eu fiz um web Skype do LinkedIn né eu peguei aqui o as colunas né com os nomes das vagas aqui tem o nome da empresa aqui tem a localização e aqui eu tenho quantos quanto tempo passou tá é desde que essa vaga foi foi aberto certo então olha como é poderoso isso porque antes você a gente estava aqui ó numa página como essa que você teria que ficar dando control c control V que nem
um maluco para tentar analisar esses dados E aí depois disso a gente vem aqui através do entendimento do scraping a gente consegue chegar nesse resultado E aí meus amigos a partir daí análise de dados né essa parte aqui é a parte de extração mas aí depois você tem processamento que eu fiz aqui um pouquinho e aí a parte mais legal é a parte da análise dos dados né então por exemplo quantas empresas têm aí nessa nesse conjunto de vagas Lembrando que aqui pessoal só peguei 20 24 25 vagas tá a gente tem que pegar mais
dados lá já vou mostrar para vocês como a gente fazer isso mas olha só [Música] [Música] Então olha só para esse conjunto tenho duas vagas jornalista Júnior se eu colocar um aqui ó vamos ver Itaú Unibanco abriu duas vagas Lelo Cielo duas vamos ver aqui as localidades dois Olha só 14 vagas aqui em São Paulo duas em Barueri vamos ver aqui o tempo dessas vagas Olha só então nove vagas foram abertos há uma semana quatro ao mês três a seis dias e assim por diante Lembrando que são só 24 vagas certo já vou mostrar para
vocês como que a gente continua porque Qual que é o ponto aqui pessoal é o LinkedIn ele não quer que você faça isso que a gente está fazendo né ele quer vender essa informação para você mas é uma informação pública porque eu não precisei logar então a gente consegue fazer essa extração só que ele vai dificultar porque comercialmente ele não quer que você faça isso então olha como o site eles dificultam para você é quando a gente fez o scraping Ele entrou nesse endereço e ele foi lá e só trouxe 25 vagas para você ver
mais vagas que que você tem que fazer você tem que chegar aqui ó e lá embaixo E aí ele vai carregando mais tá vendo que ele vai carregando mais até ele chegar um momento pessoal que ele não vai carregar mais e ele vai te dar um botão para você ver mais vagas né vamos ver aqui ó vamos ver até onde ele vai olha aqui ó tá vendo o simmor Jobs quando a gente clica nele aí de novo ele vai abrir Então como que o nosso código de webscraping vai se comportar numa situação como essa esse
é uma dificuldade a mais é aí que a gente entra nos últimos 10 minutinhos que eu vou mostrar para vocês uma outra outro pacote para a gente né resolver esse esse problema tá enquanto isso deixa eu ver aqui como é que são os comentários para ver as dúvidas de vocês deixa eu ver aqui vim toda essa trabalheira com scrap não seria distribuição de um engenheiro e não de um analista de dados então Boa pergunta vai depender da sua empresa sabe porque às vezes o engenheiro né não existe na sua empresa então simples quanto mas sim
numa empresa estruturada esse daqui é um trabalho de um projeto de engenharia de dados mas como Infelizmente nem toda empresa tem isso vale a pena a gente entender minimamente como funciona né porque de repente você consegue resolver um problema de negócio de forma fácil com isso na plataforma pretiva Só faltou uma trilha de engenharia de dados ia ser número um Olá boa Lembrando que a plataforma da preventiva ainda não tem coisa de engenharia a gente foca em análises deixa eu ver aqui o x-lem muito boa aula gostaria de saber como rodar o mesmo código em
várias páginas diferentes automaticamente aí aqui é XL basta você trocar e colocar várias URL dentro de um loop para ele ir fazer nesse scraping para você bem bem fácil ser feito animal aqui deixa eu ver aqui Parabéns pela aula me convenceu muita comprar o curso boa adorei explicação Maravilha choveu Felipe aqui o webs se constrói manualmente o que fica automático é a execução periódica seja diária dependendo dado a fim de alimentar a base que desejar exatamente Felipe então aqui pessoal a gente tá fazendo o processo manual para entender a estrutura e depois construir um código
que seja robusto suficiente para isso seres que é do lado numa certa período periodicidade é isso que a gente quer isso o código é utilizado varia de acordo com a página perfeito é isso aí bom meus amigos o que falta aqui então né lembra desse problema a gente precisa fazer com que o nosso código saiba resolver essa questão da paginação nesses últimos minutos vou fazer vou mostrar para vocês como isso é resolvido Tá bom então eu vou fechar aqui essas páginas não vou precisar mais delas por que que a gente vai fazer agora é usar
é um pacote no Python chamado Selenium Esse pacote é um pacote de automação o que que ele faz ele cria uma automação que vai no site e nesse site ele executa alguns comandos e a partir daí ele é como se você tivesse lá e acessando o site esses comandos né que a gente vai mandar para esse automatizador ele vai fazer a paginação da página e até a página final é entrar nela clicar no botão e tudo mais tá como que funciona isso né você tem que rodar aqui o selênio a gente vai usar ele em
conjunto com vírus ou sub né eu preciso colocar aqui no nosso na nossa pasta do computador ou um driver aqui do Chrome para fazer isso funcionar se você é aluno da preventiva depois você vai estar lá no portal se você não é e quiser ter acessa esse material lembre-se de se inscrever ali no canal do telegram que a gente manda para lá e fica disponível para 7 dias depois fica só disponível para os alunos Tá eu já deixei aqui alguns comandos do selênio pessoal para para deixar aqui de colinha tá ninguém precisa decorar isso a
gente só precisa entender a estrutura e depois com os códigos GPT Google a gente procura e olha que eu vou fazer eu vou usar aqui ó o selênio para ele entrar na página Então a hora que ele vai fazer pessoal rodando Isso olha que que vai acontecer ele vai carregar esse driver olha só ele carregou o driver tá vendo deixa eu colocar aqui ó duas telas para a gente para a gente olhar junto opa junto ó maravilha as duas telas aí beleza deixa eu até colocar a minha cara fora aqui ó boa então tudo que
tá rolando aqui ó vai ser rolado de forma automática Então olha o que eu vou fazer aqui do lado esquerdo pessoal eu vou rodar esse código Dá um enter Olha que ele vai fazer do lado direito ele vai acessar a página do LinkedIn de forma automática rodei um código ele foi lá e acessou tão vendo isso então Acompanha comigo Olha só deixou aumentar aqui um pouquinho para vocês enxergarem melhor tá aqui certo beleza que mais que eu vou fazer eu quero pessoal que ele localize que ele envio Esse comando aqui ó quando você aperta o
end no seu na sua no seu teclado ele vai até para o final da página né ou seja clica aqui ó ele vai para o final da página como é que a gente faz esse comando a gente faz isso no selênio através aqui ó de um comando chamado 100 de Kiss tá nesse comando send aqui eu vou eu mostro para ele Qual que é a tecla que eu vou mandar ele vai lá no site aplica isso Então olha só como fazer vou dar uma enter nisso aí ele vai lá e olha que ele tá fazendo
Tá vendo do lado direito vou dar um enter de novo Olha só olha que acontece do lado direito tá vendo que ele tá lá na página e tá fazendo o movimento eu tô fazendo isso via código eu não tô mexendo no meu mouse tá eu só tô rodando esse código aqui certo então pessoal o que que eu poderia fazer eu poderia fazer isso várias vezes tudo bem para fazer isso várias vezes que que eu posso fazer posso fazer um look um for né então é para cada vez digamos assim dentro de quantas vezes que eu
quero Vamos colocar aqui um comando que sei lá vou fazer isso aqui 10 vezes essas 10 vezes pessoal ele vai lá e vai executar o código de cima olha só Dá um enter vai executar o código de ensina e é interessante a gente aplicar também uma técnica pessoal de webscraping para que essas plataformas não bloqueie é interessante você colocar um elemento aqui de um segundo dois segundos para que seja bem parecido com um humano porque bosta a maior parte dessas plataformas elas detectam que você tá fazendo as coisas muito rápido então só um código Farias
de forma muito rápida por isso que a gente precisa colocar algumas coisas para tentar burlar isso né então para você fazer você pode usar a biblioteca chamada Prime coloca lá um comando chamado sleep e dentro você comando você coloca a quantidade de segundos que você quer que ele que ele espere o Felipe também falou wait né é uma outra forma de fazer dentro da biblioteca time você tem um sleep Tá bom então rodando isso o que que ele vai fazer ele vai fazer 10 vezes esse comando que eu acabei de fazer vamos dar um entre
ver isso funcionando olha só Minhas mãos estão aqui ó não tô fazendo nada certo é o código que tá fazendo isso para gente perceba até ele chegar numa barreira e essa barreira aqui pessoal é o botão lá ver mais vagas Esse é o botão que também a gente tem que clicar e eu já deixei pronto aqui como é que a gente faz tá para você falar para ele Qual que é o botão que você quer que ele Clique você também tem que ir lá clicar com o botão direito dentro aqui do inspecionar certo ele vai
abrir lá o inspecionar para a gente vamos voltar aqui ó inspecionar E aí pessoal O que que você vai ter que fazer você vai ter que localizar aqui o botão dentro do estacionar tá um pouco demorado aqui porque é meio tem muita coisa aberta aqui nós vamos de novo aqui ó inspecionar vamos lá vamos lá para quem segurar mais um pouco é ter um bônus hoje hein Pessoal vocês vão ver uma coisa interessante também é aí aqui ó dentro do inspecionar a gente tem que passar para ele Qual que é o a parte né que
ele quer que no caso aqui é esse botão certo e aí ó do lado direito aqui pessoal né onde tem o botão você vai clicar com o botão direito no seu no seu Mouse e selecionar a opção copy xdf X Pets fazendo isso que você vai pegar um código que significa o botão que essa página tem E aí lá no selênio que é o a ferramenta que a gente tá usando aqui de automação a gente vai passar isso cadê cadê através desse comando aqui ó chamado find elementos by XF certo e aí a gente vai
lá e passa esse elemento aqui ó beleza gente deixa eu voltar aqui opa pera aí que eu tô com vários para vocês [Música] [Aplausos] [Música] Ah eu já tinha eu já tinha o Express tá aqui já né Então esse é o Xperia olha aqui ó [Música] deixa eu aumentar um pouquinho pessoal porque não tô conseguindo enxergar o que tá aqui ah ele tá com outro aqui né então volta volta volta para pagar isso aqui não sei onde quis que a gente quer a gente quer o expert Deixa eu voltar aqui nele pessoal só um instantinho
volta aqui Clica com o botão direito inspeciona que acho que ele ficou meio lento lá de controlou em cima do código enfim vamos voltar é bom que fica gravado para vocês entenderem essa coisa funcionando volta aqui cadê o botão inspeciona tá um pouco lento porque a página né já tá com bastante bastante coisa então beleza Tá aqui o botão mais vagas clica em cima aqui do botão com o botão direito com mouse copy Express legal Então vou fechar aqui o inspecionar não preciso dele volta aqui certo vamos ver o Xperia tá colado agora tá olha
só Então tudo isso aqui pessoal é o xpef eu vou colocar aqui ó dentro de aspas tudo bem E aí ele vai localizar isso e quando ele localiza eu quero que ele clique dentro do selênio para ele clicar algum elemento localizado basta ele dá o botão ponto Click Certo feito isso pessoal vamos ver se vai funcionar deixa eu reduzir aqui ó voltar aqui dentro para o nosso aí eu dou um enter vamos ver olha lá que ele fez Ele clicou se eu rodar de novo ó o que ele vai fazer ele vai lá no próximo
botão e vai clicar de novo Então agora eu dei um bypass naquela limitação do LinkedIn então eu tô fazendo de forma programática que ele vá apertando o botão aí é a mesma coisa pessoal vamos fazer aqui um forte para ele fazer isso várias vezes né for ver para cada vez dentro de um Range de muitas vezes eu quero quero que ele faça isso Sei lá 10 vezes então esse código entra um time ponto sleep é não colocar aqui dois segundos Olha que ele tá fazendo ele tá clicando no botão automaticamente e rolando a página rolando
a página rolando a página e por que ele tá fazendo isso por que que a gente precisa disso porque ele tinha limitado o meu scrap em 25 páginas de trabalho então ele faz isso agora várias vezes e depois vocês testam porque elas são um bom exemplo aí para vocês treinarem pessoal isso aqui no seu portfólio no caso do LinkedIn vai chegar o momento que ele não vai deixar mais você nem clicar no botão se você clica no botão ele vai parar né porque porque Ele esbarrou no limite de quando você tá com LinkedIn sem logar
se você logar Aí sim ele te dá mais limite Mas tem uma série de coisas né que o Linkedin tenta fazer para bloquear esse tipo de coisa que a gente está fazendo porque ele não quer que você dá conta de você controlo menos dados dele né só o Linkedin pode analisar os próprios dados você não Então é isso que que falta fazer fazer né porque agora a gente já tem tudo isso daqui rolando então eu vou executar pessoal o mesmo código anterior né eu já deixei ele aqui pronto é basta eu fazer aqui uma mudança
do biro-fonso em vez da gente usar o URL eu vou usar o driver vou dar um enter é só rodar tudo isso rodou rodou rodou Olha só o nosso a nossa tabela agora de empregos antes tinha 24 Olha só quantos a gente conseguiu agora 475 se eu não me engano limite é até mil a gente consegue fazer um scraping de até 1000 né lá no Linkedin E aí pessoal a nossa análise agora fica muito melhor né porque agora a gente tem muito mais dados né posso pegar aqui ó DF Jobs chegar aqui vamos ver aqui
ó por exemplo quantidade de vagas ponto valor então eu tenho oito vagas confidenciais 7 vagas que aerofarma Abril cinco vagas que o Adriano kobucho que abriu e assim por diante Vamos ver em títulos Qual que é o título mais comum Olha só dentro dessas 465 39 era na lista de dados perceba pessoal que faltou aqui ó preparação de dado né um projeto real você vai ter que substituir isso daqui é o mesmo título certo analista de dados minúsculo maiúsculo é a mesma coisa certo vamos ver aqui as localidades Olha só 140 vagas em São Paulo
40 em Rio de Janeiro São Paulo região a mesma coisa né tudo isso tinha que ser limpado E aí três Olha só 175 das 475 vagas vistas foram feitas há um mês 86 a uma semana ontem a um dia 22 e assim por diante né como vocês sabem as vagas para profissionais de análise de dados não faltam né O que mais falta o que mais falta é mão de obra qualificado mas é aquilo né aquilo que vocês estão preparando para quando quiserem fazer a migração de carreira perfeito pessoal entenderam o processo viram que ele é
um processo que é meio chatinho no começo mas né com paciência com dose aqui de resiliência e indo com calma fazendo tentativa e erro você vai chegando na informação que você quer e aí com isso você faz a extração Tá bom coloca nos comentários aí pessoal se Vocês entenderam já tá aqui até nos finalmentes né a gente mostrou aqui esse overview do HTML depois a gente fez aqui uma demonstração de scraping usando Python com as principais bibliotecas né o beautiful e o selênio para a gente automatizar E aí o pacotinho de Deus não sou mais
selênio te traz possibilidades pessoal inimagináveis a partir de agora você consegue extrair qualquer tipo de dado que você está vendo na internet é basicamente isso antes você tinha que ficar lá né no fazer um portfólio você tinha que ir lá pegar o dado do kegor lá do Google data 7s fazer api que api é bem legal mas chega uma hora que talvez você já sai daquilo que você quer analisar só que você não consegue extrair essa é uma forma de você de você extrair o dado E aí como eu falei para vocês pessoal para finalizar
finalmente a aula de hoje é existem outras ferramentas que fazem isso de forma automática para gente uma delas é a browser é ponto a eai que ela faz isso sem programação só que claro lembra que eu falei para vocês o price dessas ferramentas é muito alto né Então olha aqui ó 19 dólares por mês o plano profissional sem dólares né se você conhece e estuda programação você vai chegar no momento em que você consegue fazer essas coisas investir no seu tempo e depois você não precisa gastar dinheiro com essas ferramentas mas se você for gastar
uma que eu acho bem legal essa ferramenta aqui ó chamada Phantom Buster essa ferramenta Phantom Buster pessoal ela tem formas de você fazer scraping de dados já prontos de várias ferramentas olha só ele tem aqui ó formas de você extrair vários tipos de dados do LinkedIn cada quadradinho desse é um tipo de dado você pode ir lá e extrair por exemplo é o perfil de pessoas que é o profile scrapper você pode aqui ó é fazer um scrap de companhia do LinkedIn passando uma lista para ele você pode aqui ó LinkedIn profile URL Finder né
você vai conseguir olhar é o URL de um determinado perfil passando nomes Então essa aqui é uma ferramenta que é bem legal Ela te dá 10 minutos por dia de processamento eventualmente você pode ir lá e fazer um scraping que vai durar uma semana no plano gratuito mas né de graça você consegue utilizar ela é muito legal né você consegue fazer scrap do Google Maps consegue fazer scraping aqui do Instagram Enfim uma série de coisas tudo já feito basta você passar alguns parâmetros E aí com isso ele faz o scraping para para você tá por
exemplo se a gente quisesse aqui ó fazer o scrap de uma dessas vagas que a gente poderia fazer olha só se eu clicasse aqui ó na lista de dados esse analista de dados ele tem aqui uma URL não é tá aqui é URL certo se eu quisesse extrair essa informação gostaria de dar um contra você nisso daqui certo bem que acho que é melhor eu rodar com o meu LinkedIn aberto né mas tudo bem Vamos fazer aqui ó rapidinho para matar e vocês verem essas coisas funcionando eu falo que termina mas você sabe né eu
sou meio maluca que eu gosto de passar informação de qualidade para vocês não gosta de deixar a ponta solta né Mas vamos lá pessoal o último exemplo para falar a palavra chave deixa eu pegar aqui ó [Música] bi Olha só você clica aqui nele no Job Scraper Você pinta aqui ó e use de espanto aí ele vai pedir para você o cookie do seu LinkedIn porque ele vai acessar através do seu LinkedIn certo então eu já tenho aqui o meu LinkedIn aberto ainda só clicar nesse botão ele vai lá e pega o meu Cook do
LinkedIn pega o meu cookie essa palavra ela é complicado pega o cookie do LinkedIn certo eu passo aqui para eles pessoal O Job Acho que até tinha um aqui ó já me viu vamos ver se ele consegue localizar isso com você deixa eu jogar aqui ó para ver se tem esse esse jovem ó cientista de dado sênio Beleza então o que que eu vou fazer aqui ó vou dar um save certo depois ele pergunta quantos né você quer fazer um scrap por por longe né Por Lounge em inglês por lançamento é melhor dizendo certo vou
deixar assim vou dar um nome aqui ó para resultado ele vai colocar informação em resultado vou dar um save aí que você consegue inclusive colocar né agendamento você podia rodar esse código oito vezes por dia sei lá uma vez por semana ele dá vou deixar de falar manual dá um save aqui beleza e aí pessoal Olha só já tá configurado o scrapper se eu clicar aqui com o botão longe que que ele vai fazer ele vai acessar o Linkedin com o meu usuário e vai fazer o scrap daquela daquela informação certo Olha só vamos ver
quem activity olha que ele tá fazendo ele acessou ó com sucesso o perfil aqui do Vinícius Souza abriu fez o scraping salvou o bagulho e disponibilizou para gente aqui no arquivo O que é um arquivo csv no arquivo um arquivo de Jason Então cadê Aqui o arquivo csv deixa eu ver aqui resolve tá aqui olha só esse daqui é o valor que tá é que tá que ele fez o scrap tá vendo ele pegou todas as informações daquela vaga Imagina você passa uma lista de vagas e faz o scrap de todas elas depois você analisa
por exemplo que que os recrutadores pedem Mais qual que são os principais benefícios Olha a quantidade de análise pessoal que vocês poderiam fazer aqui né olha só ele foi lá e colocou isso num csv eu poderia pegar esse csv e lá no Python agora olha só e abrir isso aqui ó poder colocar aqui ó pd.wid csv joga aqui ó Control ele vai lá e traz informação olha só ele é uma ferramenta web que ele fez o scraping deixou lá no servidor e aqui no Python você vai lá e coloca o csv dele traz para você
e você pode fazer isso Joy com sua com a sua análise né com a sua tabela Vou colocar aqui ó para vocês verem isso daqui de uma forma melhor né cadê volta volta aqui ó Porto sentido da Senior aqui a descrição híbrido enfim pessoal já deu para entender né acho que é um pouco disso que eu queria mostrar para vocês deixa eu ver aqui né provavelmente estão me zoando aqui com o Hulk muito bom como sempre legal muito boa aula Vinny show demais boa valeu Juliana Elton vai dar trabalho vai mas dá pra ensinar qualquer
coisa exatamente Elton essa que é a ideia né Já pensei 1 milhão de projetinhos para fazer é bem isso aí tem muita coisa né tem tanta coisa que gostaria de fazer scrap né Eu não tenho tempo mas a falsidade está aí esse do método é bem bom boa deixa eu ver aqui análise de percurso para Vista a empresa que tem um time é Pablo cinza exatamente uma ótima aplicação pessoal que me zoando né pode zoar aqui tá sério passou por aqui não tem como né Uma hora dessa então deixa eu ver aqui ó ficou boa
aqui tá certo em mim é isso se eu tivesse canal de verdade fica a oportunidade aí né vamos ver professor vai perguntar a ver qual o seu Mac estou pensando em comprar um alguma indicação Ítalo o meu Mac é o Mac N1 tá é um dos próximos dos primeiros aqui daquela arquitetura nova né Qualquer Mac funciona tá de boa Jonas a última aula bugou um pouquinho mas possuibais são infinitas legal Jonathan aqui a ideia é Rever essa Live né e treinarem pessoal peguem isso E treina em vocês mesmos Tá certo bom meus amigos então para
quem ficou até agora aqui a frase do Dia É webscrap é vida em web é vida hein é fazer vocês extrair em qualquer tipo de dado da internet tudo certo bom meus amigos passou um pouquinho muito conteúdo né Como sempre eu sempre tento falar um pouquinho menos mas a tentação de gerar controle de qualidade é muito maior né obrigado para quem ficou presente até para quem não viu até então né revejam as aulas ou Vejam as partes que vocês saíram lá haja e buguei aqui fica tranquila importante saber que é possível fazer né Tem esse
processo e vocês vão conseguir por força e fé beleza meus amigos bom para quem não aluna preditivo tá marcando né tá perdendo tempo serão bem serão muito bem aqui acompanhados com todas as nossas trilhas nossos professores Eu sou um dos professores tem vários outros aqui engajados como eu a fazer com que a sua jornada de aprendizado em dados seja a melhor e mais satisfatória possível Tá certo bom gente é isso obrigado mais uma vez e nos vemos na próxima semana se tudo der certo hein grande abraço valeu gente até mais