Introdução a Análise de Dados com Python - [Primeiros Passos]
229.39k views4723 WordsCopy TextShare
Hashtag Programação
CLIQUE AQUI PARA SABER MAIS SOBRE O CURSO COMPLETO PYTHON IMPRESSIONADOR:
https://lp.hashtagtreiname...
Video Transcript:
e fala galera Esse vídeo é muito especial eu vou dar para vocês uma introdução análise de dados com python então se você tem um interesse de trabalhar nessa área de dados de Business intelligence de Inteligência Artificial feita de dados enfim essa aula aqui é para você dar esse pontapé inicial e vamos com tudo o que eu vou dar até alguns materiais extras para você poder acompanhar aula e também continuar aprendendo depois desse vídeo aqui então vamos conteúdo primeiro de tudo aqui em baixo vou deixar disponível para vocês uma base de dados que essa base de dados de vendas que a base de dados que a gente vai usar para conseguir fazer esse nosso exemplo aqui de introdução análise de dados a primeira coisa que tem que fazer é olhar a descrição clicar no link e fazer o download desse material e aí quando eu tiver voltando para o vídeo Aproveita e já leva o mouse rapidinho dá um like no vídeo e se inscreve no canal que você avisado de todos os conteúdos beleza vamo lá esse parte agora para conteúdo quando você baixar sua base de dados é importante o seu código em Python e eu tô usando Júpiter para fazer isso esteja no mesmo local aqui ó meu código em Python esteja no mesmo local com a minha base de dados beleza a mesma pasta do computador isso Vai facilitar nossa vida por isso foi construir nosso código Ira Por que que você tá usando Júpiter aqui já vai o primeiro ensinamento para você com a gente tá falando de dados de análise dados ciência de dados inteligência artificial no momento a gente prefere construir essas coisas como Júpiter porque porque o Júpiter ele foi feito para isso ele é uma das Ferramentas mais usadas senão a ferramenta mais usada pela galera que programa em Python focando na área de dados então caso você tá indo para assar você tem que ter Júpiter tem um link aqui na descrição te ensinando a instalar caso você precise e a ele que eu vou usar para seguir nossos códigos Lira vai funcionar se usar o pai tá no vs code não sei o que cara pode ser que funcione mas talvez você tem que instalar coisa que eu não vou ter que instalar Tá bom então recomendo que você use Júpiter partindo efetivamente agora por nós e o que que é um projeto de análise de dados primeira coisa que você tem que colocar na sua cabeça é que nunca vai chegar para você um projeto dizendo a senhora só eu preciso que você faça uma análise de dados aqui não sei que eu preciso que você que seja um projeto de ciência de dados não isso na verdade chega em formato de desafios da empresa para você então essencialmente um projeto e análise de dados nada mais é do que um desafio que você vai resolver de alguma empresa só que você vai usar os dados da empresa para você vai analisar os dados que a empresa está disponibilizando para você para resolver esse desafio Então vamos por exemplo aqui ó Imagine que você trabalha numa empresa né ou tá dando consultoria para uma empresa que vende bermudas essa empresa tem cinco lojas ela só vende Bermudas oi e ela tá querendo aumentar as vendas dela e ela vira para você e falou assim o que que eu faço para aumentar minhas vendas isso pode ser um projeto de análise dade tá vendo que quando eu apresento desafio para você eu não falo nenhum momento que vai ter que fazer análise da Di você vai ter que usar Python nem nada disso mas partindo do princípio que a única informação que eu tenho disponível para conseguir fazer isso é uma base de dados o que que eu vou tentar fazer eu vou tentar olhar essa base de dados e a partir da análise dela Tirar em sites tirar informações que podem ser suficientes para virar para a empresa para óleo que você tem que fazer é isso por causa disso Disso disso Isso é um projeto de análise idade da forma digamos assim mais direto ao ponto possível Beleza então eu quero que você entenda isso muito bem porque não vai chegar para você um desafio falou da hora eu quero projeto e análise de dados não vai chegar um desafio da empresa e você vai ter que resolver agora vamos aprender a resolver em 4 Passos simples eles são os quatro passos que você seguir para resolver um desafio de análise das passo 1 e trazer sua base dados por Python e dá uma olhada do que que você tem dentro dela vai ser a primeira vez que a gente vai fazer mas tu dois pegar um Panorama geral da sua base idade olhar as informações que tem disponíveis ali dentro e começar a criar hipóteses pensar em coisas que vale a pena você olhar mais a fundo passo 3 fazer uma análise top-down eu vou explicar o que que é isso mas basicamente é você começar analisando os números gerais da empresa as informações globais EA partir do momento que você tiver uma hipótese tiver um palpite você ir para o passo 4 entrar no detalhe para tentar entender o que que tá acontecendo ali dentro e É nesse entrado detalhe que às vezes surge um site para você então vamos lá eu peguei o projeto relativamente simples aqui para gente porque seu talvez seu primeiro projeto inicial em análise de dados e eu vou deixar um presente para você também continuar aprendendo depois dois presente não está aqui na descrição primeiro deles é um minicurso de análise dados com python eu faço um projeto até um pouco mais completo e esse daqui então vou deixar aqui na descrição o link para você poder acessar esse minicurso e o segundo é um vídeo onde eu ensino as principais métodos do plantas o pandas é a ferramenta do pai do Vamos colocar assim a biblioteca do Python que é mais usada para análise dados então vocês vão ver a gente vai usar aqui daqui a pouco e se você tiver dificuldade em algum momento do código que eu vou construir durante essa aula por favor quando acabar a aula assistir esse vídeo de métodos do pão acho que ele vai ser importante para você então vamos resolver esse nosso desafio de análise da diz como eu falei primeiro passo Mas a gente trazer a nossa base idade do Python para ver o que que tem dentro dela essa nossa base de dados no caso o arquivo Excel você poderia ser uma base em SQL poderia ser uma consulta no banco de dados poderão ser o banco de dados em si poderia ser um site uma tabela dentro de um site em qualquer coisa e a primeira coisa que eu vou fazer é importar o pandas SPD porque isso vira o pandas ele é uma biblioteca do Python ou seja um pacote de código que alguém a vida e que disponibilizam gratuitamente para a gente poder usar beleza e o pandas ele é uma biblioteca Ele trabalha muito bem com base de dados e análise dados por isso que eu deixei aquele vídeo disponível aqui na descrição porque para tratar informações que são base de dados no pai que você sempre vai usar o plantas Beleza então gravar isso E aí aqui eu quero um importar essa minha tabela eu tenho uma tabela em Excel aqui eu quero importar ela para dentro do pai para você importar uma tabela para dentro do pai que ela faz assim ó tabela é uma variável onde eu vou armazenar essa minha base de dados aqui ela vai ser o p de. it Excel o que que é esse código que eu coloquei aqui p&d é o apelido que eu dei para o pão deve tá vendo esse SPD que eu coloquei aqui foi um apelido para a biblioteca do panda para quando eu for escrever os comandos do pão das eu não tenho que escrever pandas. Eu só escrevi perder ponto beleza e aí aqui esse rede Excel é para ler um arquivo em Excel retorna o seguinte o arquivo que eu deixei para é a extensão dele é ponto xlsx tá vendo Então um arquivo em Excel Ali era mas se fosse um arquivo csv nós o Luigi underline csv ali se fosse um arquivo HTML vídeo underline HTML e ele se fosse um arquivo SQL vídeo underline SQL e assim vai o pão das tem vários métodos existentes para ler base de dados no nosso caso artificial eu vou colocar assim e aí aqui dentro do parênteses como esse meu código tá no mesmo local do meu arquivo Excel da minha base idade eu posso a escrever o nome da moralidade vendas pontos XL assistir tá vendo eles estão no mesmo local que eu posso fazer isso aqui e aí logo aqui embaixo eu vou dar um display nessa menina tabela o que que é um display o display ta com y no final tem que esse display que eu tô dando na tabela lá na verdade tem um print ou seja ele vai exibir para mim a tabela imprimir para mim a tabela aqui embaixo só que de forma estilizada o display ele é um print e só que mais bonitinho mais estilizado beleza e eu vou rodar aqui o código de gente ver como que tão as minhas informações Tolle tá lendo a minha base idade e trouxe as informações aqui para mim nem olha lá agora o passo 1 Tá feito você trouxe a base dados e a gente vai fazer essa segunda etapa dele aqui ó o ver o que que eu tenho nessa bastante com as suas informações que eu tenho disponíveis na minha mão para eu conseguir resolver um desafio que eu consegui descobrir como que empresa vai aumentar as vendas nesse nosso caso aqui como o próprio nome da base de dados já diz que você tem as informações das vendas da empresa Então eu tenho a data da venda tá vendo eu tenho uma loja que aconteceu aquela venda Iguatemi Campinas Iguatemi Esplanada Norte Shopping Bourbon Shopping assim vai e o produto se a bermuda estão para ser a bermuda xadrez se é só bermuda se a bermuda listrada se a bermuda linho e assim vai quantidade o valor de cada uma das Bermudas né o preço e o valor total seja essa pessoa Comprou duas bermudas a r$ 150 o valor total é 300reais que nada mais é do que 150 vezes 2 Ah tá bom então é isso que eu tenho na minha base idade dado que a gente tem isso vamos pensar juntos agora agora vamos seguir Maria Já sim juntos aqui eu quero saber como que essa empresa vai aumentar as vendas dela então acho que o primeiro passo a gente descobrir como que estão as vendas delas por quanto foi que a sua empresa vendeu ao longo de todo esse período daqui e eu vou calcar então o faturamento da empresa isso já eu passo 2 que que eu passo 2 é você pegar um Panorama geral da base dados Como que tá o faturamento da empresa Como que tá o faturamento talvez por loja da empresa Como que tá o faturamento por produto da empresa e assim vai toma olhar primeiro o faturamento global da empresa então para isso eu vou criar uma nova variável aqui que vai ser a variável faturamento total e como que o cálculo o faturamento Total nessa minha base de dados Olha bem para essa base de dados agora tá ele poderia mostrar mais cidades inteiras Como foi o caso aqui ou se tivesse por exemplo cinco mil linhas ele poderia mostrar só o conjunto de 10 linhas 15 linhas só como exemplo Tá mas ele sempre vai um pedaço da sua base de dados aqui olhando essa mais cidades aqui como que o cálculo faturamento da empresa bom preocupo Alpha para minha empresa eu tenho que somar a coluna de valor final porque essa coluna o faturamento de cada uma das vendas concorda comigo 300reais você vê que eu faturei 300reais vendendo duas bermudas então eu tenho que somar essa coluna valor final como que o sono uma coluna no pandas como que eu sou uma coluna de uma tabela no Parque da seguinte forma primeiro você coloca o nome da coluna e o nome da coluna você sempre passa da seguinte maneira Olha tá vendo tabela foi o nome que a gente deu para essa tabela daqui eu poderia ter dado o nome de eu quisesse para ela tá foi o nome que eu criei tabela armazenam informações que estavam no Excel então peguei informações conexel e armazenei dentro dessa variável tabela agora dava leva a tabela que essa tabela aqui que eu quero pegar dela a coluna valor final Então se escreve isso assim ó tabela o e entre colchete o nome da coluna que você quer pegar qual o nome da coluna valor que não tá como o nome da coluna um texto o valor final tem que está escrito igualzinho tá aqui se você passa também aqui igualzinho entendeu E como o texto você passa ele entre "pode ser" simples ou "duplas tanto faz isso aqui é a coluna valor final que eu quero fazer com a coluna valor final eu quero somar não quer saber o faturamento Total transformar Então essa conta tá bota.
São para solar é isso tá vendo pandas e o pai então como todos são ferramentas relativamente intuitivos E aí agora eu quero saber qual é esse faturamento Total vamos exibir faturamento total para mim print faturamento Total latente para troca Total print só para mostrar exibir para mim faturamento total e ele mostra a 55 1895 Beleza então agora nesse momento você já sabe que a empresa faturou quase 56 mil reais ao longo aqui do mês de dezembro de 2019 tá vendo a nossa base de dados é dezembro 2019 show de bola agora vamos começar as nossas análises por legal ela faturou quase 56 mil mas é da onde que veio essas velhas Será que alguma loja Tá vendendo muito mais do que as outras lojas Será que algum produto Tá vendendo muito mais do que algum produto Então essa etapa você começa a criar suas primeiras hipóteses é por isso que eu chamei aqui já análise top-down porque você vai partir do mais geral tá vendo das informações menos detalhadas possíveis e vai descer e vai sair do Topo tá vendo do geral e vai descer e vai lá para o detalhe tá vendo Então essa lógica só você faz isso com hipóteses que você tirou na sua cabeça então primeira hipótese que eu queria aqui a pude talvez tem alguma loja que esteja Vendendo muito bem e alguma loja que esteja Vendendo muito mal vamos ver como é que estão as vendas da loja vamos ver como que esse 56. 000 se dividem o longo das lojas vamos dá uma olhada Então agora eu quero conseguir calcular o faturamento por loja tá esse hashtag que eu coloquei aqui na frente é só para dizer que você quer um comentário ou seja uma linha que o nosso código vai ignorar só uma Oi gente eu estou escrevendo tá bom então como é que eu cálculo faturamento por loja para você calcular faturamento por loja Vamos pensar aqui quais são as colunas que você quer pegar para pegar o faturamento por loja e pensa comigo a coluna de loja e a coluna de faturamento com 4 mil Então a coluna ideológica a Bruna falou final as outras colunas se eu só quero saber o faturamento por loja e as outras corujas não fazem diferença nenhuma então eu quero só pegar essas duas colunas aqui beleza então vou escrever essas duas colunas tô assim ó o faturamento por loja vai ser Quem vai ser a minha tabela só que antes quando eu ia passar uma coluna só eu escrevi aqui o nome da coluna valor final quando você quer passar mais de uma coluna você quer passar uma lista de colunas você coloca outro colchete aqui então se for uma coluna só um consciência mesmo se forem várias colunas você coloca entre dois colchete E aí coloca por exemplo aqui ó e de loja, valor final tá vendo isso daqui Diz para ele seguinte Olha eu quero pegar da minha tabela várias colunas porque aqui dentro tá vendo tenho dois colchetes e quais são as colunas primeira coluna, segunda coluna, terceira coluna vendo a quarta coluna e assim vai então e de loja tá vendo valor Afinal só as duas colunas que eu quero pegar Então olha só deixa eu te mostrar como é que tá essa tabela faturamento por loja vamos ter que mostrar ela tá assim nesse momento o ID loja e valor final é essa tabela só que se eu quero saber o faturamento por loja né Pensa comigo como que a gente tem que organizar essa tabela no fim do dia a tabela que eu quero Até final aqui é uma tabela então eu tenho Iguatemi Campinas faturamento total da loja Iguatemi Campinas porque tá vendo aqui eu tenho Iguatemi Campinas aparecendo várias vezes então quê que eu tenho que fazer eu tenho que agrupar essa coluna e de loja tá vendo eu tenho que agrupar ela essa coluna de loja e quando ele agropar eu tenho que falar para ele seguinte Olha a gruta para mim todas as linhas que são Iguatemi Campinas somando faturamento com Vale comigo eu quero que apareceu uma única linha do Iguatemi Campinas que tem aqui a soma de todos os faturamentos então o reparo que eu falei a gente vai agrupar a coluna e de loja sumando faturamento como que eu falo isso primeiro agrupar a coluna e de loja o ponto grupo by E aí dentro do parênteses se você fala qual é a coluna que você quer agrupar que deu loja tá vendo Então eu tenho essa tabela você tá vendo aqui que essa tabela aqui só que eu quero nela agrupar a coluna e da loja grupo by e de loja E aí depois no final do grupo de baixo você coloca aqui o que que você quer fazer com a outra coluna ou com as outras colunas que vão sobrar Ou seja que você não tá agrupando eu não quero somar o meu faturamento eu quero eu quero que essa Iguatemi Campinas Iguatemi Campinas Iguatemi Campinas Iguatemi Campinas isso tudo a group numa linha só e que ele some o valor de faturamento que ele faça a soma do valor do faturamento tá aqui no final faz a soma e ele automaticamente já entendi para você já entende né que você tá agrupando e da loja e que essa soma é para gente tomar todas as outras colunas estão como Soteco não dá valor final ele vai somar coluna valor final mas se tivesse acumula valor final e a planta quantidade ele é somar coluna valor final e a também sonhavam há quanto a beleza Olha só como é que fica o resultado disso daqui ó vou clicar aqui e vou dar até um atalho para você joga contra o Inter executa o código para gente aqui manualmente E olha que legal quando você roda esse daqui você já repara que tem um negócio aqui que salta os olhos e quando você tá fazendo um projeto de análise da da nossa aí quando está fazendo um projeto de análise de dados é importante você procurar as coisas que o primeiro saltam os olhos porque os grandes números normalmente onde estão as maiores oportunidades beleza Fala defeito é assim mas enfim Olha só na loja Iguatemi Campinas a gente teve 41 mil reais de vendas e todas as outras lojas que teve 2000 3000 4000 Então cara tem alguma coisa acontecendo nessa loja Iguatemi Campinas que eu não sei o que que é que tá fazendo ela vender muito mais do que os outros e repara o seguinte como objetivo o objetivo do nosso projeto motivo desse nosso projetinho que a gente tá fazendo aqui ele é o quê a ilha descobri como que um aumento os deuses da empresa cara se eu descobrir o motivo dessa loja Iguatemi Campinas está vendendo tão bem eu posso só pegar o que essa loja tá fazendo e jogar para as outras lojas que consequentemente a empresa toda vai faturar mais concorda comigo porque se ajuda o jovem saiu de 3 mil que seja para 10 minutos eu nem para 40 de 3. 000 para 10 mil já vai ser um pacto Colossal na empresa Beleza então é isso que a gente vai fazer agora vamos tentar descobrir o porquê que essa loja Iguatemi Campinas está vendendo mais com as outras informações que a gente tem aqui olha gente tem também o produto Será que loja Iguatemi Campinas hipótese né Será que a loja Iguatemi Campinas tem algum produto que tá vendendo muito mais do que os outros alguma coisa do tipo vou molhar então agora loja produto e faturamento aí vai se eu pegar vai ser a mesma coisa que a gente olha aqui a mesma coisa só que em vez de olhar loja e faturamento que eu vou olhar loja produto e faturamento Então vou copiar essa linha de código aqui ó copiar se a gente código e vou colar aqui embaixo ó e aqui vai ser o faturamento por produto tá E aí eu vou ter loja produto obra tem um valor aquele produto e faturamento Qual é a coluna do produto é produto o nome dela tá vendo o produto então que eu vou colocar lá embaixo loja produto e o valor final e repara o seguinte vamos vamos exibir vamos exibir essas informações aqui ó faturamento por produto vamos e besta informações faturamento o produto exibido Olha lá ele me fala aqui ó é essa a minha tabela faturamento produto ele tá me exibindo só coluna e de loja e a coluna valor final ele era mas eu não coloquei a coluna produto colocou mas a coluna produto olha só eu não tenho como somar Lembra que eu falei que ele vai tentar somar todas as outras colunas eu não tenho como somar a coluna de produto porque a coluna de produto é um texto Tá vendo um texto Então repara comigo o que que a gente quer fazer aqui na prática tem que tirar esse grupo by aqui ó para você visualizar o que a gente quer fazer na prática que eu quero fazer Olha só eu quero que apareça aqui ó Iguatemi Campinas bermuda estampa e todas as vendas que a bermuda estampa teve dentro do Iguatemi Campinas Iguatemi Campinas bermuda listrada e todas as vendas que teve de bermuda listrada Iguatemi Campinas então agora quando a gente for agrupar eu não quero mais agrupar só pelo ideológico eu quero que ele a group ao mesmo tempo que de loja e produto ou Cola comigo que eu quero ter uma uma eu quero ter várias linhas para Iguatemi Campinas uma para bermuda estampa uma para vermos é uma para o mesmo Dalinho uma para bermuda xadrez e assim vai então onde o contrate o meu.
O grupo vai quê que eu vou ter que passar aqui de informação eu não vou passar para ele só a informação de ID loja eu tenho que passar para ele uma lista de informações que as colunas que eu quero agrupar eu quero agrupar e de loja e a coluna de produto e aqui a mesma coisa quando você passava uma informação só você botava só e de loja como você vai passar uma lista de informações essa lista de informações tentar entre colchetes então vou passar e de loja, produto e aí agora sim o que que eu quero fazer com a outra coluna que sobrar eu vou agrupar de loja agropar produto e com a coluna vou no final que vai sobrar Eu quero somar ela tô aqui no final vai dar um ponto são a beleza posição para somar à Oi e aí deixa até tirar um pouco dos uma aqui eu sei que vai ficar um pouco mais difícil de vocês visualizarem mas é importante para você poder viver a linha de código inteira olha lá tá vendo tabela e de produto agrupando por e de loja e produto e outro somando o resultado E aí olha como é que fica o resultado dessa tabela vou dar um de novo aqui para vocês poderem visualizar olha só que legal vou molhar a nossa loja Iguatemi Campinas a loja Iguatemi Campinas ela teve um produto 845 produto com 1.