Mineração de Dados - Exercícios: limpeza e dedução em base de dados

2.52k views2332 WordsCopy TextShare
UNIVESP
univesp.br Mineração de Dados Univesp (Universidade Virtual do Estado de São Paulo) Professor: Higor...
Video Transcript:
e [Música] nessa aula a gente vai utilizar o Google colab e o pandas para fazer um processo de limpeza de dados para isso a gente vai usar uma base de dados simulada de casos de infecção da covid-19 vamos começar o conteúdo dessa aula fazendo um processo de pré-processamento de dados a gente vai utilizar um banco de dados simulado de casos da corrid é a primeira a gente cria aqui no caderno Python não notebook Python tá vou renomear ele aqui e como semana 2 e da praia essa aula a gente vai utilizar o pandas eu estou
eu não vou importar biblioteca E aí a gente vai obter Então a nossa fonte de dados que vai ser usada né rapaz a base de data que vai ser usada para essa análise Ah tá então como eu disse eu vou utilizar uma base que é simulada né que eu já tenho a disponível aqui no repositório vocês têm acesso a ela também Ah tá pra não consigo Pois é para reproduzir isso que a gente está fazendo aqui e essa base ela tem 50 registros E aí Alguns Campos que assim que importar a gente vai poder visualizado
me chamou aqui de casa os convide E aí a gente usa o pandas então para fazer a leitura desse csv que tá disponível no meu repositório E aí Oi e aí vamos visualizar alguns dos objetos né o registros que tem aqui nessa base de dados E aí Tá bom então essa aqui é a base ela tem essas cinco atributos aqui né então idade é a idade do das pessoas né que tiveram a corrida identificada UEFI é o estado a renda é a classificação aqui de faixa de renda das pessoas né adiar até ir e vacina
zero significa que a pessoa não tomou vacina e um significa que a pessoa tomou a vacina a comprar convite bom então vamo visualizar algumas informações aqui dessa base de dados é algo chamar que caso os Correios é a função infook desse Data Frame dataframe pandas vai dar algumas informações iniciais aqui para gente então por exemplo é só uma base de dados que tem 50 entradas e aqui essa coluna indica o nome de cada um dos atributos e essa segunda coluna não não vai dizer aqui quantos quantos daqueles valores não são números então a gente pode
ver que idade por exemplo tem 20 valores números Ah tá UEFI renda também em valores humanos para a gente pode observar isso aqui na essa visualização do dataframe vai colocar alguns valores nulos aqui quem são esses valores que a gente vai pré-processar referência essas colunas vamos dar uma olhada também que na função describe tá a gente vai usar a função screen vai trazer algumas que o caso os colide o ponto de escrita a função do pandas também vai trazer para gente algumas estatísticas básicas aqui a gente tem que observar principalmente a comunidade né que é
a coluna tem valores numéricos de fato aqui a gente pode ver que a média a idade é 48. 6 E aí então a gente vai usar essa informação da Média depois para imputar os valores na comunidade Ah tá então nós vamos dar uma olhada também é mais informações aí de do de alguns dos outros atributos Ah tá então eu vou pegar aqui a nossa tabela casos convite hoje especificamente que o atributo ué Ah tá e vou usar a função do panda chamada Vale caos que conta e os valores para cada conta a quantidade de objetos
na verdade para cada valor que existe nessa nesse atributo nessa coluna Ah tá então aqui a gente pode ver e a gente tem nove dos objetos aqui cujo o valor do Estado SP São Paulo aí Aqui tem também algumas ocorrências nas Minas Gerais Bahia e Rio Grande do Sul Rio de Janeiro e vale a pena a gente parar aqui que São Paulo tá escrito de duas formas em maiúscula e letras minúsculas também tá sendo que na verdade isso aqui é o mesmo estado né Então esse é um exemplo aqui de um caso de redundância tá
esses dados deveriam ser contato aqui de forma conjunta né então a gente também vai tratar essa situação aqui na base de dados Ah tá então vamos começar tratando essa questão e como então o que eu vou fazer é atribuir todas as ocorrências dentro desse atributo como sendo valores maiúsculos a aí na hora que a gente fizer a soma desses valores vão se o único se perguntar com dígitos não tá tratados eu tô pegando aqui é o a o atributo f é um atributo estranho né pra gente pode usar aqui o objeto string e chamar função
webcam foi transformar todos o conteúdo de Strings em maiúsculo aí depois eu vou chamar novamente aqui é dentro dessa coluna o valor capuz Tá certo então aqui a gente pode ver aqui São Paulo agora tá tudo maiúsculo portanto tá somando aqui corretamente os valores e maiúsculo minúsculo estavam separados antes né mesmo aqui para o Rio de Janeiro e por Ceará também E aí só com isso a gente é reduzir o muitos problemas nessa base que era esses valores aí que estavam representados de forma diferente eu tava olhar também o atributo renda Ah tá então aqui
em renda a gente não tem todos os valores preenchidos e sua avó tem a ver tão com a classificação é de faixa de renda é de cada um dos identificados aqui com convite a ela que a gente pode ver que há uma predominância de da classe c nesses dentro dessa base de dados e alguns valores ali para as outras classes todas as outras faixas de renda e vamos dar uma olhada também ok vacina hackear a nossa o outro atributo que a gente vai alterar também em pó chamando que o valo calls on e na verdade
esse a gente não vai ter a porque ele já tem ele tava totalmente preenchido nela que a gente consegue ver aqui é que a gente tem 35 dos objetos que fazem parte dessa Base São pessoas que não foram vacinadas e 15 São pessoas que foram vacinadas A então esses lados aí não se úteis depois para fazer né alguma análise cabível dentro desse diz conjunto de dados Ah tá bom dá uma olhada então e agora vamos preencher Na verdade o aquele atributo idade para o colo a gente calcula a média né então parece preenchimento a gente
vai utilizar um valor constante global que é a média de idade dentro dos registros Vale dos alimentos que tem esse campo válido na base e a fazer isso então a gente vai trabalhar em cima do tributo idade Oi e a gente vai chamar a função fio n ada filme em que a função de plantas que permite a gente é preencher os valores números com algum valor que a gente passa aqui como parâmetro ah ah Então nesse caso a gente vai passar aqui no caso os convide Ah tá para essa coluna idade e a gente vai
chamar função ninho que vai entregar Então aquela médica que a gente ele ficou lá em cima 48.69 só até que por ser dado a gente vai atribuir um valor inteiro a então eu vou usar nessa função aqui a função do Python chamada o lance que vai redondar esse valor aqui Então na verdade a gente vai estar atribuindo valor 49 para essa base de dados para eu conseguir fazer alteração dentro desse Data Frame eu preciso selecionar o parâmetro in Place né que fazem a notificação no local passando aqui o valor turma então vai atribuir para esse
dataframe que a gente está utilizando esses valores aqui dentro dos campos novos ah tá aí eu já vou chamar aqui o próprio para o caos aqui mesmo em casos convide é o nome do atributo a cidade e tem uma função valo caos para trazer para gente o valor nos valores aí de Contagem após o tratamento é feita na linha de cima e E aí tá aqui a gente consegue ver que a agora a 21 registros com o valor da média de idade né então isso cidade porque a gente preencheu todos aqueles valores números com o
valor 49 né então atribuição de valores desse valor é muito maior mas ele é representativo porque ele foi baseado então na média dos demais valores que já existiam E aí então com isso a gente fez uma no processo de imputação usando uma constante global para todos os valores nesse caso a constante é a média E ontem vamos continuar fazendo tratamento que das dos seus atributos vão pegar agora o atributo é UEFI no entanto essas também para fazer uma votação só que agora a gente vai usar um método diferente Ah tá então aqui no filme Honey
on e a gente tem um Parando aqui chamado método permite a gente escolher qual é o método para ser utilizado para fazer esse preenchimento nessa imputação nesse caso a gente vai usar o método é Phil é UEFI O primeiro é vem de folga né fio é preenchimento então o é fiel ele vai agir de que forma né é a partir do momento que for rejeita as linhas né os objetos são percorridos uma vez que naquele campo é identificado no valor de UEFI nulo ele vai pegar o valor seguinte valor que está imediatamente abaixo dele é
do próximo objeto e preencher então ali com o valor mundo que é um método que a gente viu durante a vídeo aula né então ele faz o preenchimento a partir do próximo valor válido E aí aqui a gente também brasão em inglês e para que esses valores já estejam na válidos dentro de si próprio dataframe in E aí a gente usa novamente o valor calços e para verificar o resultado aqui desse processamento que a gente está fazendo um certo toque tá o resultado que podemos ver que a gente tem agora vinte registros em São Paulo
e seguido os próximos aí Rio de Janeiro 6300u Minas se você já que eles algarismos agora foram preenchidos usando o método é Phil Oi e o importante é de parar aqui os valores aumentaram mas a distribuição foi proporcional então a gente tinha São Paulo Minas Rio de Janeiro Bahia com mais casos bom e quando a gente fez essa essa imputação a gente continua tendo mais ou menos aí a mesma ordem então São Paulo continua tendo mais casos Rio de Janeiro Minas e Rio Grande do Sul estão ali também com mais valores mas com uma ordem
de grandeza é proporcional ao que tinha antes de fazer a imputação Tá bom vamos fazer a imputação agora com renda o pão para ainda a gente também do anzol o fio Enem é mas agora a gente vai escolher um método que funciona de forma contrária ao é fio que é o perfil né de vem de pé Word é exatamente o processo contrário que é feito então a partir do momento que é identificado no valor duro dentro dessa coroa não pô desse atributo esse valor vai ser então pego em preenchido a partir do registro anterior objeto
anterior a Então dessa forma que o perfil funciona Oi e aí depois a gente vai dar uma olhada também no como que ficou na o preenchimento essa imputação do ao tempo do renda Ah tá então o resultado aqui a classe C continua predominando número de casos em seguida aí de Bibi aí aqui é parecido com números maiores com que a gente tinha antes então é importante que parar com esses métodos eles ajudam a manter tanto o beco perfil quando for fio ajudam a manter a proporção de dados para aquele determinado atributo no que geralmente é
que a gente busca quando a gente está fazendo esse essa imputação dentro de um conjunto de dados aí vamos dar uma olhada né novamente no agora no no método info dá para ver como ficou né a formação geral desse Data Frame 1 bom então agora a gente consegue ver que todos os atributos aqui tem valores não nulos nação 50 registros Então esse processo esse procedimento de pré-processamento foi feito aqui com sucesso e por fim vamos dar uma olhada aqui e na base de dados inteira trouxa mau Red aqui ó e vou como eu vou querer
olhar todos os registros eu vou passar o tamanho dataframe na rua usando a função lento ó e aqui hoje a gente consegue observar nas preenchimento e de todos os os valores aí dos atributos dentro desse dataframe in bom então é isso eu sugiro que vocês façam esse tipo de atividade também em outras bases de dados do que sejam do interesse de vocês aí eu Posso sugerir aqui também algumas Fontes nada essas bases de dados então por exemplo a gente tem o portal brasileiro de dados abertos em vários dados relacionados ao a as esferas governamentais do
Brasil A então aqui vocês vão achar algumas bases de dados que podem ser interessante para análise Eu Posso sugerir também o site base dos dados.org o amor outra fonte aqui que tem diversos data certa que podem ser utilizados para as suas análises de pesquisas eleitorais até dados no suficiente PJ de empresas não sócios fazem parte de uma empresa é mais um aqui que eu vou sugerir é o pego tá ok agora é muito utilizado para fazer a validação treinamento e análise de dados de forma pública também é sobre os mais diversos temas em site costuma
ser muito utilizado para fazer mineração de dados em geral e existe até algumas classificações de data sets são mais adequados para uma outra técnica de mineração de dados i [Música] [Música]
Related Videos
Curso Python #04 - Primeiros comandos em Python3
27:33
Curso Python #04 - Primeiros comandos em P...
Curso em Vídeo
4,278,145 views
Curso Básico de Python 2024 - Aula 1 - Introdução ao Python
36:12
Curso Básico de Python 2024 - Aula 1 - Int...
Hashtag Programação
81,093 views
ELK Stack Tutorial For Beginners | Elastic Stack Tutorial | DevOps | Intellipaat
3:53:06
ELK Stack Tutorial For Beginners | Elastic...
Intellipaat
279,584 views
DAX Filter Context Basics [Full Course]
1:26:25
DAX Filter Context Basics [Full Course]
Pragmatic Works
52,622 views
Semana 2 - Estatística
37:14
Semana 2 - Estatística
TechTeoremas
17 views
Data Analytics for Beginners | Data Analytics Training | Data Analytics Course | Intellipaat
3:50:19
Data Analytics for Beginners | Data Analyt...
Intellipaat
1,733,297 views
Python Course # 06 - Primitives Types and Data Output
29:41
Python Course # 06 - Primitives Types and ...
Curso em Vídeo
2,601,723 views
[ESTATÍSTICA] Aula #7 - Gráficos de Dispersão
25:52
[ESTATÍSTICA] Aula #7 - Gráficos de Dispersão
oMatemago
66 views
Think Fast, Talk Smart: Communication Techniques
58:20
Think Fast, Talk Smart: Communication Tech...
Stanford Graduate School of Business
41,319,364 views
Build a Realtime Chat App in React Native (tutorial for beginners) 🔴
3:49:50
Build a Realtime Chat App in React Native ...
notJust․dev
1,803,992 views
Introdução ao Pandas no Python - [SAIA DO ZERO EM 1 AULA]
50:59
Introdução ao Pandas no Python - [SAIA DO ...
Hashtag Programação
272,634 views
Robot Framework Tutorial For Beginners | Robot Framework With Python | Intellipaat
3:56:36
Robot Framework Tutorial For Beginners | R...
Intellipaat
313,520 views
MASTERCLASS DRE CONTÁBIL NO POWER BI
2:02:51
MASTERCLASS DRE CONTÁBIL NO POWER BI
Tetra Educação
12,037 views
Visual Calculations in Power BI - DAX Made Easy! [Full Course]
1:30:40
Visual Calculations in Power BI - DAX Made...
Pragmatic Works
53,755 views
Análise de Dados em Python: Aula 01
3:02:41
Análise de Dados em Python: Aula 01
LABHacker - Câmara dos Deputados
157,518 views
Wallon e os Estágios do Desenvolvimento
52:21
Wallon e os Estágios do Desenvolvimento
Nômade: Psicologia-Diálogos Prof.Patricia E. Melo
4,886 views
Excel to Power BI [Full Course] 📊
2:57:36
Excel to Power BI [Full Course] 📊
Pragmatic Works
614,788 views
What is Sharepoint | Microsoft Sharepoint Turorial | Learn Sharepoint | Intellipaat
3:59:26
What is Sharepoint | Microsoft Sharepoint ...
Intellipaat
256,921 views
Solving real world data science tasks with Python Pandas!
1:26:07
Solving real world data science tasks with...
Keith Galli
1,576,703 views
Exploratory Data Analysis with Pandas Python
40:22
Exploratory Data Analysis with Pandas Python
Rob Mulla
485,836 views
Copyright © 2024. Made with ♥ in London by YTScribe.com