Introdução à Ciência de Dados - Preparação e Pré-Processamento de Dados - Parte 1

9.09k views3993 WordsCopy TextShare

UNIVESP

univesp.br Ciência de Dados - COM350 Univesp - Universidade Virtual do Estado de São Paulo Profess...

Video Transcript:

E aí [Música] em vários o conselho Duarte Santarém nós vamos agora para vídeo aula sobre preparação e pré-processamento de dados a primeira parte dessa desta desse tema da disciplina de introdução à Ciência de dados bom o pré-processamento de dados pessoal né é a fase que a gente vai trabalhar agora vocês normalmente ela vem antes da análise exploratória que a gente já viu na aula anterior né entretanto isso pode ser um ciclo que se renova a cada nova fonte de dados que aparecem Ou seja a cada Nova pergunta que você já responder a cada novo atributo

seja experimentar no seu conjunto de dados então muitas vezes né você vai é fazer algum tipo de processamento fazendo a respiratória volta então é um processo que vai e volta muitas vezes não não tem muito Qual é na frente de qual mesmo esse olhar para os dados você tá alguma coisa Analisa é aí você processo de novo Analisa de novo e isso continua por muitas vezes Alguns chamam essa fase de processamento é de pré-processamento porque Considero que o processamento é a fase os modelos de uma exteriores são testados o sejam de a gente vai processar

a gente vai modelar a ao nosso projeto data-size veremos o processo um pouco mais adiante nesta disciplina o processamento né que a gente vai fazer com modelagem mais semelhante vai ver um pouquinho mais para frente a gente tá chamando essa fase aqui de pré-processamento e quando eu preparo todos os dados para entrar então na fase de uma xilonico bom o pré-tratamento é uma fase que antecede o uso do modelo de machine learning que a gente vai ver mais adiante entretanto para que ele possa ser executado com clareza ah e também com assertividade é de fundamental

importância que se conheça o processo completo de um projeto de datações não há como fazer pré-processamento se não se sabe onde se quer chegar nesse não se conhece os modelos computacionais a serem testados e que tipo de resposta quer chegar com o projeto né é importante que se entenda o que é possível fazer de modo Global Entretanto é fato dizer que somente a experiência de fazer e refazer projetos é que vai tornar a fase de processamento assertiva e eficaz porque estou dizendo isso porque muitas vezes e vai se você não tiver já uma ideia Inicial

na sua cabeça do que você quer fazer no seu projeto né Você vai ficar perdendo tempo em algumas fases para processamento você vai perceber por exemplo né que algumas alguns atributos que a gente tem por exemplo eles são categóricos entretanto o seu modelo de Machine urn existe princesa numéricos E aí você vai você vai para fazer como categórico que você vai chegar lá no dia que tá mostrando vai perceber que o modelo a variável categórica é que vai ter que fazer voltai preparar de novo né então a compreensão do processo todo um conhecimento sobre cada

um dos tipos de algoritmos que a gente tem que tipo de processo o algoritmo faz o quê que ele te entrega de resultado é que tipo de dado que ele precisa para poder fazer a modelagem né então se você não tiver uma ideia do todo né provavelmente vai ter muita dificuldade em fazer um pré-processamento e ficasse ou seja se fazendo quanto mais você faz mais vai pegando a experiência de entender o que cada modelo onde cada modelo vai chegar e que tipo de atributo que ele trabalha para você preparar melhor dá para você fazer esse

pré-processamento com mais qualidade ou seja pesquisa mais eficaz você não perder tempo né para tratamento chegar no modelo falar não dá tem que voltar para processamento então isso faz parte do processo tá pessoal essa compreensão faz parte não tem a experiência que vai te dar isso tá bom conjunto de dados pode apresentar diferentes características dimensões ou formato em os dados de que eu enviei por ter dado de boas vêm por ter dado de tênis já importei dados diferentes aqui né então percebo que cada cada conjunto daquela tributo é Tratado de forma diferente tem uma você

tem que ter uma compreensão diferente para olhar a cada atributo da que como vimos né os dados estruturados podem ser qualitativos né nominais ordinais ou quantitativos né intercalar ou racional ou ainda podemos pensar nos dados não estruturados né que podem ter origem nos e-mails nos áudios vídeos entre outras fontes então sempre importante pensando pré-processamento saber que tipo de dado que você tem do pop esses dados que vai trabalhar tem que podem ter ruídos eles podem ter imperfeições eles podem ter valores incorretos Ou inconsistentes eles podem ser duplicados ou ausentes os atributos podem ser independente ou

relacionados a eles podem estar separado por tá com relação ao comente acabou de mostrar na aula anterior é que duas variáveis era totalmente 0.99 na correlação de Cristo de de como elas estavam relacionadas curiosidades podem apresentar publicou muitos objetos né que podem ter uma pequena ou grande quantidade de atributo então se você não trabalhar com projetos nos mais variados grande parte dos dados da festa que está trabalhando aqui ou na Tá certo Pronto já prontinhas para ser rodado mas no mundo real não é assim se você pega um conjunto de dados ele tá com muito

problema né E aí consegui tirar valor desse conjunto de dados é uma das principais tarefas dos cientistas de dados como que eu lido com esse tipo de problema como que eu resolvo esse tipo de problema então se você não souber identificar esse problema não tem como resolver o problema a gente conseguiu a Box técnicas de pré-processamento tem como principal objetivo é melhorar a qualidade dos dados e também procurar eliminar elementos que podem criar um falso resultado no processamento de dados algumas dicas que ela dá para vocês aqui assim olha cuidado para sempre que eu preciso

tirar é o Isso aqui vai me dar para vai me dar algum tipo de ruído no resultado ou muitas vezes pessoal depois nenhum tipo de conjunto Conjunto das tempo tipo de problema você tem tem que inviabilizará Inclusive a fonte essa fonte não me serve eu não posso utilizar esse tipo de fonte então é a percepção de jogar para esses dados para saber se você vai ter um resultado bom Às vezes a fase pré-processamento nela tem como objetivo ajustar os dados para o uso mais adequado modelando para que possa ser processado a no seu baixo de

ordem de uma forma mais adequada isso é muito importante Ball é por isso que é tão importante né Já falei para vocês conhecer os tipos de dados as grandezas não é para você já consegue identificar as necessidades de Ajuste as quais os dados que se bom então se você olha para o lado e sabe que tipo que ele é sabe ser um tipo numérico sabe ser um tipo categórico sabe dentro de cada um desses que tipo que é seria uma variável escarrar você não é enfim saber o observar e isso vai te ajudar muito no

processo muita gente acha muito chato às vezes cidade é muito chata essa parte de pré-processamento mas talvez seja uma das partes mais importantes Porque ela fica no baixinho torne né É É um processo mais mecânico eu vou mostrar para vocês mas essa parte aqui é muito importante ela tem muito impacto nos resultados um conjunto de técnicas podem ser aplicadas e elas não tem regras não tem sequência não tem receita de bolo é o olhado cientista de dado e sua experiência determina o que precisa ser feito não tem como eu falar com vocês faz uma regrinha

sempre faz isso isso não tem como Porque dependendo da origem de dados que você tem dependendo do conjunto de dados que você tem é diferente Ah então não tem uma regra mas a gente tem várias coisas são feitas você pode usar elas amiga que for precisando o futebol a seguir a gente vai discutir algumas técnicas já consolidadas e problemas recorrentes em conjuntos de dados para mim que está acostumado a ver né é importante ressaltar que quando a referência ao termo objeto né geralmente a gente tá se referindo a um registro de uma tabela ou algo

assim objeto é um registro então o conjunto de objetos pode ser compreendido como um conjunto de registros vários registros em uma tabela ou uma planilha os atributos é só sempre uso o termo atributo né Então as variáveis ou em tabelas são seus Campos nem as suas colunas as cores são as colunas são aqui muito variável é coluna é tudo a mesma coisa tá joia importante a compreensão desses termos né é inclusive esses termos são utilizados na literatura é bem do livro que você pega você vai encontrar temos diferentes lá é bom integração agora as coisas

que acontecem Muitas vezes o nosso como de dados os dados podem ser livros de várias Fontes é de diversos conjuntos de dados determinada situação precisa ser integrado Então imagina que idade pode ser um dos por exemplo de uma ati né com informação sobre investimentos em marketing e por exemplo seja preciso integrar com dados de vendas feito uma outra plataforma digital está pegando dado de uma origem um dado de outro dia tem que ser juntar isso né você precisa integrar esses dados numa base só então aspectos como a tributos correspondentes ou seja data por exemplo né

com nomes diferentes em base de tinta se trata a a data de um jeito de um jeito no lugar e data de outro no outro lugar é informações correspondentes em bases numéricas Diferentes né como moedas idiomas diferentes por exemplo né que podes variáveis valores por exemplo como tu tá tudo com escala diferente então e muitos casos da Integração É necessário compreender Quais são os atributos necessários o objeto lembrando sempre que o elevado número de atributos pode comprometer o desempenho do seu algoritmo de parte de ordem deve ser muito importante olhar um conjunto de dados entender

quais atributos que ele tem né e muitas vezes quando você vai juntar dois conjuntos de dados por exemplo integrar vai perceber que esses eles trazem formas exatamente iguais você tem dados que são que são diferentes em cada uma dessas bases hora que você junta tem idade que são iguais você tem que eliminar muitas vezes cidades são iguais estão em formatos diferentes ou então estão escalas diferente tem que observar esse tipo de coisa bom terminação manual diá tributo muitas vezes a observar um conjunto de dados fica claro que algum atributo pode ser minado manualmente a importante

você pega dois estava junto todos os dados ele lá data e data que são exatamente iguais não tem que você vai em casa não tem que trabalhar com dois atributos porque senão você vai impactar lá e vai atrapalhar o desempenho do seu machine learning retirar os atributos pode estar relacionado por exemplo anonimização de uma base então e não é necessário isso é um ponto importante anonimizar uma base né que aplicar depender por exemplo das vezes os nossos estudos de Martini verdes exigem isso que você tira o nome das pessoas das bases então é um atributo

que vai ter que tirar na mão porque lá executar para tirar o atributo em análises preditivas por exemplo né quando o atributo não contribui para Estimativa de um valor ele é relevante para análise nesse caso ele deve ser eliminado a Mas qual que eu sei que é relevante no estudo você vai descobrir se vai perceber que aquele atributo não faz a gente vai começar a fazer testes para poder eliminar esse atributo atributo que contém o mesmo valor para todos os objetos também devem ser eliminados por exemplo um campo cidade nenhuma base que Analisa dados de

uma velocidade tenho algumas atributos e a cidade todo mundo a mesma cidade então assim se assegura uma certa lado tem que eliminar isso não vai atrapalhar vai pegar um problema de desempenho para mim também então sabe que lindo manualmente atributos que eu vou liminar a amostragem de dados muito algoritmos de Mach Lane tem dificuldade em lidar com um número grande de objetos né levando a saturação de memória necessidade de ampliar a escala horizontal da estrutura física quanto mais dados são utilizados mas tende a ser acurácia do modelo em menor eficiência computacional Então eu só que

vou trazer para vocês que quando você tem modelo Mach Lane rodando com muitos dados você precisa de muito processamento falando isso pessoal coleb que a gente tá usando né se você quiser usar GPU te perguntar esse tipo de coisa que tá demais processamento Então liga na cintura é 50 r$ 70 aí você consegue melhorar muito a performance Às vezes você tá pensando no WhatsApp um projeto né é executar isso é exemplo comprar uma máquina fazer uma coisa melhor mas vale a pena usar o colega e pro né que aí o colega e pro que é

pago mas você tem performance melhor Então nesse caso Aqui quanto mais dados utilizados né mor tende a ser apurada do seu modelo melhor vai ser o seu motivo então compreender muitos atributo entender quais as leis e tem usar só que realmente você precisa é muito importante né É claro quanto mais idade você tiver você vai precisar melhorar o seu desempenho computacional mas tome cuidado para não gerar dados necessários para o seu modelo bom apesar de toda evolução computacional pessoal é verá o caso é necessário trabalhar com amostras de dados é de forma que ela seja

representativo suficiente para representar o todo é menor que o conjunto de dados originais para evitar desempenho ruins no processo Olha só às vezes vai precisar tirar uma mostra da Ali eliminar um conjunto de idade para você conseguir processar porque às vezes o conjunto de dados é tão grande que não consegue processar então em alguns casos a fazer uma amostragem né um exemplo né de amostra é a progressiva né que ela começa com uma amostra pequena e você vai aumentando progressivamente enquanto acurácia continua a melhorar até atingir um ponto que nós mais evolução tá você pegou

um grande conjunto de dados você pega lá 10 por cento e manda rodar a funcionar legal E ainda por cento colar melhorou o desempenho do meu do meu resultado Vinte por cento melhorar o desempenho conta que tá melhorando o desempenho vai melhorando o resultado né acurácia final do seu resultado você vai me pegou e falou assim 35% chegou não tem nada o valor de resultado quarenta por cento não muda mais 50 coisa Copa então preciso estudar por isso então basta 35% é isso que é uma amostragem para trabalhar com Mach Lane muitas vezes não vai

resolver mas é uma situação pode acontecer dados desbalanceados é comum de dados o sobre conjunto de uma treinada classe apareceu com frequência maior que das demais casas exemplo ingressos vendidos por um show São oitenta por cento de uma área e os outros atribuídos a trazer mais áreas dados claramente desbalanceadas naquele atributo eu tenho 80 porcento cidades são iguais né então quer dizer isso são Dados desbalanceados esse desbalanceamento afetam muito desempenho de alguns algoritmos de Mach ver e de forma que os algoritmos Favorito uma classificação de novos dados na classe majoritária em definir o tamanho do

conjunto de dados utilizar diferentes cursos de classificação induziu modelo para uma classe são técnicas que podem ser utilizados então por exemplo nesse caso aqui né muitas vezes você vai ter que ter analisar esses dados né mudar maneira para que para que eles se aproximem da outra quantidade de idade eles não ficarem muito balanceados induzirem o processo do seu machine learning então uma das maneiras de fazer né é tentar Minimizar esse problema do balanceamento né colocando algum tipo de custo que eu não vou tipo de processo ainda uma quantidade de responder para conseguir melhorar o seu

desempenho algumas situações inclusive né incluem técnicas de classificação com apenas uma classe ou os dados são treinados separadamente por classe se separar aqueles a separam a classe faz treinamento com ele separa as outras classes têm elas separadas porque para quem um não é muito o resultado do outro então então alternativa a não ser que a gente vai ver alternativas na parte de Glória vai tentar chegar nos melhores resultados das melhores acordos limpeza de dados a qualidade do modelo e dos resultados é diretamente impactado pela qualidade dos dados dados ruidosos possuem erros os valores que são

diferentes dos esperados inconsistentes que não combinam ou contradizem valores de um outro é de outro do mesmo objeto redundante atributos com valores repetidos do mesmo objeto incompletos né com ausência de valores para parte dos azuis são motivos que impactam negativamente o resultado de Manaus é muito importante que você conheça essa deficiência podem ser causados por problemas nos equipamentos que coletam dados da transmissão armazenamento no preenchimento manual no processo de integração pode gerados vários erros em vários momentos bom dados incompletos aqui a gente vai para a tabela a gente vê o idade faltando mancha faltando com

as crianças faltam dados incompletos você olha que e aqui pode ir lá problema então esses são Dados um exemplo de dados incompletos ausência de Valores em alguns atributos pode ter diferentes causas é é o atributo não foi considerada a importância do preenchimento aquela que não era importante o desconhecimento do valor do atributo no preenchimento Então quem tava preenchendo não sabe exatamente que preencher deixar em branco a distração no preenchimento aconteceu algum problema pessoal em fino foi lá na hora de preencher não preencheu inexistência de valor para tributo só pode acontecer que alguns registros né Na

hora de modelo habilidade né não tem valor para criar tributo mesmo alguns dos registros foram gerados né é por exemplo você coloca na ordem mulher junto com a quantidade de filhos gerados na sua mulher que vai ter o homem não vai ter problema com o equipamento que foi realizada uma coleta o que na geração dos dados é o equipamento não conseguiu Geral de um problema de ruído talvez deixou em branco aqueles aqueles aquela aqueles Campos então eles são Dados incompletos algumas técnicas que podem ser utilizadas pessoal eliminar objetos com valores ausentes alternativa normalmente é descartada

quando poucos atributos do objeto tem os valores Ausentes e definir preencher manualmente valores para atributos com valores ausentes então muitas vezes e vai lá né Tá valores a gente vai lá e preenche com algum outro favor para mim te dar problema a hoje são a média alguma coisa assim pois ele tem lá grupo de pessoas 300 pessoas e um dele tem valor de altura e um dele só não tem valor de altura que você faz é para uma média Entre todos põe ali no valor de altura para aquele e tudo bem não vai resolver é

ter nenhum problema você deixar com 10 ali vai criar um problema de ruído é daquela professora ausente vai impactar nos resultados apanhar médio todo mundo a resolvido o problema é os algum método heurístico para automaticamente definir valores para atributos com valores ausentes em campo nesse caso é importante definir o valor onde se saiba que era o valor ausente anteriormente é usar uma média moda mediana que foi que eu falei definir o indutor baseado em outros atributos de calcular esse valor baseado em outro muitas vezes o dado incompleto não tem só que ser eliminado em fazer

uma análise e ver se você não pode realmente preencher esse valor automaticamente cai O que é que vai impactar pouco no seu resultado Nem sempre é só jogar fora dados inconsistentes são Dados que possuem valores conflitantes com seus atributos por exemplo né o Maicon um atributo eu tenho idade três peso 120 impossível né Tem uma pessoa de três anos tem a 120 kg que assim provavelmente Esse é um erro de digitação é volta de 5 segundos em um circuito de Fórmula 1 com 3,5 km né não é possível ter um carro fez uma volta em

5 segundos no circuito 3,5 M são Dados que claramente são inconsistentes é quantas é bastante comum é o uso de escalas diferentes para fazer referência a uma mesma medida metros e centímetros por exemplo é vão gerar valores inconsistentes e consistência também pode ser reconhecidas né quando relação entre atributos são claramente conhecidas valores corretos com relacionados direta ou indiretamente sabe né que tem uma relação de correlação com a gente mostrou lá do jogo de tênis na aula anterior né que é quem perdeu o Sacomã é de quem ganhou o saco uma quantidade de vezes você vê

que só ia metade o diferente valores aqui tá errado né Tá claramente em consistente porque foi digitado errado foi capturado errado esse valor em alguns algoritmos simples pode verificar a existência de inconsistências em casos de curiosidades não muito grandes é dados inconsistentes podem ser removidos manualmente só as observando você consegue ver um consistência e eliminar esses dados aí muitas vezes vai usar os algoritmos na técnica sem fazer para conseguir corrigir esse problema é dentro dados redundantes aqui ó olha só eu tenho aqui né conjuntos de dados redundantes ou seja dados que são exatamente iguais Pois

é porque eu tenho duas linhas né a linha aqui com idade de 18 das oito cidades exatamente quase duas vezes são iguais Pode ser que você não tá dizendo antes mesmo que não for ela vai gerar algum impacto no resultado aqui eu tenho atributos redundantes Olha só internação e visita né o mesmo número dos dois atributos exatamente igual a então nessa tabela do lado direito ou seja claramente eu tô vendo que eu tenho dados redundantes ou tenho minhas redundantes ou eu tenho atributos e do dois Ele trouxe eliminados a o objeto redundante é objeto que

é muito semelhante ao outro no mesmo conjunto de dados né também é considerada um atributo redundante quando ele pode ser deduzido a partir do valor de um atributo você já tenho data de nascimento e vou gerar idade não é redundante dois ou mais atributos estão correlacionados quando apresenta um perfil de variação semelhante para os diferentes objetos e variáveis que elas mudam exatamente igual as duas variáveis uma exatamente igual quando eu mudo de é de objeto dados redundantes pode criar A falsa sensação de que esse perfil de objeto é mais importante que os demais induzindo o

modelo de alarmes se acontecer muito em machine learning e se tem que tomar cuidado com os dados redundantes é importante pessoal identificar e eliminar as redondezas que podem ser feitas eliminação de objetos semelhantes ou pela combinação dos valores dos atributos dos objetos semelhantes a também uma técnica E para finalizar o pré-processamento pessoal uma parte fundamental dos estudos de data-size quanto mais gente santidade afinidade com esses processos melhores serão os resultados é muito importante conhecer os dados e principalmente saber como lidar com eles né isso normalmente pessoal senão vai fazer sentar no computador executar muitas vezes

demanda uma reunião com equipe com quem estava lidando com esses dados de onde veio a fonte a vamos olhar isso aqui esse dado não tenha se dado tempo tá redundante tem esse dado tá do anunciado que a gente vai fazer vamos tomar uma tarefa que você executa um comando e continuar trabalhando realmente demanda uma atenção para esse para esse processo Especialmente na próxima a gente vai ter demonstração de alguns processos aí a gente vai fazer de pré-processamento tá então se vê na próxima aula 1 [Música] E aí [Música]