Mineração de Dados - Redução e transformação dos dados

3.58k views2570 WordsCopy TextShare

UNIVESP

univesp.br Mineração de Dados Univesp (Universidade Virtual do Estado de São Paulo) Professor: Higor...

Video Transcript:

E aí [Música] o Olá vamos continuar nessa aula de mineração de dados vendo mais um pouco sobre pré-processamento de dados Ah tá Hoje a gente vai falar sobre redução transformação e também sobre discretização bom então começando com redução é a redução de dados ela é aplicada geralmente numa base de dados quando a gente quer Diminuir a quantidade de atributos objetos existentes né a gente quando tem que lidar com uma base de dados muito grande normalmente vai ter que fazer alguma redução para permitir que os algoritmos de processamento de dados trabalhem de uma maneira mais simples

na que diminui a complexidade de execução desses algoritmos aí também para gente obter muitas vezes modelos de geração é menos complexos né que que Tragam informação de uma maneira mais sintetizada Ah tá eu vou dar um exemplo aqui de da complexidade do algoritmo a priori que a gente vai estudar e mais detalhes quando a gente falar de regras de associação tá dado que a gente tem e atributos dentro de uma para um determinado objeto de uma base de dados com o algoritmo apriori e a gente vai fazer o processamento que vai ter um custo de

duas 2 elevado a n - 1 etapas de processamento é quando eu tiver por exemplo três atributos somente isso vai significar aí uma Pouca pouco número de combinações é a gente vai ter até sete combinações Agora se a gente já tiver 20 atributos a gente já tá falando de uma complexidade de execução de um milhão de possíveis combinações e com mais atributos esse problema só vai piorando tá então no caso do a priori por exemplo é muito importante a gente fazer é uma redução de dados para conseguir trabalhar adequadamente com algoritmo Oi tá redução de

dados ela pode ser feita tanto quanto aos os atributos né dessa base de dados quanto à quantidade de objetos também que podem ser reduzidos e a gente vai dar uma olhada em alguns dos métodos de redução dos dados que podem ser aplicados tá começando pela seleção de atributos na qual que é a ideia né a gente remover ali uma uma certa quantidade de atributos que não são relevantes para análise que vai ser feita tá então um exemplo é o identificador tá o identificador é um valor único e não necessariamente ele vai ser útil para qualquer

processamento muitas vezes numa base de dados a gente tem o nome do usuário e tem o login dele então se esses dados vão ser usados para análise um desses dois atributos pode ser suficiente o outro pode ser retirado a mesma coisa quando a gente fala de data de nascimento e idade na idade pode ser calculada a partir da data de nascimento Ah tá é sobre compressão de atributos na uma outra um outro método para fazer essa redução é a gente pode fazer tanto a compactação dos dados a gente pode é reduzir por exemplo a precisão

do de casas decimais de um dado de GPS da localização de GPS Ou a gente pode fazer também a codifi cação ou transformação dos atributos e uma das principais técnicas para fazer esse tipo de método é o PC a né análise de componentes principais tá como é que funciona o PCA o PC ele vai verificar a relação a correlação entre atributos atributos que tem uma variação similar parecida né Ou seja que estão correlacionados muitas vezes eles vão entregar mesmo informação na hora da análise então o PCA o que ele faz a identificar esses atributos que

se bom né ali na no na curva de regressão linear por exemplo de uma forma Aparecida ele vai substituir esses atributos similares por um único atributo que é um desses componentes principais Daí vem esse nome componente principal e qual que é a ideia né alguns componentes principais são mais importantes para análise porque eles vão ter uma variância maiores vão representar melhor os dados então o PC ele organiza esses esses atributos né esses componentes principais de acordo com a maior variância Ah tá a gente pode também fazer essa redução usando a redução do número de dados

então número de dados A ideia é a gente selecionar alguns objectos da base que sejam representativos para análise ou então aproximar modelos de representação também e os principais métodos que a gente pode utilização amostragem e os modelos de aproximação tá na amostragem a gente vai retirar uma quantidade de objetos como nesse exemplo aqui né é uma quantidade de pessoas com as suas características para ser usada na fase de análise na fase de mineração tá e a gente pode fazer amostragem de algumas formas diferentes então a gente pode por exemplo fazer ela escolher aleatóriamente os objetos

da base com ou sem substituição tá a gente pode também adotar um critério sistemático por exemplo a gente pode pegar os registros aos objetos Paris A cada dois objetos se separar eles para para fazer essa seleção O importante do critério sistemático é que ele possa ser reproduzido é o critério esse pode ser variado de acordo com o analista tá fazendo né esse esse procedimento é amostragem ela pode ser por grupo também uma vez que os dados tenham um certo conjunto de grupos você pode selecionar alguns grupos para fazer parte do da análise tá ou ainda

pode ser estratificada na estratificada A ideia é manter a proporção de alguma das características dos dados então um exemplo uma base de dados que tenham é objetos masculinos e femininos uma proporção de quarenta por cento homem 60 mulheres na hora de extrair essa essa parte dos dados para fazer análise e você mantém essa proporção dos objetos da mesma forma e a gente tem ainda como redução os modelos de aproximação a ideia dos modelos de aproximação a gente representar os dados a partir de alguma função ou modelo que ser que seja possível identificar dentro daqueles dados

tá aí A ideia é usar essa informação para substituir valores dos atributos tá então aqui um exemplo de um modelo de aproximação não para paramétrico tá Então nesse caso aqui a gente tem dois atributos né X no eixo X no eixo Y e a gente tá aproximando uma função essa linha azul de acordo com esses dados né aproximando esses dados aqui em laranja tá essa curva ela vai ser essa função aqui E com isso a gente pode usar essa função para substituir os valores e y a gente quando for fazer o uso dos dados vai

calcular o y a partir e essa função Oi tá aí um exemplo de aproximação modelo de aproximação não-paramétrico é o uso de agrupamento Como por exemplo o algoritmo k-médias que a gente vai estudar mais para frente também detalhes que vai agrupar uma certa quantidade de objetos é aqui em azul e vai pegar um desses objetos e sem laranja por exemplo né no centro aqui de cada grupo para representar os demais objetos e assim a gente consegue reduzir um pouco é esse os objetos que precisam ser usados para Analice e a gente tem ainda discretização que

a gente vai tratar ainda nessa aula mais para frente a uma outra técnica o método de redução de dados Ah tá vamos falar um pouco também então sobre transformação de dados no pré-processamento Tá qual ideia né A transformação de dados ela quando a gente tem base de dados que são brutas né O que são Integradas né a gente junta várias bases de dados para fazer Nossa análise isso gera inconsistências e ruídos né então A ideia é transformar esses dados para evitar essas inconsistências e ruídos sempre que a gente precisar trabalhar com esses dados tá então

como exemplo eu tô trazendo aqui a gente pode ter um certo atributo gênero que tem vários valores diferentes sendo usados para representar é um objeto feminino A ideia é a gente trabalhar e isso para ter uma única representação na gente transforma esses dados para que eles fiquem todos coerentes da mesma coisa poderia acontecer com a distância tá então a gente em várias unidades de medida diferente representado a distância na base de idade a gente quer que elas sejam únicas para facilitar a análise já que elas representam o mesmo valor tá e a gente pode também

fazer transformação de atributos que não estão uniformes da base né Então seja numéricos Ou categóricos a gente pode utilizar esse processo para regularizar esses dados Oi tá na transformação de dados a gente vai buscar e modificar ou consolidar as formas do desses dos valores desses atributos para que a gente possa usar corretamente no processo de mineração de dados daí os tipos principais de transformação são a padronização Ea normalização Oi tá na padronização a gente vai trabalhar com as diferenças de escalas de medidas por exemplo Então a gente vai transformar em escalas diferentes numa escala que

seja a única né que seja padronizada a gente pode fazer a capitalização também então para valores que estão as vezes misturando letras maiúsculas e minúsculas a gente pode transformar todas somente para maiúscula tá vamos muitas vezes também retirar caracteres especiais que vão atrapalhar o processo de análise né então letras com acento por exemplo podem influenciar ali dependendo da técnica que foi utilizada podem atrapalhar a análise tá a gente pode formatar esses dados também de Charles um formato que seja mais adequado para o uso ou ainda fazer conversão de unidades também para tratar esses dados e

deixar uma única unidade de medida para um determinado atributo Oi tá na normalização né a gente vai também a ideia também adequar esses dados para o uso né em algoritmos de mineração de dados tem quatro tipos de normalização que eu trouxe aqui para essa aula tá o primeiro a Max mim então no Max mim a gente vai transformar a escala de valores de um certo atributo para uma faixa determinada que a gente queira nessa fórmula representa aqui né como que a gente faz essa transformação né a gente vai obter um novo valor é a partir

daqui da diferença entre o valor atual do valor mínimo que que existe presente da do atributo na base atual divididos pela diferença do valor máximo e mínimo atual e multiplicar pelo pela diferença do novo máximo e o novo Mimo da escala que a gente quer obter a transformação por fim a gente soma isso né aqui Qual o valor do novo mínimo um exemplo de desse tipo de normalização é a gente colocar valores é que estão em dezenas ou centenas numa escala de 0 a 1 Oi tá na normalização escores Z o objetivo é a gente

evitar dados que tenham problemas de anomalias essa valores são muito discrepantes da maioria dos outros dados então valores muito extremos muito altos ou muito baixos podem ser removidos E para isso a gente usa aqui os valores de média e desvio padrão para obter o novo valor calculado Oi tá gente pode fazer também essa normalização por escalonamento decimal para fazer isso a gente vai é pegar o máximo valor inteiro que tenha numa base e a gente vai então é obter o máximo de si mal dele né a gente faz isso dividindo o valor original por 10

elevado a um certo número J tá o J é o número que vai permitir a gente obter o maior valor no maior número decimal possível e a gente pode também fazer essa normalização pelo Ranger Inter quarto interquartil da o registro quartil ele vai utilizar a divisão é da daquele conjunto de valores na do atributo em quatro partes em em quartis né E aí a gente vai fazer a divisão do da diferença entre o valor atual e o valor do segundo quartil pela divisão do valor que a gente chama né de do Ranger interquartil né ou

seja do 3º quartil e do 1º quartil na é com isso a gente consegue colocar esses dados dentro de uma escala de posição relativa à o posicionamento da onde tá a maioria desses dados tá também evitando anomalias Ah tá essa tabela aquela mostra um exemplo então de alguns valores originais e os esses valores modificados aqui usando cada uma dessas técnicas aqui né o métodos de normalização Ah tá e vamos falar também sobre discretização tá então qualquer ideia na discretização né a gente tem uma base de dados ali com por exemplo muito um certo atributo com

muitos valores continuam os diferentes e a gente quer agrupar esses valores Continuo sem valores discretos para facilitar o uso numa técnica de mineração de dados tá então vejam esse exemplo aqui a gente tem alguma Vários valores né de um determinado atributo continuou-se a gente vai dividir esses valores em dois duas categorias aqui uma de 1 a 5 outra de 6 a 10 tá E aí a gente vai fazer a substituição desses valores contínuos por essas classes aqui vai trabalhar com essas classes é isso diminui ali a necessidade de processar dados que estão com valores muito

diferentes atrás o grupamento Ah tá um exemplo aqui na de método de discretização é o método né que a gente pode utilizar para discretização é o uso de intervalos predeterminados então o especialista o analista de dados vai dizer quais são os intervalos podem ser usados para que eles dados tá a gente pode também usar o encaixotamento ou análise de histograma né Então nesse caso os dados também vão ser divididos ali por algum critério em um certo conjunto de classes mas aí a gente usa é uma um certo número determinado de caixas para colocar esses dados

dentro isso vai mostrar para a gente qual quantos registros fazem parte de cada uma dessas caixas né e a gente pode fazer essa análise e usando um histograma e a gente pode utilizar também técnicas de agrupamento né agrupamento que trataremos durante esse curso numa próxima aula tá e ainda a gente pode fazer o uso de cálculo de entropia a entropia uma divisão que é feita com objetivo de maximizar o ganho de informação Então os dados também são divididos em algumas faixas de valores mais com esse objetivo final de aumentar o o ganho de informação que

se pode ter com essa divisão Ah tá eu trouxe aqui um exemplo né de do uso de análise de histograma tá então a gente tem nesse histograma aqui é uma certa quantidade aqui de faixas e valores aqui de 10 em 10 tá e cada faixa de valor vai ter uma quantidade de objetos que faz parte dessas faixas né esses valores Foram obtidos A partir dessa tabela aqui né aqui todas as linhas aqui colunas representam os valores do atributo e quando foram divididos na quando foram discretizadas geraram aqui essa é certo número de caixas aqui né

que vão representar os dados então a gente consegue uma redução aqui de Aqui tem 10 linhas das colunas né gente tava trabalhando com sem valores aqui a gente vai ter dez valores a uma redução é de 90 porcento dos dados e às vezes Vai facilitar esse processo de análise certo bom era esse é o conteúdo da aula de hoje obrigado e até a próxima tchau [Música] [Música]