Mineração de Dados - Análise descritiva de dados

5.31k views2886 WordsCopy TextShare

UNIVESP

univesp.br Mineração de Dados Univesp (Universidade Virtual do Estado de São Paulo) Professor: Higor...

Video Transcript:

o [Música] Olá hoje a gente vai falar sobre análise descritiva de dados Ah tá então quando a gente vai lidar com conjuntos de dados né É principalmente quando esses dados são de um domínio que a gente não conhece né não conhece muito bem a gente precisa entender como é que esses dados estão organizados distribuídos muitas vezes essas bases vão ter ali centenas de atributos com alguns milhares ou milhões de objetos Então como é que agente faz para ter uma ideia Geral das características desses dados né análise descritiva de dados vai ajudar a gente com isso

Ah tá então objetivo a gente entender essas características para fazer um bom uso desses dados para Analisa é a Então os objetivos da análise são descrever simplificar o sumarizar esses dados né as características que existem nessa base de dados é a gente vai muitas vezes quantificar determinados valores de um atributo para o todos os objetos da base né então vai ver como é que tá essa distribuição dos valores que fazem parte de um atributo da análise costuma ser feita utilizando uma único atributo EA gente nesse caso chama de análise univariada dois atributos também costumam ser

usados para fazer uma relação entre entre esses atributos né tentar descobrir alguma relação Nesse caso a gente chama de bi variadas e como a gente usa técnicas de visualização muitas vezes a gente não consegue analisar vários atributos ao mesmo tempo porque fica difícil de representar né então geralmente é o univariada o bivariada com algumas exceções até three variada com três atributos Ah tá é nesse exemplo aqui a gente tem o atributo frutas né e a gente quer dar uma olhada geral no Como tá a distribuição dos valores que fazem parte desse atributo tá então a

gente pode fazer uma representação visual como por exemplo esse gráfico de setores da para mostrar a lina quanto de cada um dos valores possíveis tem e dessa forma a gente consegue entender tem uma ideia Geral de como tá a distribuição desses valores para esse determinado atributo Ah tá análise descritiva ela pode ser feita em etapas né os processos que a gente utiliza para obter nessas informações Ah tá vamos começar a dar uma olhada então na organismo como que a gente organiza esses dados usando as distribuições de frequência tá então a ideia que a gente está

esses possíveis valores que um determinado atributo tem um mais atributos daí fazer um resumo desses dados agrupando eles similar de forma similar assim que a gente consiga fazer uma visualização um pouco mais simplificada do que cada atributo individualmente tá e Geralmente as etapa é usada para a gente conseguir construir os gráficos e visualizar essas informações Ah tá então nas distribuições de frequência a gente vai olhar Vários valores aqui né como limite inferior superior Fronteira de classes eu vou mostrar um exemplo para a gente falar um pouquinho mais sobre esse assunto então essa tabela ela tem

era uma base de dados sobre mamografia exames de mamografia de casos que apresentaram algum nódulo né algum tumor essa mostra da base de 80 objetos e a gente vai olhar o atributo idade Ah tá então a gente pode ver aqui por exemplo uma divisão de classes aqui a gente determina uma divisão de classes para tentar agrupar esses dados essa divisão pode ser feita tanto pelo especialista em mineração de dados quanto pelo especialista no domínio é que tem uma ideia de Quantas classes representaram bem esses dados Ah tá é uma vez que a gente determinou o

número de classes né a gente vai fazer um cálculo da amplitude que cada classe tem ou seja Quanto qual a faixa de valores que essa classe deve representar tá amplitude ela vai ser calculada pegando a diferença entre o maior e o menor valor obtido ali né para nesse caso com o atributo idade e dividido pelo número de classes tá nesse nosso exemplo aqui o menor valor é 23 aí o maior valor da base 81 tá com isso a gente vai obter aqui um valor de 11,6 E aí como a gente quer trabalhar com classes o

que se faz normalmente arredondar esse valor para o inteiro superior tá então a amplitude vai ser de 12 cada classe e vai ter ali faixa sequenciais de amplitude 12 e a gente pode calcular também a fronteira na fronteira é a diferença entre o limite superior de uma determinada classe e o limite inferior da classe seguinte tá então o valor que fica no meio ali que ajuda a gente de terminar de repente valores que podem não estar em uma ou em outra classe e a gente pode olhar também a fronteira absoluta a desculpa a frequência absoluta

tá frequência absoluta ela vai dar a quantidade de objetos ou registros que fazem parte daquela classe Tá além disso a gente pode olhar também a frequência relativa né que é o percentual de objetos que estão em cada uma das classes e também a frequência acumulativa é a soma das frequências relativas da primeira para a última classe tá sempre obterá um total de cem porcento Ah tá então uma vez que a gente fez esses processos né de identificar quais são bons valores para representar as classes e olhou né como tá distribuição a gente pode usar esse

tipo de informação para construir gráficos que ajudem a visualizar essas informações e uma maneira simplificada Então uso de recursos visuais vai ajudar a por exemplo pessoas que têm diferentes níveis de conhecimento sobre aquele domínio que está sendo analisado a olhar aqueles dados de uma maneira geral né então os gráficos ajudam a gente a compartilhar essas informações que tão cedo do exploradas com pessoas é que muitas vezes também não conhecem muito bem internamente aqueles lados Ah tá então vou mostrar alguns exemplos aqui de gráficos que podem ser usados tá o primeiro ao histograma tá o histograma

ele vai mostrar para a gente é a partir daquela divisão que a gente determinou Qual é a quantidade de objetos que estão em cada uma das classes com isso a gente consegue ter uma ideia aqui das classes que tem mais representação nos dados e - representação a gente pode trabalhar tanto com a frequência absoluta quanto com a frequência relativa aqui no eixo Y tá nesse caso estamos usando absoluta Ah tá a gente também pode utilizar ver essa mesma informação através do polígono de frequências tá diferença é que o polígono de frequências vai mostrar essa informação

a partir de um gráfico de linha e não de barra como no caso do histograma aqui a informação ela a diferença né de da quantidade de atributos de um objeto para o outro vai ser dada pela inclinação né quanto maior a inclinação de uma classe para outra maior que a participação da classe no na quantidade de objetos que fazem parte da base tá então sempre o final aqui da inclinação Vai Vai representar a classe que tem uma maior participação nos dados Isso é uma outra forma de a gente visualizar também esses dados é utilizando o

gráfico de orgiva a diferença que o ogiva é um gráfico de linha que vai mostrar para a gente a frequência acumulada na Então vai sempre mostrar que o total 100 porcento dos dados né no final e aqui da mesma forma na inclinação ela vai indicar para a gente qual quais são as classes ali tem uma maior contribuição para o total de dados estão sendo analisados e a gente tem ainda o gráfico de Pareto gráfico de Pareto ele é muito similar ao gráfico de histograma né ao histograma e a diferença que ele vai vir ordenado aqui

do maior né do objeto da classe que têm maior a maior quantidade de objetos para que tem menos tá dessa forma a gente já batendo o olho no gráfico a gente já consegue ver qual é a qual a classe que tem uma maior participação a distribuição e nesse exemplo aqui são a pessoa sair que fizeram o exame de mamografia com idades entre 59 e 70 anos Ah tá e o gráfico de setores também vai trazer essa informação de outra forma uma outra visualização Então nesse caso a gente também tá verificar na idade e trazendo os

percentuais aqui de participação de cada uma das classes é muito comum a gente usar cores diferentes para destacar bem a diferença entre os setores ali né onde os limites entre um setor e outro e surgiu ajuda a gente a sumarizar esses dados e olhar para eles com e é com esse objetivo de entender quais tem mais dados quais temos dados e dá um outro garfo gráfico que eu vou trazer aqui é o gráfico de dispersão tá o gráfico de dispersão ele já um gráfico para a gente trabalhar com dados bivariados tá então a gente vai

olhar sempre para duas variáveis da nossa base de dados e tentar identificar uma relação entre elas tá nesse caso além da idade a gente tá trazendo também um outro atributo dessa base que é a severidade a severidade ela recebe valores 01 para indicar se esse tumor que foi identificado ele é benigno no caso 01 maligno no caso 1 Oi tá com esse tipo de gráfico a gente consegue ver por exemplo que a distribuição de casos de tumor benigno ela acontece aqui em todas as faixas etárias dentro da base de dados mas quando a gente olha

o os tumores malignos a gente pode ver que não não tem casos abaixo dos 40 anos tá então isso pode ser o primeiro indicativo desses dados e que os casos de tumores tumores malignos acontecem mais após os 40 anos então aqui a gente já conseguiu relacionar do dois atributos e fazer alguma tira alguma informação disso numa análise prévia E aí que pode ser explorada melhor usando as técnicas de mineração de dados E aí vamos falar também então sobre os cálculos de medidas né a gente tem algumas medidas que a gente pode extrair desses valores de

resumo aqui também vão colaborar para entender melhor os dados Ah tá então começando pela medida de tendência Central são as medidas que tentam Verificar como tá a distribuição dos dados mais ao centro da amostra tá então a gente nesse caso vai trabalhar com a média dos valores por exemplo para um determinado atributo a média ela costuma ser sensível a valores extremos né então o valor muito alto na base por exemplo vai distorcer um pouco a médio Nesse caso a gente pode olhar para mediana tá mediana ela pega a base naquele atributo ordenado e pega o

valor Central valor do meio né esse valor do meio ele é menos sensível a valores extremos e a gente pode usar a moda também tá uma moda ela já vai trazer outra informação né a quantidade de valores mais presentes naquele atributo se esses valores são muito dispersos a moda pode não ser muito útil ela pode não trazer uma informação muito relevante então costuma-se usar esses valores e dependendo da distribuição dos dados você dá importância para mais para um desse uma dessas medidas é do que outra Oi e a gente pode olhar o ponto médio também

né que é a diferença entre o maior e o menor valor é dividido por 2 é a metade dessa diferença dessa amplitude presente naquele atributo Ah tá a gente tem também as medidas de dispersão tá então as de dispersão elas vão ver como esses dados estão espalhados é como esses valores daquele atributo estão espalhados ali na nossa base de dados tá então um jeito de fazer isso é utilizando a amplitude né vendo a diferença entre o maior e o menor valor a variância também é utilizada para ver como os valores Desses desse atributo variam né

dá para toda a amostra EA gente pode usar também o desvio padrão né que aí já vai ele vai olhar essa variância também mais em relação ao valor médio tá então ele vai tirar essa essa diferença da média para ver qual a variância geral de todo o conjunto de dados é uma outra medida resumo usada são as medidas de forma tá as medidas de forma elas vão mostrar para a gente graficamente como que esses dados estão distribuídos eu tenho aqui dois gráficos tá esse gráfico aqui da esquerda ele a gente usa uma medida de cálculo

chamada assimetria na quando a simetria ela é negativa a concentração dos dados ela vai estar mais para o final da mostra para valores maiores ela tende a estar mais concentrada em valores finais por isso Esse aumento da curva aqui para o lado direito do gráfico e tá nesse caso quando assimetria negativa é comum que o valor da média seja menor que o da mediana e o da mediana seja menor que o valor da moda Ah tá o contrário acontece quando o cálculo da simetria da um valor positivo essa concentração dos dados nesse caso costuma tá

mais à esquerda do gráfico mas nos valores menores tá E aí nesse caso a moda costuma ser menor que a mediana EA mediana menor que a média tá então dessa forma a gente consegue olhar também a distribuição e qual desses qual dessas medidas aqui de tendência Central pode ser mais adequada para o uso Ah tá uma outra medida de forma né que é utilizada é o cálculo da curtose a curtose ela representa o relação àquela amplitude vertical da representação desses dados Então a gente tem aqui essa curva branca é a curva da distribuição gaussiana a

distribuição normal quando o cálculo da curtose apresenta um valor maior que zero é porque normalmente é um achatamento maior de uma concentração maior de valores do atributo Na parte central da distribuição Então a gente tem uma concentração tem dado que são menos dispersos né estão mais concentrados ali no centro da distribuição o contrário acontece quando a curtose tem um valor negativo né então esses dados eles costumam estar mais dispersos na base e não estão concentrados no centro a ele é mais achar Esse é um gráfico que apresenta uma característica mais achatada E então a gente

sabe né olhando esse tipo de informação que os dados estão mais distribuídos por todos os valores do que concentrados nos valores centrais e a gente pode utilizar ainda as medidas de posição relativa que vão olhar a distribuição a partir de quantis quando a gente usa trabalha com quatro uma divisão de vinte e cinco porcento dos dados não é 100 porcento dos dados é a gente está utilizando Então os Quatis e essa divisão 25% Vai representar como que os dados estão também distribuídos agora visualizando do ponto de vista relativo a gente usa a medida de Ranger

interquartil para ter uma ideia da qual em qual faixa de valor ali esses dados são mais concentrados do ponto de vista relativo e muitas vezes a gente vai representar esse tipo de medida utilizando esse gráfico aqui esse gráfico de caixa nesse diagrama de caixa Ah tá os valores aqui ainda utilizando né o atributo idade os valores aqui vão representar o valor mínimo da básica 23 o máximo 81 e aqui a gente tem os quartis né então o corte um 47 meio de idade é o 42 ele aqui também representa a mediana 58. 5 e o

terceiro quartil 66 tá o quarto quartil vai com esse diy geralmente aqui com o valor máximo Oi tá aí ainda a gente tem as medidas de associação tá as medidas de associação elas vão verificar qual é a correlação entre dois atributos então elas também são usadas aí de forma bem variada a gente tem aí como medir as principais medidas né de correlação ou coeficiente de pearson para dados paramétricos e o de esperma para dados não paramétricos os valores para ambos os coeficientes aqui variam entre 0 entre menos um tá onde um vai significar uma correlação

positiva perfeita na os dados eles crescem nos dois atributos sempre juntos na sempre no mesmo sentido menos um a correlação negativa perfeita os dados são inversamente proporcionais enquanto um cresce o outro desce mas sempre correlacionados e o valor zero ele vai dar o que esses dados não tem correlação na eles vão um atributo não tem nada a ver com o outro Ah tá eu trouxe uns exemplos aqui gráficos então do desse gráfico de dispersão para mostrar um caso aqui de correlação positiva perfeita Oi tá um caso aqui é de correlação negativa forte Então os dados

tem uma certa dispersão mas o alinhamento segue aqui em versamente proporcional o e trouxe também aqui no caso em que os dados não tem relação né não tem correlação eles estão espalhados bem dispersos e uma correlação não linear é uma correlação parcial em que até até algum momento os dados crescem em conjunto mas em outro momento a partir de um certo valor ele já é de Monção outro comportamento certo esse ao conteúdo da aula de hoje obrigado a [Música] [Música] E aí