Nas mais diversas áreas do conhecimento, medidas de posição e variação relativa são utilizadas com frequência na análise exploratória. Média, Desvio Padrão, Mínimo e Máximo, e primeiro, segundo e terceiro quartil são as medidas descritivas mais comuns e elas também podem ser apresentadas em gráficos como é o caso do Boxplot. Mas para entender o Boxplot precisamos primeiro saber o que são percentil e quartil.
O percentil é uma medida de posição. Imagine uma amostra ordenada em ordem crescente e dividida em 100 partes. O percentil indica o valor do qual determinado percentual de elementos da amostra são menores ou iguais a ele.
Para exemplificar vamos usar a idade de 12 indivíduos e colocar em ordem crescente. Bom, queremos saber então qual o valor tal que 25% dos dados são menores ou iguais a eles. Para isso precisamos primeiro encontrar em qual posição está esse valor; chegamos a essa posição multiplicando o percentil que queremos pelo tamanho da amostra e dividindo por 100.
Realizando esse cálculo, chegamos na posição três e nela temos a idade de 21 anos. Sendo assim, o percentil 25 dessa mostra é 21 anos. Isso significa que pelo menos 25% dos indivíduos dessa amostra tem o máximo 21 anos.
Os quartis nada mais são do que os percentis 25, 50, e 75 representando respectivamente o primeiro segundo e terceiro quartil. Veja que o segundo quartil equivale ao percentil 50 valor em que pelo menos 50% da amostra está acima dele e pelo menos 50% está abaixo E não é isso a definição de mediana? Sim, então percentil 50 ou segundo quartil equivalem a mediana!
Agora que já sabemos o que são percentis, quartis e mediana, vamos ao ponto de interesse do vídeo. O Boxplot, ou diagrama de caixa, é uma ferramenta gráfica que permite visualizar a distribuição e os valores discrepantes. Com ele conseguimos desenvolver uma perspectiva sobre o caráter dos dados e comparar diferentes amostras; isso só é possível porque o diagrama é formado por estatísticas descritivas como: mínimo, máximo primeiro quartil, segundo quartil ou mediana e o terceiro quartil.
Se pegarmos os dados da tabela de idade que já mostramos anteriormente teríamos seguinte gráfico: Observando a figura do Boxplot notamos que o local onde a haste vertical começa indica o mínimo e onde a haste termina indica o máximo, caso não haja um Outlier. O retângulo no meio dessa haste possui três linhas horizontais. A linha de baixo que é o próprio contorno inferior do retângulo indica o primeiro quartil; a de cima que é o contorno superior do retângulo indica o terceiro quartil e a linha do meio indica o segundo quartil ou mediana.
Os asteriscos ou pontos que podem aparecer no Boxplot indicam que aquelas observações são atípicas, valores discrepantes extremos ou Outliers. O Boxplot nos fornece uma análise visual da posição, dispersão, simetria, caldas e valores discrepantes. do conjunto de dados.
Vamos explicar cada uma delas. Para ver a posição dos dados observa-se a linha central do retângulo que é a mediana ou segundo quartil. Já a dispersão dos dados pode ser representada pelo intervalo interquartílico que é a diferença entre o 3º quartil e o 1º quartil, o tamanho da caixa; ou ainda pela amplitude que é calculada da seguinte maneira: valor máximo - maior mínimo.
Também podemos avaliar se um conjunto de dados tem uma distribuição simétrica observando-se a linha na mediana está no centro do retângulo. Quando a linha da mediana está próxima ao 1º quartil os dados são assimétricos positivos e quando a posição da linha da mediana é próximo ao 3º quartil os dados são assimétricos negativos. As linhas que vão do retângulo até o valor máximo fornece um comprimento das caudas da distribuição e os outliers indicam possíveis valores discrepantes ou seja aqueles que aparecem abaixo ou acima dos limites de detecção.
Uma das formas de se calcular o limite de detecção de Outliers utiliza o intervalo interquartílico dado pela distância entre o 1º e o 3º quartil sendo assim os limites inferior e superior de detecção de Outliers são dados por: o limite inferior é igual ao 1º quartil menos 1,5x a diferença entre o 3º e o 1º quartil. O limite superior é igual ao 3º quartil mais 1,5x a diferença entre o 3º e o 1º quartil. Já entendemos todas as partes do Boxplot, então vamos olhar para esse exemplo prático.
Neste exemplo, vamos apresentar o Boxplot comparativo. No artigo do nosso blog onde ensinamos como construir um Boxplot utilizando R utilizamos o banco de dados CATS do pacote MASS. Esse banco de dados contém dados de gatos adultos pesando mais de dois quilos.
Utilizamos as variáveis peso corporal, bwt e sexo, sex, para construir o Boxplot comparativo. Com o Boxplot comparativo podemos concluir, por exemplo, que o peso corporal dos gatos do sexo masculino apresentam maior variabilidade que o peso corporal dos gatos do sexo feminino. Gostou do nosso vídeo sobre o Boxplot?
Caso ainda tenha ficado alguma dúvida, deixe seu comentário aqui embaixo e siga o canal do Statplace no YouTube para saber mais!