[Música] Olá pessoal estamos novamente aqui na nossa aula de ps300 estatística e probabilidade para concluir a segunda semana da disciplina a gente vai hoje ver um exemplo completo de organização e apresentação dos dados a gente já viu um pouco na aula em que a gente falou de estatística descritiva e eh e nas aulas anteriores mas hoje a gente vai ver um exemplo para ajudar a fixar os conceitos Tá bom então vamos lá uma amostra de tamanho 40 dos quarteirões que compõem um bairro fornece o seguinte conjunto de dados esses dados são número de casas por
quarteirão Então eu fui lá num bairro e olhei Ah esse quarteirão tem tantos terrenos baldios tem tantos terrenos não incorporados ainda e tem 45 casas é um número grande né esses quarteirões devem ser bastante grandes 32 42 enfim eu olhei 40 quarteirões é um bairro quase inteiro né e obtive esses números eu quero entender esses números eu quero organizá-los eu quero extrair medidas resumo deles e eu quero depois graficar esses números na forma de um histograma e de uma tabela de frequências para com isso extrair informação dos dados né nosso objetivo é sempre extrair informação
dos dados Tá bom então vamos organizar tabelar e graficar esses dados e caracterizá-los usando medidas resumo e figuras bom então vamos lá organizar nossa primeira tarefa é organizar os dados o bom começo é colocá-los em ordem que nem a gente já mencionou em outra aula né então se eu ordeno esses dados eu imediatamente já tenho acesso a um certo número de informações ã uma uma certa quantidade de informações o valor mínimo o valor máximo e mediana né para calcular a mediana eu tenho que ordenar os dados porque eu tenho que saber qual é o ponto
médio desse conjunto de valores que divide esse conjunto de valores numa metade menor e numa metade maior a mediana é aquele ponto em que Metade dos valores Vale menos que a mediana Metade dos valores vale mais do que a mediana é o quanti de 50% né pessoal então vamos lá eu tenho os dados organizados ótimo já posso olhar para eles e extrair algumas informações bem melhor a gente a gente já pode ver que a amplitude total é 24 casas essa amplitude Total vai ser útil depois quando eu quiser determinar o número de intervalos de classe
que eu vou usar o número não mas a largura né de cada intervalo de classe depois que eu for montar Quando eu for montar uma distribuição de frequências e eu já consigo extrair também algumas medidas resumo a média a mediana e a moda a gente sempre fala nessa ordem né média mediana em moda por quê Porque a gente consegue depois analisar a relação que existe entre média mediana e moda para saber se a distribuição é inclinada à esquerda à direita se ela é leptocúrtica platicúrtica como a gente já mencionou Então vamos lá média mediana e
moda bom a mediana eu falo média mediana e moda mas eu vou calcular a mediana primeiro porque é muito fácil a mediana é o ponto méo é o ponto no meio dos dados que divide essa esse essa amostra em Duas Metades bom eu tenho o número par de dados 40 Qual é o ponto que tá no meio não é nenum um dos dados porque o meio se eu pegar esse conjunto de 40 dados e dividir em Duas Metades uma metade vai ter 20 valores outra metade vai ter 20 valores os 20 valores menores que a
mediana e os 20 valores maiores que a mediana Então quem é a mediana é o ponto médio entre o 20º e o 2º porque se eu tenho aqui ó 1 2 3 4 5 6 20 aí 20 dados 21 22 23 24 até 40 então entre o 20 e o 21 o ponto médio é o valor que Metade dos dados Vale menos do que esse valor Metade dos dados vale mais do que esse valor então uma mediana de um conjunto de dados com um número par de dados é o valor médio dos pontos médios né
dos dos números que estão ali no meio então é metade do vio da viima estatística de ordem né que a gente fala e do 2º Se eu olhar lá nos dados vamos voltar lá olhar nos dados eu tenho o por linha né 1 2 3 4 5 6 7 8 9 10 então 8 16 17 18 19 20 ó o vio valor é 42 o 21º também eu somo eles e divido por 2 dá 42 a moda é o valor mais frequente a moda é um nome que a gente já a gente já viu isso
na aula passada é uma medida resumo não é muito útil mas ela ajuda a gente a entender a assimetria da distribuição a moda é o número mais frequente a gente fala que alguma coisa tá na moda é porque tá todo mundo usando nesse caso o número que o conjunto de dados que a amostra tá mais usando é o 46 então 46 é a moda desse desse dessa amostra tá bom e a média é a média é a média simples média aritmética simples soma todo mundo e divide por n né então a média desse conjunto é
41 1/4 mas eu vou escrever como 41,2 porque eu arredondei Lembrando que pro cálculo da média e do desvio padrão a gente sempre carrega um dígito a mais do que os dados de origem uma regra da estatística não tem a ver com a redondamento não tem a ver com dígitos significativos o fato de que eu tenho um monte de número inteiro 29 30 40 50 e a média deu 41 vírgula alguma coisa esse vírgula eu prefiro carregar porque os dados são muito discretos então para para compensar essa discrete essa granularidade nos valores dos dados pros
valores de média e desvio padrão Eu normalmente carrego uma casa decimal a mais isso já foi mencionado na última aula então o valor exato É 41,25 que aqui eu escrevi com 41 V 41 e 1/4 mas a gente se for relatar a gente vai relatar como sendo 41,2 então a gente já tem as medidas resumo de posição né que mais que a gente pode calcular o desvio padrão que é uma medida de dispersão Eu tenho esse valor médio 41,2 e quantos dados estão esparramados ao redor desse valor né então o menor é 29 maior eu
não lembro mais quanto é eh 90 e pouco né e 53 e essa amplitude está esparramada ao redor desse valor médio com que largura tipicamente essa largura é o desvio padrão desvio padrão é a fórmula do desvio padrão a gente calcula aqui 1 divido por n - 1 da soma dos desvios ao quadrado então é o iimo dado menos o valor médio isso é o quanto ele se desvia da Média eu tomo esse número ao quadrado somo todo mundo dividido por n - 1 tenho o desvio padrão amostral lembram existe uma diferença entre desvio padrão
populacional e amostral quando eu tô falando de desvio padrão da amostra da da da população ou eu não sei se é uma população ou uma amostra eu só quero um número que me dê mais ou menos uma noção de dispersão daqueles daquele conjunto de dados Eu uso o denominador 1 sobre n quando eu sei que é uma amostra a estatística me diz que dividir por n - 1 ao invés de n me dá um número mais fidedigno ele é um número que não tem Bias ele não tem viés ele é um número não enviesado 1
sobre n ele tem um pequeno viés então isso aí a gente demonstra mas para nós aqui basta saber que se eu tô falando de população eu divido por n se eu tô falando de amostra eu divido por n - 1 Esse número aí dá 30,0 então a gente vê que a variância que é esse S quadrado é 30 O desvio padrão é a raiz quadrada desse S quadado aí dá 5,52 já arredondado então eu vejo que eu tenho um valor de 41,2 e tipicamente boa parte dos dados digamos né a gente em estatística a gente
diz que aproximadamente 2/3 Esse 2/3 é um número que tem uma razão de ser quando a gente for estudar a distribuição normal de valores a gente vai ver porquê mas a gente diz que numa distribuição mais ou menos simétrica de dados de uma amostra cerca de 2/3 dos valores estão contidos entre a média mais ou menos Sigma mais ou menos S aqui no caso então entre 41,2 mais ou menos 5,5 estão concentrados aproximadamente 23 de todos os valores se a amostra for distribuía nor normalmente a gente vai ver que essa daqui não é Tá bom
mas esse é o significado do desvio padrão né uma medida de dispersão a gente já viu Eh o cálculo do desvio padrão pode ser abreviado existe uma fórmula abreviada para calcul des padrão Se você pegar aquela fórmula lá e expandir o somatório porque olha pessoal essa fórmula aqui é xi - x m a quadrado faz o quadrado vai dar xi qu menos duas vezes o primeiro vezes o segundo mais o quadrado do segundo expande esse quadrado soma tudo e vai identificando os termos Ah aqui apareceu n xz uma média mas aqui eu tenho n -
1 vezes uma média um menos o outro dá - n vezes a média enfim você vai fazendo essas contas aí e chega numa fórmula abreviada que é essa daqui a vantagem dessa fórmula é que ela não tem aquela continha eu pegar o iimo valor subtrair da média para depois o resultado disso elevar ao quadrado eu não preciso fazer isso a gente também viu essa fórmula abreviada a derivação fica por conta de vocês não é difícil os livros texto normalmente mostram o nosso texto base tem essa derivação então eu pessoalmente prefiro usar essa fórmula porque eu
não tenho que ficar fazendo os alunos sempre reclamam Ah eu tenho 40 dados eu vou ter que fazer 40 subtrações depois pegar cada uma delas elevar ao quadrado se você fizer isso você vai estar calculando o desvio a variância na verdade né O desvio padrão ao quadrado mas não precisa calcula a média já sabe quanto é soma os quadrados de todo mundo depois pois subtrair n vezes a média o que der dividir por n - 1 é o que tá escrito aqui tá bom eu prefiro essa fórmula aqui pessoal então a gente já tem as
medidas de posição eh média mediana e moda a gente já tem o desvio padrão isso já dá uma visão dos dados A análise vamos analisar análise das medidas resumo por exemplo a média mediana eem moda dos dados elas observam essa relação aqui a a média que é o x com a Barrinha em cima é menor que a mediana que é menor que a moda da da do os dados da amostra o que indica que a distribuição de valores é assimétrica à esquerda a a distribuição de valores quando a gente vai fazer um histograma daqueles valores
lá por causa dessa relação entre média mediana e moda Muito provavelmente ela é uma onda paraa esquerda Então ela tem um um um um ela é uma onda alta aqui e depois V pra esquerda para vocês que estão me vendo ao contrário ela começa aqui assim bastante e lá pra esquerda ela cai ela tem essa cara aqui ó Isso é o que acontece com a distribuição tipicamente Isso não é um resultado rigoroso matemático mas é um resultado que muitas e muitas distribuições muitos e muitos conjuntos de dados existe um motivo para isso mas isso não
é um fato não é um teorema matemático imutável às vezes essa relação não é obedecida e a distribuição tem essa cara mas quando a distribuição tem essa cara em geral Isso é verdade a gente pode tomar isso como uma regra empírica uma uma primeira aproximação a gente vai analisar os dados calcula a média calcula a mediana e calcula a moda vê se um é menor que o outro para esse lado ou para aquele lado conforme for a distribuição tem uma cara com uma onda que vai pra esquerda ou tem uma cara com uma onda que
vai pra direita ela é assimétrica à direita ou à esquerda Outra coisa o intervalo x médio mais ou menos desvio padrão contém aproximadamente 77% dos dos dos valores 77% dos valores estão contidos entre 35 e 47 né que é 41 mais ou menos seis Isso significa que aquela relação entre a média mais ou menos o desvio padrão 2/3 estão ali dentro não é obedecida aqui Aqui contém mais do que 2/3 contém quase 80% dos dados estão nesse intervalo Isso significa que esses dois fatos juntos que 77 ou seja mais do que 2/3 de todos os
valores estão entre média mais ou menos desvio padrão e o fato de que ela é ligeiramente assimétrica à esquerda indica que essa distribuição Possivelmente é le útica que quer dizer leptocúrtica Ela é magra e tem uma cauda pesada Ela é magra no começo e depois tem uma cauda que se estende lá para cima leptocúrtica é uma distribuição magra lepto quer dizer magro em grego né pessoal lembra aí daquela proteína leptina né que é uma proteína ligada ao emagrecimento ligado à pessoas que são magras fisiologicamente tem uma proteína chamada leptina leptina quer dizer Mag então ela
tem uma curtose magra é uma distribuição assim que cai lentamente platicúrtica tem o platô ou é mesocúrtica ela tem uma carinha assim mais equilibrada Tá bom então A análise das medidas resumo já dão pra gente uma cara mais ou menos da distribuição Mas eu posso fazer melhor eu posso construir a distribuição de frequências né então eu defino lembra o que que a gente faz para construir uma distribuição de frequências a gente determina a quantidade de intervalos de Classe A gente determina a amplitude que eu tenho que ter tal que com aquela amplitude de intervalo eu
consigo cobrir os todos os dados sem deixar ninguém para trás e aqui no nosso caso eu tenho 40 valores com mínimo 29 máximo 53 eu posso escolher seis intervalos de classe de tamanho 5 Porque daí eu vou começar em 25 30 25 30 35 40 45 50 55 então com seis intervalos de classe eu todo mundo não deixo ninguém de fora é um número bonitinho C número Redondo seis intervalos de classe nem é pouco de tal maneira que eu vou est agregando muita gente no mesmo intervalo e nem vou est nem é muito vou est
olhando microscopicamente pro negócio não quero Então vamos lá com essas escolhas eu construo essa distribuição de frequência essa distribuição de frequência aqui é o que a gente já viu Está faltando só a coluna da da soma das frequências né a a distribuição cumulativa mas tá aqui então entre 25 e 30 eu tenho uma incidência entre 30 e 35 eu tenho cinco incidências e assim por diante eu calculei aqui as densidades que é a frequência relativa dividido pela largura do intervalo de classe aqui todos os intervalos de classe t a mesma largura então o delta I
aqui é igual a Delta igual 5 para todo mundo e todos eles têm a mesma largura faz sentido eu tenho 40 dados a soma das frequências relativas dá 1 100% né e a soma da área que que é a área do histograma base vezes altura né então a base é Delta a altura é d se eu fizer Delta x d é a área dessa barra mais a área dessa mais a área dessa dá um Por isso que eu digo que o histograma é uma representação empírica da distribuição de probabilidades probabilidade é um né somatória de
tudo que pode acontecer a soma da das probabilidades de tudo que pode acontecer tem que dar um né esse negócio de 110% de certeza não existe né pessoal é de zer a 100% Então é isso que tá dito aqui nessa nossa última coluna com essa tabela de frequências construída conforme as regras que a gente viu a gente consegue desenhar o histograma Esse é o histograma da nossa distribuição de fato ela esse histograma só tem seis eh intervalos de classe então ele não é muito fino a gente não consegue ver mas vocês percebem que ele tem
um centro estreito e alto e depois decai ligeiramente pra esquerda né é aquela história é uma distribuição provavelmente lepto cur ú inclinada à esquerda como os dados de média mediana moda e desvio padrão haviam indicado pra gente mesmo antes de fazer o desenho nisso que reside A análise das medidas resumo tá bom a partir da tabela de frequências e do histograma eu posso calcular a média dos dados agrupados Eu também se eu não tenho por exemplo se eu não tenho acesso a todos os dados brutos lá os 40 valores mas eu tenho acesso a esse
histograma eu posso calcular uma média como usando essa fórmula aqui eu vou pegar em cada intervalo de classe um ponto representativo Bom eu não sei como é que os Val por exemplo se eu digo que no no segundo intervalo de classe no segundo intervalo de classe tem cinco valores tem cinco incidências no segundo intervalo de classe entre 30 e 35 que cinco valores são esses um é 31 o e qu são 34 ou é 31 32 33 34 e o 33 Tem mais um ou é todo mundo 31 ou é todo mundo 30 30 porque
ele é fechado à esquerda eu não sei uma vez que eu agreguei esses dados eu perdi essa informação eu só sei que eu tenho cinco incidências entre 30 e 35 então que qual o melhor que eu posso fazer vou falar bom vou pegar um valor representativo nessa classe que é o valor do Meio vou pegar 32,5 e vou dizer que eu tenho cinco dados aqui dentro cada um valendo 32,5 é o melhor que eu posso fazer dado o meu grau de ignorância eu vou dizer não sei se são 430 e 132 não sei sei como
é que são esses caras que estão lá dentro Eu vou dizer que são CCO valendo 32,5 porque isso é equivalente a essa esse essa barra aqui do meu histograma então eu pego isso eu faço uma soma ponderada eu pego o ponto médio o o ponto x Barra I é o iimo ponto médio ou perdão é o ponto médio da iima classe eu pego aquele ponto médio e multiplico pela quantidade de dados que eu tenho lá dentro eu posso fazer isso multiplicando por ni dividido por n Ou posso usar a frequência relativa já no final porque
é a mesma coisa esse Fi que tá no somatório intermediário aqui nada mais é do que ni dividido por n que é o que tá do outro lado passei o n para fora sobrou aí então com essa fórmula mesmo que eu não tenha acesso aos dados brutos todos os valorzinho um por um eu tendo o histograma ou a tabela de frequências eu ainda assim consigo estimar o valor médio desse conjunto de dados fazendo a conta a gente vai ter que o valor médio aqui estimar dessa maneira é 41,5 que não é muito longe do valor
digamos mais preciso ou mais microscópico baseado numa Quantidade maior de informação que é 41,2 se eu não tenho a informação e detalhada dos dados ten só a tabela de frequências ou só o histograma eu ainda assim consigo calcular a média pelo mesmo raciocínio consigo calcular o desvio padrão pelo mesmo raciocínio consigo calcular moda e todos os outros quantis empíricos medidas de ição e de dispersão tá bom pessoal então nessa aula de revisão a gente viu uma análise completa de um conjunto de dados Esse é o roteiro da estatística descritiva quando você é apresentado a um
conjunto de dados e você quer tratá-los é isso que você faz ordena olha para as amplitudes olha pra média moda mediana constrói uma tabela de frequências bem construída faz um histograma para ter uma visão faz uma pequena análise das medidas resumo e apresenta os seus resultados Tá bom então eh até a próxima [Música] [Música] aula h [Música]