[Música] Olá pessoal bem-vindos a mais uma aula da nossa da segunda semana da nossa disciplina de estatística e probabilidade ps300 a gente vai falar nessa vídeo aula de medidas de posição e de dispersão quando a gente tem um conjunto de dados a gente precisa caracterizá-los né como eu falei várias vezes e vocês já sabem dados é diferente de informação então quando a gente tem um conjunto de dados a gente quer extrair informação desses dados e uma das maneiras de fazer isso é calculando algumas medidas resumo que são medidas são números que a gente usa para
caracterizar o conjunto de dados em vez de eu trabalhar com mil 10 mil valores numéricos que são os dados que foram medidos e observados é o resumo esses dados de um certo número de grandezas E essas grandezas tem um significado a gente sabe o que ela significam então a gente consegue interpretar por isso que ela se chamam medidas resumo tá bom medidas resumos são tipicamente de dois tipos de posição também ditas de tendência Central porque elas de certa forma se localizam no centro da distribuição de dados e medidas de dispersão então uma medida de posição
ela localiza essa nuvem de idade eu tenho um monte de dados né Vários valores esparramados às vezes são valores bidimensionais né Por exemplo eu tenho pares de peso e altura Então eu tenho um eixo do peso de altura é uma nuvem de dados eu tenho Central ali o centro de gravidade dessa nuvem eu falo que isso é uma medida de posição existem outras medidas de posição como a gente vai ver e medidas de dispersão é quanto esses dados estão esparramados eu pego os dados de altura de mil pessoas tem alguém com um metro e 22
se tem gente com dois metros e 15 tem um montão de gente ali com alturas entre 1 e 61 e 80 tem uns entre 1 e 40 e um 60 Então isso é uma distribuição o quanto esses valores estão esparramados eu gostaria de saber e as medidas de dispersão servem para indicar o quanto esses valores estão esparramados ou seja o quanto aquilo que eu estou medindo alturas pesos cumprimentos pluviosidade Seja lá o que for o quanto Aquilo é variável se eu faço 10 medidas as 10 dão o mesmo valor avaliar a variabilidade é nula não
tem variabilidade nenhuma eu tenho 100 valores iguais agora se eu tenho 100 valores que são um pouco diferentes entre si o quão entre si eles são eles são muito esparramados eles são muito concentrados as medidas de dispersão me dão Essa visão Tá bom então vamos falar das medidas de posição as principais que a gente vai estudar nessa disciplina são a média com a qual todo mundo está familiarizado né a gente calcula a nossa média final na disciplina a gente calcula a média do preço de alguma coisa a média ela tem uma ela representa o centro
de gravidade né Ela é o ponto em que os dados se equilibram ao redor a gente tem uma figura aqui vai ficar mais claro o que que eu quero dizer por cento de gravidade e ela pode ser simples ou ponderada uma média ponderada a cada valor tem lá um peso quando a gente for falar de probabilidade variável aleatória a gente vai ver que a média de uma variável aleatória é uma média ponderada mas a gente está acostumado com a média aritmética simples soma todo mundo dividir por n a mediana a mediana é uma é uma
medida de posição interessante ela é um plantio a de vídeo os dados em Duas Metades Então eu tenho os dados aqui a altura das pessoas 1,20 m e 30 valores tem um valor ali no meio que Metade dos meus dados tem valores menores que aquilo e metade tem valores maiores esse valor é a mediana a mediana não é a mesma coisa que a média a mediana divide os valores da minhas mostrem Duas Metades uma menor e uma maior e a moda e a moda Como o próprio nome sugere É aquele valor que tá na moda
é o valor que eu mais observei você sai na rua tá todo mundo usando calça vermelha calça vermelha tá na moda você olha para o conjunto de dados tem um valor lá que é muito mais frequente tá todo mundo incidindo sobre aquele valor aquele valor é o valor da moda da distribuição a moda não é muito útil como medida de posição mas é um valor que nos ajuda a analisar a cara da distribuição Às vezes a distribuição é assimétrica à direita Às vezes a distribuição é simétrica esquerda e a análise desses três números média mediana
e moda ajuda a gente a entender a assimetria da distribuição como medida de posição a moda não é grande coisa Tá bom eu vou mencionar aqui porque vocês vão ver Então vamos dar uma olhada em cada uma dessas medidas de posição a média a média é a média aritmética a gente chama de x com uma barra em cima Essa é a notação tradicional da estatística a média de um conjunto de dados x1x2 etc xn é x com uma barrinha em cima e é dado simplesmente por essa expressão aí né o somatório de 1 até n
de todos os valores dividido por n tá legal a média representa o centro de gravidade então se eu tenho muitos valores lá no começo um e vinte um metro e 21,22 1,23 1,24 m valor lá na frente 2 metros e 15 eu falo bom esse valor de 2,15 é um só e eu tenho 100 valores aqui desse lado mas onde que onde que tá a média a média tá em 1 e 20 1 e 21 a média tá lá perto daquele valor muito grande não a média tá no ponto aqui que vai equilibrar essa balança
Pense numa gangorra eu tenho um monte de pesos de um lado e um peso muito maior do outro bom o ponto em que a gangorra vai ficar equilibrada não é exatamente no meio se eu tenho um monte de gente aqui vai estar mais para cá se eu tenho um monte de gente lá vai estar mais para lá esse ponto em que essa gangorra dos valores dos dados se equilibra é o valor da média é como a gente Calculava centro de gravidade se vocês lembrarem do segundo grau o centro de gravidade de um conjunto de massas
que a gente aprende lá na física básica é as posições das massas vezes o valor das massas dividido por n era que é a mesma coisa onde as massas na verdade são os valores dos dados Tá bom então média aritmética é assim média ponderada a gente vai ver depois a mediana é aquela história mediana de um conjunto de dados é uma estatística de ordem ela é uma posição dos dados ordenados toda vez que eu tenho os dados ordenados e a gente quando ordena eles a gente coloca o sub índice aqui entre parênteses né a nossa
convenção e a gente pega um desses elementos por exemplo primeiro o X primeiro vamos chamar de X1 X2 xn e de X primeiro x segundo X enésimo para esses dados que já estão ordenados quando a gente pega por exemplo o X primeiro é o menor valor da amostra Isso se chama estatística de ordem é o menor valor quando eu pego o maior valor sua uma estatística de ordem chama-se recorde valor máximo a mediana é uma estatística de ordem ela é um número lembra que a gente falou que estatística se refere tanto a ciência o estudo
dos dados e a organização dos dados quanto números que a gente usa né estatísticas de emprego estatísticas de aí de salário enfim a mediana é uma estatística de ordem ela indica o ponto que divide a amostra em Duas Metades tá bom se n é um número ímpar a mediana com incide com um dos dados que tá lá que por exemplo se eu tenho 11 dados e eles estão ordenados do menor para o maior quem é o cara que tá no meio cara que tá no meio é o sexto dado porque eu tenho o primeiro segundo
terceiro quarto quinto a mediana e o sétimo oitavo nono décimo e décimo primeiro então quando eu tenho o número ímpar de dados a mediana coincide com um desses dados quem é a mediana é esse X é esse n + 1 sobre 2 esmo Cara eu tenho 11 dados 11 + 1 12 dividido por 2 6 a mediana é o x sexto quando o número é par não dá para fazer isso a mediana existe naturalmente tá bem definida mas não é um dos valores eu tenho 10 dados eu quero cinco para um lado os 5 menores
a média menor e eu quero a média maior o cinco dados maiores se eu tenho cinco para cá são cinco valores menores que a mediana eu tenho cinco para cá que são cinco valores que são maiores que a mediana quem é mediana é o cinco e meio né então se aqui é 10 se aqui é o valor é dois e meio e aqui o valor é 2,8 quem tá no meio aqui É 2,65 eu sei que de 2,65 para trás eu tenho metade da amostra e 2,65 para frente eu tenho metade da amostra e nesse
caso quando o número de dados é par a mediana então dado pela média dos dois caras que estão no meio do n sobre dois e o dado n sobre mais um Tá bom então o significado da mediana é esse a mediana é o número a partir do qual para trás eu tenho Metade dos dados e para frente eu tenho a outra metade está dito aqui né Metade dos valores é menor metade de valor o que acontece é que se n é um número par eu tô aqui ilustrando na verdade nessa transparência o que eu acabei
de dizer eu tenho X1 que é menor que o X primeiro que é menor que o x segundo tec tec que é menor que o X N + 1 sobre 2 menos 1 aí eu tenho o n + 1/2 e depois o n + 1/2 + 1 então eu tenho o x1234 quinto aí o sexto é a mediana pois o sétimo oitavo nono décimo décimo primeiro então é nessa ordem aqui no conjunto dos dados ordenados a mediana aparece nesta posição quando o número de dados é par a gente tem a mediana ocupando essa posição entre
o n sobre 2 e o n sobre 2 + 1 então tenho 10 entre o quinto e o sexto tá mediana se eu tenho 11 entre o quinto e o sétimo tá a mediana que é o dado número 6 ele coincide com um dos valores tá bom para nossa referência aqui eu localizei no conjunto de dados ordenados onde está a mediana tá bom e a moda a moda do conjunto de dados é o valor que ocorre mais frequentemente não existe uma fórmula para moda para moda de um conjunto de dados não tem uma forma ah
eu pego todos os dados e faço alguma coisa e me dá a moda existe existe porque notação matemática é muito versátil a gente consegue escrever isso mas quando a gente vai calcular isso no fundo no fundo a gente tem que ir lá e fazer uma contagem de frequências e ver quem é que apareceu mais vezes tá a moda não é uma medida de posição muito adequada por quê Porque valores de dados contínuos podem não ter moda se eu medir as alturas das pessoas se eu medir a altura de 20 pessoas como a precisão de milímetro
provavelmente eu vou ter 20 valores diferentes não tem moda não tem nenhum valor que apareceu duas não tem num conjunto de 20 pessoas não tem ninguém que tem exatamente um vírgula sete oito três metros tem uma pessoa O outro tem 1,785 outro tem um número a 693 Quando eu pegar um conjunto de dados que são contínuos lembra variáveis contínuas né variáveis quantitativas contínuas Medidas com precisão suficiente vão ser todos os valores diferentes vou ter milhares de valores todos diferentes entre si quem é a moda desse Conjunto ninguém não tem Então quer dizer você define uma
grandeza na moda que pode não existir para o seu conjunto de dados então é não é muito útil tá bom pessoal a gente prefere não usar voltando aqui desculpem em muitos casos a moda está na extremidade da distribuição Então eu tenho um valor muito frequente e o resto tudo esparramado se eu pegar aquele valor como representativo do todo eu posso estar muito longe do valor máximo eu posso estar muito próximo do valor mínimo a localização da moda não é uma coisa muito bem definida a gente não sabe onde é que a moda tá não tem
uma teoria matemática muito quer dizer tem mas ela indica que não é muito útil tá bom e pode finalmente pode haver mais de uma moda você tem um conjunto de dados discretos números de filhos dos funcionários de determinado departamento de uma empresa aí vai ter um monte de gente com dois filhos Vai ter um monte de gente com nenhum filho vai ter um monte de gente com três filhos ele fala qual é a moda a moda é 02 e 3 são todos eles apareceram 30 vezes cada um que é para mas aí que que adianta
eu saber um número que se quer é único então indica que a distribuição pode ser multimodal se eu tiver milhares de dados e duas ou três Modas diferentes aparecem em milhares de dados aí eles representam alguma coisa mas em um conjunto pequeno de dados ou para dados quantitativos discretos a ocorrência de muitas Modas faz dela um número não muito útil por outro lado ela ajuda a gente a descobrir se a distribuição é simétrico ou assimétrica A análise das medidas de posição nos permitem fazer a seguinte análise quando a média é menor que a mediana que
é menor que a moda por isso que eu sempre lembro isso é mnemônico pessoal fica a dica média mediana moda sempre que você lembrar de medida de posição lembra nessa ordem média mediana moda porque porque tá ordenado por utilidade a média é mais útil que a mediana que é mais útil do que a moda tá em ordem alfabética e também ajuda a gente a lembrar desse dispositivo aqui quando a gente vai analisar um conjunto de dados se a média é menor que a mediana que é menor que a moda a distribuição provavelmente é assimétrica à
esquerda ó o sentido da desigualdade já está indicando X é menor que a média média menor que a mediana que é menor que a moda Então essa distribuição tem uma assimetria à esquerda se for o contrário ela apresenta uma assimetria à direita aqui tem dois exemplos tirado do nosso material base do que eu tô dizendo aqui do lado esquerdo histograma do lado esquerdo mostra uma distribuição que é assimétrica à esquerda em que a média menor que a mediana é menor que a moda e a figura da direita mostra uma distribuição que é assimétrica a direita
em que a média é maior que a mediana que é maior que a moda então o sentido do menor apontando para esquerda maior tá apontando para a direita Esse é o sentido da simetria da distribuição ela vem aqui assim depois ali para direita ou ao contrário Tá bom então essas três medidas de posição nos ajudam a analisar a distribuição o a cara da distribuição isso é uma coisa útil que a gente sabe por exemplo que se a distribuição é assimétrica à direita por exemplo ela vai ter uma concentração de valores de ocorrências de incidências de
valores que estão mais concentrados à esquerda se ela é a simétrica à direita significa que ela tem uma cauda para direita mas o grosso dos dados estão se acumulando aqui para esse lado aqui no começo e ao contrário ao contrário Mutantes Mutantes análise para direita e para esquerda é a mesma coisa quem nos indica essa cara da distribuição aí são esses três medidas de posição tá bom elas são úteis para fazer esse tipo de análise vamos dar uma olhada agora nas medidas de dispersão algumas medidas de dispersão duas que são muito úteis são a amplitude
Total amplitude total é o Range o interval domínio dos dados se o meu menor valor é 1 e 20 o meu maior valor é 2 e 15 2 e 15 - 1 e 20 que dá 0,95 é o meu minha amplitude Total eu sei que a maior diferença que eu vou encontrar Entre Duas Medidas dentro desse conjunto de dados é essa e o desvio padrão que é a principal medida de dispersão por quê Porque ela tem um fundamento matemático muito grande o desvio padrão ele é a raiz quadrada da variância variância é uma grandeza de
suma importância na estatística tanto descritiva quanto na estatística matemática e inferencial que a gente vai ver depois então quase toda análise que a gente faz a variância aparece lá em algum lugar eu desvio padrão é filhote da variância então ele é a principal medida de dispersão outra medida importante é o intervalo Inter partiu eu pego eu descarto os 25% menores descartos 25% maiores fico com os 50% centrais Qual a diferença entre os dois valores aqui que delimitam 50% centrais Esse é o intervalo intercontil a gente não vai ver tá bom então vamos lá amplitude total
é fácil de calcular é o maior valor menos o menor valor por outro lado ela tem uma desvantagem ela do conjunto inteiro de dados só usa dois valores Então eu tenho um conjunto enorme de dados 10 mil valores vou pegar só o maior e o menor e o que tá acontecendo aqui no meio Onde que tá mais concentrado os valores onde que os valores estão mais concentrados onde que esse pessoal tá eles estão espalhados igualmente essa distribuição é assimétrica não sei porque porque a amplitude total dos n Possivelmente as centenas milhares de valores que eu
tenho a minha disposição para analisar Peguei só dois então ela é útil ela me dá uma visão do domínio daquele valor eu sei que aquele valor vale no máximo aquele máximo e no mínimo esse mínimo e tem no máximo essa amplitude ela é uma visão do domínio é uma visão empírica baseada nos dados do domínio daquela variável daquele daquela grandeza Mas por outro lado ela desperdice uma quantidade enorme de informações O desvio padrão não faz isso então novamente desvio padrão é uma coisa muito mais útil né desvio padrão existem duas versões como é que a
gente calcula bom se eu tô falando de uma população ou seja tudo ou quando eu tô falando de uma variável aleatória que por definição representa uma população O desvio padrão dessa população inteira ou dessa variável aleatória que a gente vai ver na próximas semanas eu chamo de Sigma tudo que tudo tudo em estatística descritiva tudo que tá ligado a população a gente coloca a letra grega então a média mi a média de uma amostra m ou x/ média de uma população mi desvio padrão de uma população Sigma quadrado é a raiz quadrada da variância calcula
esse são os desvios o x e menos a média elevado ao quadrado soma todo mundo e dizia para dar uma amostral quando eu sei que eu tô falando de uma amostra eu não chamo de Sigma eu chamo de S e eu calculo com essa segunda fórmula qual a diferença entre essas duas formas primeiro para calcular variância eu uso mi que é o parâmetro da população lembra pessoal parâmetro parâmetro se refere a população estatística se refere a amostra quando eu sei o parâmetro da população que é a sua média eu chamo de mi E aí eu
pego todos os valores da população todos esse ia aí vai de um até todo mundo eu pego todos os valores subtrair da Média faço desvio quadrados médio que é xi - ao quadrado somos todo mundo divide pelo tamanho da população aqui no dia CN para não confundir vocês Esse n aqui podia ser não que é o n da população e na amostra eu faço essa mesma conta para os dados amostrais e use a média amostral O x/ Ali A diferença é que um tá dividido por ele outro tá dividido por ele - 1 isso é
muito importante tá isso desvio padrão a mostrar o calculado desse jeito ele não tem um guias ele não tem tendência tá legal então é a gente tem que entender para que servem as medidas resumo tô Resumindo meus dados em um número pequeno de grandezas de números e são do tipo de posição de dispersão e os principais são esses que a gente viu hoje então bom estudo boa semana para vocês até mais [Música] [Música]