[Música] Olá pessoal alunos alunas da Univesp bem-vindos a sexta semana da nossa disciplina de estatística e probabilidade na aula de hoje a gente vai falar sobre leis dos grandes números as leis dos grandes números é um teorema Na verdade uma família de teoremas tem várias leis de grandes números Mas a gente pode imaginar que é um teorema que garante que a média dos resultados obtidos em um grande número de experimentos aleatórios por exemplo uma amostra experimentalmente falando a gente amostra toma medidas de alguma coisa você tem um grande número de medidas a lei dos grandes
números garante que o a média desses resultados aproxima o valor esperado da variável que você tá medindo mais do que isso ela garante que é distribuição isso não tá escrito aqui a distribuição de probabilidades dessa média amostral tende a uma distribuição normal tá bom e para obter essa lei dos grandes números a gente vai falar da Lei fraca dos grandes números e do teorema do limite Central para obter essas leis fracas e depois a gente vai mencionar também a lei forte dos grandes números e o teorema central do limite a gente precisa usar algumas desigualdades
que são clássicas em probabilidade então na aula de hoje a gente vai ver essas duas desigualdades e aplicá-las para obter a lei fraca dos grandes números que garante isso aqui que está escrito a média amostral tende para média da população quando o número de experimentos é muito grande quando o número de dados é muito grande e também obter o teorema central do limite que é o teorema que garante que é distribuição dessa média amostral tende é uma gaussiana uma distribuição normal esse é o nosso objetivo na aula de hoje vamos lá bom a gente vai
precisar de uma desigualdade conhecida como desigualdade de markov marcov é um nome bem conhecido na teoria das probabilidades matemática Russo do começo do século 20 Então seja x uma variável aleatória com uma distribuição f a gente tem uma variável aleatória com uma distribuição F qualquer Tá bom pode ser uma variável aleatória com uma distribuição discreta ou contínua a gente aqui usa como se fosse uma distribuição contínua porque a gente está escrevendo integrais mas poderiam ser somas e x tem uma distribuição a qual a cara da distribuição Professor qualquer uma tá bom é absolutamente genérico e
seja uma função H positiva então uma função que nunca assume valores negativos H é uma função qualquer então eu posso escrever o valor esperado dessa função como isso aqui o valor esperado eu posso fazer o valor esperado do que eu quiser em particular de uma função valor esperado de h de x por exemplo x quadrado x quadrado é uma função de X não é x é x² é uma função x existe o valor esperado de x quadrado se existe é só colocar x quadrado lá no lugar dentro do operador de esperança né Então tá aqui
a esperança valor esperado dessa função por definição é essa integral para obter a desigualdade de marca o que que eu faço eu digo o seguinte olha essa integral tá vendo lá desde menos infinito e tudo que tá ali dentro é positivo Então se em vez de eu começar lá no menos infinito eu começar um pouco mais para frente eu vou estar perdendo alguma coisa então certamente essa integral da esquerda é maior que essa da direita então substituiu menos infinito porque bom Outra coisa a função H é positiva e ela é não decrescente Então ela nunca
decresce ela é positiva e sempre ou fica igual ou cresce Então se ao invés de colocar h de x dentro da integral pegar o valor dela em t isso vira uma constante tô calculando H em t essa constante é uma constante maior do que qualquer é menor aliás do que qualquer outro valor que ela pode vir assumir depois conforme eu vou indo na reta integrando essa função então eu boto essa constante para fora e obtém essa expressão aí de baixo então o valor esperado de uma função qualquer é sempre maior ou igual a essa função
calculado em algum ponto ou ter não disse que quer ter ainda vezes essa integral pessoal essa integral aí é simplesmente P de X maior ou igual a t por definição de função densidade de probabilidade desta última expressão a gente obtém aqui onde está escrito e daí a desigualdade de markov eu digo que P de x é maior igual a t é menor igual o valor esperado de uma função qualquer dividido pelo valor daquela função em t Então veja eu não falei quem é h e não falei quem é t e não falei quem é f
a distribuição de probabilidade essa desigualdade absolutamente genérica ela só requer o conhecimento do valor esperado dessa função Qual a função que a gente mais usa o próprio variável aleatória por exemplo a média o valor esperado de X então quando a h de x é igual a x ou seja é uma função de X ela é positiva porque X é uma variável aleatória estritamente positiva para usar na desigualdade markov e ela não decrescente conforme x vai andando para frente essa função vai crescendo ela não decresce então se eu colocar x dentro da desigualdade de markov e
obtém essa expressão aí que é a versão mais conhecida da desigualdade de markov a probabilidade de X ser maior ou igual a alguma coisa é sempre menor ou igual o valor esperado da variável aleatória dividido por aquela coisa essa expressão aí a gente vai usar para obter a próxima desigualdade que nos permite então obter as leis fracas e o teorema central do limite tá bom nessa forma a desigualdade requer somente o conhecimento do valor esperado de X quem é x uma varia aleatória qualquer ah com que distribuição qualquer uma pode ser uma variável normal pode
ser de puação pode ser de Bernoulli pode ser uma variável geométrica qualquer uma daquelas que a gente falou uma variável do tipo gama Tá bom uma variável exponencial que foram as que a gente viu aqui uma variável uniforme por exemplo no caso da variável uniforme está desigualdade fica interessante Então é ela basta que a gente conheça o valor esperado daquela variável aleatória para obter uma desigualdade para probabilidade de alguma coisa acontecer qual a desvantagem bom Como eu como eu preciso de pouca informação Então o que eu consigo contar depois a partir dessa pequena quantidade de
informação não é algo muito fiel Então essa desigualdade é grosseira né fornece estimativas grosseiras não são muito boas quanto mais na cauda da distribuição quanto mais nas pontas melhora essa desigualdade fica mas ainda assim ela é bem grosseira Tá bom então por exemplo um exemplo rápido aqui se a média salarial de um país é três salários mínimos então o valor esperado de X X é o salário o salário é uma variável relatório por quê Porque se eu for perguntar para alguém na rua Qual o salário dele isso é um experimento aleatório eu não sei qual
vai ser a resposta Depende do que o cara faz depende da trajetória profissional dele depende da região em que eu tô fazendo a pesquisa Depende de números fatores não controláveis então eu posso associar X ao valor o salário de alguém então o salário é uma variável ela terá x que tem média 3 naquela região qual a probabilidade de alguém ganhar mais do que 10 salários mínimos bom P de x c maior ou igual a 10 pela desigualdade de marcov é menor ou igual o valor esperado daquela variável x dividido por 10 nossos casos que é
30%. Veja isso é uma cota superior Esse é um valor limite é menor ou igual a isso maior nunca vai ser porque isso é um teorema matemática mas pode ser menor pode ser bem menor tá bom esse 30% aqui é um valor que tá lá em cima Muito provavelmente a distribuição tem um decaimento valores muito altos de Salários são muito raros provavelmente isso aqui é dois por cento três por cento mas a desigualdade markov nos fornece a seguinte informação baseada no pouco que eu sei posso dizer que mais do que 30% de gente aqui nesse
lugar ganhando mais de 10 salários mesmo não tem eu garanto Aposto como vocês como não tem porque esse é o teorema Tá bom mas uma aplicação simples da desigualdade de markov pois bem a gente pode obter uma desigualdade um pouco mais um pouco melhor que oferece valores um pouco melhores para essa probabilidade tá bom essa é a desigualdade tinha um prenome diferente ele chamava pafinuty o paft então que viveu no século 19 ele obteve a seguinte desigualdade lá na desigualdade de markov que na verdade ele obteve essa desigualdade antes do markov mas a gente agora
faz assim porque é logicamente mais imediato você onde está x eu posso colocar qualquer coisa então eu vou colocar qualquer coisa vou colocar h de x né lembra a desigualdade de marcar você aplica para h de x nesse h de x eu vou colocar x menos o valor esperar de x ao quadrado Tá bom então esse Y simplesmente é o meu h de x tá bom o meu H aqui no caso é x menos o valor esperado x ao quadrado vou pegar esse troço vou colocar lá então a probabilidade desse negócio ser maior ou igual
a um trem que eu tô chamando de t² é menor ou igual o valor esperado do troço dividido pelo trem então aqui eu tenho a probabilidade de y ao quadrado maior é igual a t² perfeitamente válido na desigualdade markov é menor igual o valor esperado daquele negócio que para mim aqui é esse essa função de x dividido por t ao quadrado como valor esperado pessoal a gente reconhece quem é esse y ao quadrado aqui a variância de X né o valor esperado de x menos a média ao quadrado é a variância é o desvio padrão
ao quadrado Então como o valor esperado desse cara aqui que é o que vai ali em cima na desigualdade é a variância de x e p de y um quadrado maior que t² é mesma coisa que P de módulo de y Você é maior do que t tá certo essas desigualdades são equivalentes então eu escrevo o lado esquerdo desse jeito que é o que eu tinha equivalente a isso aqui que tá no meio acontecer que vai ser menor ou igual aquilo Tá bom então eu tenho uma desigualdade interessante olha essa última expressão aí diz o
seguinte a probabilidade do valor de um que eu obtenho ao realizar um experimento aleatório que é o valor de x menos o valor médio dele ser maior do que T é menor igual a variância dividido por aquele t para explicitar o papel desse ter aí eu digo que tem um múltiplo da variância Tá certo do desvio padrão E aí obtendo essa desigualdade aí ou seja a probabilidade da variável aleatória estar longe de seu valor médio mais do que k vezes desvio padrão é menor igual a 1 sobre k² ou seja quanto mais longe aqui algum
desvio aqui é o valor médio que a distribuição de x certo aqui é o valor médio a probabilidade de eu estar um dois ou três dessa favelatória assumir esse valor uma duas ou três vezes a variância O desvio padrão dela longe da média de cai com um sobrecar quadrado de cai bastante né probabilidade dessa variável aleatória ser maior do que três vezes ao desvio padrão a partir da média é um nono mais comumente a desigualdade é escrita como um menor ou igual certo P de X seja maior que alguma coisa é 1 menos P de
x é menor que alguma coisa eu troco maior ou igual dentro da desigualdade por menor igual a subtraio 1 E aí eu fico com essa desigualdade de chefe conhecida nessa forma a probabilidade de X se desviar de seu valor médio por mais do que cá vezes o desvio padrão seu desvio padrão é maior ser menor Aliás está dentro a probabilidade de se desviar menos do que ficar vezes o desvio padrão é um menos um sobrecar quadrado tá bom a vontade da desigualdade é que ela não exige ao contrário da desigualdade markov ela não exige que
x seja uma variável aleatória estritamente positiva então eu posso ter variados relatórios que assumir valores positivos ou negativos que aparece esse módulo aqui dentro o desvio padrão é uma quantidade positiva então isso aqui se aplica tá bom que que a gente faz com isso lá nas atividades avaliativas e no livro texto da disciplina tem vários exemplos aqui envolvendo o uso da desigualdade você olha para o histograma por exemplo estima O desvio padrão e fala Olha a probabilidade dessa variável cair dentro de dois desvios padrões é maior igual um menos um quarto e isso te dá
uma Estimativa de probabilidade de coisas acontecerem tá bom para que que eu uso isso bom eu uso para obter a lei fraca dos grandes números pessoal e isso aqui é importante em estatística porque a lei fraca dos grandes números garante que o valor esperado a média amostral de uma grandeza que você tá medindo se desvia da Média populacional não muito se você tiver um número grande de amostras essas a média dessas amostras vai estourando cada vez mais próxima do valor verdadeiro do valor populacional porque quando eu tenho uma amostra eu não tô medindo a população
inteira eu tenho 100 milhões de pessoas eu pego mil pessoas e meço alguma coisa altura calcula a média essa média Tá longe ou perto da verdadeira média das alturas desses 100 milhões de pessoas bom teoremas a lei fraca dos grandes números me diz que esse número quanto maior a minha amostra mil duas mil três mil pessoas mais próximos da verdade eu vou estar a menos que as pessoas estejam mentindo sobre o que elas querem fazer né a gente teve um exemplo recente sobre isso sejam X N variáveis aleatórias igualmente distribuídas com valor esperado de X
então eu tenho valor esperado e a variância dessa valeratória é definidos na verdade eu preciso só do da variância finita mas são detalhe matemática não vem ao caso Ou seja eu posso encarar esse conjunto de n variáveis aleatórios como uma amostra aleatória de tamanho n Eu meço uma pessoa vou lá pergunto para outra pessoa mexe de novo essas medições são independentes entre si cada uma representa uma Instância né uma amostra dessa variável aleatória que é que eu tô chamando como X1 e X2 xn então a interpretação estatística dessas n variáveis aleatórias é de uma amostra
o tamanho n bom se eu tomar a média obtém isso daí essa média possui valor esperado igual da população matematicamente falando porque porque o valor esses X1 x8n são cópias da variável aleatória verdadeira lá populacional o valor esperado matemático desse cara é o valor esperado da população Tá certo quando eu pego esse X1 maiúsculo aí substituído por minúsculo ou seja os valores vai ser diferente mas o valor esperado disso é igual o valor da população tá bom É fácil é só colocar essa expressão para x/ aqui dentro do valor esperado e faturar e a variância
é o 1 sobre n sai para fora como um sobre n quadrado e aí eu tenho n valores iguais e variância porque são variáveis aleatório Então eu tenho n x quadrado dividido por n ao quadrado que é o que tava lá né se um sobrinho na frente do x-barra aqui vai me dar esse fator Então pessoal fatore isso é importante o valor esperado da média amostral é igual o valor esperado da população a variância da média amostral é igual a variância da população dividido por n então se torna cada vez melhor quanto maior a minha
amostra tá bom usando esses fatos usando esses fatos intuitivamente a gente espera que seja verdade mas aplicando a desigualdade de x/ eu tenho aqui a probabilidade de X médio deferir do valor verdadeiro populacional que é o EDX Médio Mas e de X média igual de x é menor ou igual o signo ao quadrado dividido por n e y ao nosso tezinho T eu troquei por Epson que é uma constante mais genérica Tá bom então a probabilidade valor médio de ferida a média populacional por um por Epson é menor ou igual isso daí quando eu tomo
n tendendo ao infinito como Sigma quadrada definido e Epson número finito quando n cresce isso aí vai a zero ou seja a lei obtém a lei fraca dos grandes números que que a lei fraca dos grandes números me diz que o limite de uma amostra muito grande a média a média de uma amostra muito grande de valores difere da Média verdadeira ou seja da Média populacional a probabilidade dessa diferença ser maior do que qualquer número quando ele se torna suficientemente grande é zero E aí a gente tem isso aqui isso aqui é a lei fraca
dos grandes números tá bom onde que a gente usa isso a gente usa isso para obter o teorema central do limite teorema central do limite é o objeto da nossa próxima aula existe além da Lei fraca pessoal só reforçando aqui a lei fraca dos grandes números tem importância estatística porque ela garante que se a gente tomar uma amostra suficientemente Grande essa média amostral vai ser uma representação muito boa da Média populacional se eu medir altura de 100 mil pessoas numa população de 10 milhões e calcular média eu espero que esse valor seja muito próximo do
velório verdadeiro Quanto quanto que difere no máximo por esse número que tá aqui em cima aqui certo Sigma quadrado dividido por n epson² de Epson é o Quanto de distância eu quero saber tá certo inclusive se essa expressão de cima aqui essa primeira fórmula desse slide me permite calcular quanto tem que ser n qual que tem que ser o tamanho da amostra para que eu obtenha uma média amostral suficientemente próximo por um tanto aí esse tanto é o Epson do valor verdadeiro do valor populacional eu uso essa expressão aí de cima eu usei fraca dos
grandes números antes de tomar o limite o que eu garanto é que quando tomar um limite de uma amostra muito grande esse valor vai convergir para o valor verdadeiro populacional é o que se espera quando ele for igual ao tamanho da população eu vou ter o valor verdadeiro então eu vou aproximando isso cada vez mais tá bom existe uma versão da Lei fraca dos grandes números que chama a lei forte dos grandes números que é dado por essa expressão aí ou seja a probabilidade não é o limite da probabilidade é a probabilidade do limite então
não tô falando do limite de um número que a probabilidade eu tô falando da probabilidade de uma função então eu troquei os limites de lugar em vez de ficar com limite para fora eu coloco o limite para dentro essa lei forte dos grandes números é importante matemáticamente mas não muito importante do ponto de vista estatístico do ponto de vista estatístico experimental ponto de vista de ciência aplicada quando a gente faz estatística em Ciência da Computação em biologia em estudos demográficos em ONGs quer que seja a gente na verdade tá usando a lei fraca dos grandes
números a gente nunca usa lei forte dos grandes mas ela existe ela existe ela é importante matematicamente mas não muito importante na prática cotidiana da estatística a diferença entre as duas é Sutil a lei fraca dos grandes números garante que dava um tamanho M da amostra Provavelmente o valor de x Barra É próximo do valor esperado Mas pode acontecer de uma outra amostra Dá Um Valor longe a lei forte dos grandes números garante o contrário que se n for suficientemente grande cair fora do valor esperado ali muito fora quase nunca acontece tá bom é uma
diferença Sutil vocês não se preocupar com isso aula de hoje era sobre a as duas desigualdades importantes em probabilidade estatística a gente usa elas para derivá-la e fraca dos grandes números e a gente vai usar isso para estudar depois o teorema central do limite que Como o próprio nome diz é Central para gente a gente vai fazer muito uso disso não terem uma dos mais importantes em probabilidade estatística veremos na próxima aula até lá pessoal [Música] [Música]