olá meu nome é raimundo azevedo e sou responsável por esta disciplina métodos quantitativos do curso de princípios de pesquisa clínica o primeiro tópico dessa disciplina é a análise com a descritiva nós vamos ver na verdade uma série de conceitos relacionados à estatística e as suas formulações o modo de operar lá né o primeiro pensamento que é importante que vocês elaborem comigo essa situação esse mapa que está sendo mostrado para vocês a nossa actividade na medicina e na nas áreas de saúde faz com que nós naturalmente tenhamos a oportunidade de obter dados de nossos pacientes durante
atendimento e depois a dados acumulados de população reparem que os dados são realmente uma uma situação central no desenvolvimento daquilo que a gente pretende com vocês né então os dados apenas por eles não não são suficientes é preciso fazer um tratamento desses dados é preciso realizar uma organização para poder interpretar los né então vejam que aqui no caso tudo que vocês coletarem na forma de das traves e organizado para poder ser interpretado e pra gerar finalmente conhecimento né estas vias que estão sendo mostradas aqui elas revelam então esta esse panorama o que nós precisamos para
poder decodificar todo esse conjunto é o que nós vamos ver então nessa nesta disciplina de métodos quantitativos né como organizar e como interpretar os dados para que eles virem informação primeiro fenômeno que nós nos deparar é a variabilidade tudo que nós fazemos depende da genética do indivíduo depende do ambiente em que ele está inserido então as respostas terapêuticas tudo que vem do paciente será variado e não há nenhum paciente será igual ao outro por isso nós temos que lidar com as incertezas a nossa missão então enquanto pesquisadores é trabalhar esta variabilidade que gera incertezas assim
sendo dado o mesmo estímulo externo uma mesma origem familiar a pessoa pode ter reações diferentes quando e feito uma intervenção terapêutica por exemplo a doença pode ter manifestações diferentes e nós temos que aprender portanto a lidar com esta é a variabilidade a melhor maneira de tratar a variabilidade é calculando probabilidades nós trabalhamos com probabilidade intuitivamente desde sempre nós é regularmente o dizemos frases como essa o paciente tem 50% de chances de sobrevivência eu tenho 95 por cento de certeza de diagnóstico quer dizer que tenho 5% de incerteza ou que um em cada dez pacientes têm
alta a cada dois dias ou seja 10% dos pacientes têm alta a cada 10 há dois dias reparem que as proporções as frequências relativas são transformadas em probabilidade naturalmente por nós nesse nesse momento eu preciso definir pra vocês então a visão subjetiva de probabilidade ea visão objetiva a visão subjetiva é aquela que é induzida pela minha experiência todos nós temos alguma vivência no nosso campo de trabalho e aprendemos a estimar um potencial uma chance de ocorrência de um certo evento ligado a um paciente esta seria então aquele caso da probabilidade subjetiva mas a própria o
objetivo é o que nos interessa mais é aquela que eu vou realizar estudos e experimentos e observações criteriosas para poder calcular então daqui pra frente eu vou trabalhar com vocês as probabilidades objetivas a primeira regra a importante a respeito de probabilidade da teoria das probabilidades é sabermos que uma propriedade pode variar de 0 a 1 ou seja é um número puro é um número sem unidade e que varia entre 0 ele certamente não ocorrerá até um probabilidade máxima de ocorrência ou seja certamente ocorrerá quando vocês virem alguém dizendo que alguma algum evento tem 50% de
chance de ocorrer essa pessoa está dizendo que ela tem máxima incerteza ou seja ela não tem a menor idéia do que vai acontecer então se vocês puderem levar uma mensagem está aqui agora esta é a primeira mensagem nunca digam pra ninguém que ele tem 50% de chance de qualquer coisa porque certamente você não está informando nada para essa pessoa então você precisa aprender a lidar quando diz é 50% é a mesma coisa que jogar uma moeda para cima e é a mesma chance da cara ou coroa portanto não não há qualquer indicação de tendência nessa
afirmação muito bem vamos então tratar agora um pouco a propriedade do a partir de um experimento empírico observem esta tabela nós temos aqui no lado esquerda tabela número de drogas usadas durante a gravidez por um conjunto de quatro mil cento e oitenta e cinco gestantes em um exemplo característico de um serviço por exemplo de o diploma natel tem a gestante portanto que tomam nenhuma droga 0 drogas e gestantes que trabalham com até 12 medicamentos ou drogas aqui droga indicando-se álcool fumo e drogas ilícitas no caso muito bem quando nós contamos a freqüência realizamos uma contagem
eu tenho um número portanto direto né aqui nós temos então 1.425 mulheres gestantes que não tomam qualquer droga se eu pegar pelo total esses 1.425 / 4135 nós vamos obter 0,34 esse primeiro dado aqui portanto ele e lhe oferece uma probabilidade de ocorrência de uso de drogas então nós podemos dizer que a chance de eu atender uma gestante que não usa nenhuma droga no meio ambiente do meu centro de saúde em torno de 0,34 a probabilidade é de 34% percebam que eu vou alternar entre o número puro 0,34 e ele transformado em porcentagem porque a
forma habitual que a gente trabalha e fala no dia a dia né e daí pra frente você observa em que esta representação de probabilidades ou de proporções ou de porcentagens né no caso porque é empírico ela gera naturalmente um gráfico de barras como esse que vocês estão vendo a direita do slide quando eu vejo uma situação dessas e vocês têm acho que terão que pensar desta maneira daqui pra frente é tem que ser natural que a gente tente ligar os pontos que nós desenhamos uma curva de continuidade nesses valores então a nossa apresentação para ter
uma outra característica se eu consigo transformar os meus dados numa distribuição de uma natureza contínua uma função matemática eu começo a poder trabalhar as propriedades de uma outra maneira de um modo mais geral mais universal ou seja os meus dados empiricamente obtidos de um estudo eu posso transformar numa função matemática e disso estrapolar para poder fazer inferências estatísticos bem relembrando nossa propriedade qualquer evento tem dizer era um de verdade ocorrência se o nosso dado é um dado discreto ele vai ter essa formulação aqui a somatória das probabilidades de cada evento em separado tem que ser
igual então esse conceito também é importante uma vez que eu tenho eventos potenciais possíveis a soma de todos os eventos possíveis é igual a 1 esta é uma prioridade importante também se o evento é contínuo e à minha medida é de uma natureza contínua eu posso também usar uma função matemática contínua que é o caso aqui representando a direita essa tentativa de transformar numa curva de variação contínua e aí no caso quando eu tenho essa possibilidade de transforma função matemática eu vou poder usar o que a gente chama de função densidade de probabilidade que me
permite calcular probabilidades diretamente da função e não mais dos dados empíricos agora em qualquer ponto thakur vá muito bem chegamos agora então ao momento é objetivo dessa aula quer mostrar algumas estatísticas descritivas pra vocês como nós dissemos antes quando tenho estou diante de dados eu preciso organizá los para poder então analisá-los e representá los de modo conveniente tanto graficamente quanto de uma forma reduzida quando nós temos alguns milhares de anotações é muito difícil olhar para elas como um todo se eu não reduzirá um gráfico ou reduzir a uma média por exemplo um desvio padrão ou
outra característica desta natureza então é isso que nós vamos fazer agora fazer a a redução organização e análise desses dados para isso nós temos que classificar as variáveis nós devemos estabelecer medidas de posição medidas de dispersão e finalmente realizar algum tratamento gráfico uma representação gráfica primeiro então tipo de dado fundamentalmente nós temos dois tipos gerais de variáveis alguns dados são qualitativos e outros dados são quantitativos a idéia de qualidade aqui inspira a noção de impossibilidade de medir numericamente por uma régua por exemplo então uma variável tipicamente qualitativa é a indicação de gênero de sexo masculino
e feminino que é um nome não é possível estabelecer uma numeração ou algum tipo de medida continua pra gênero então a qualitativa ela tem essa característica algumas qualitativas são ordenava weiss porque eu posso falar que o paciente está menos grave ou mais grave que uma dor é muito intensa o que uma dor leve percebo que há uma natureza ordenava eu nesse sentido né então o qualitativo pode ser nominal portanto não é possível reduzi lo a qualquer ordem ou ele pode ser original qualitativa original como é o caso aqui de um estacionamento moral de algumas escalas
de avaliação na área clínica né acho que muitos de vocês conhecem por exemplo o sf 36 que é uma escala muito utilizada a escala de qualidade de vida da organização mundial de saúde é uma escala apesar de serem atribuídos números aqueles números não são de uma régua não são de uma medida contínua são atribuições arbitrárias eu escolhi chamar de um de 7 em termos de ordem ou seja os 7 pode ser para muito intenso um pra pouco intenso e daí pra frente ou seja muito cuidado no tratamento estatístico é importante reconhecer que tipo de variável
estou lhe dando a outro conjunto de variáveis importantes variáveis são as variáveis quantitativas as variáveis quantitativas podem ser classificadas como discretas ou contínuas a variável contínua tipicamente é aquela que eu posso definir com o uso de uma medida de uma escala que é representado pelos números reais ou seja centímetros gramas litros e da o sistema internacional de unidades nem fornece muitas vezes esse tipo de possibilidade o tempo é uma escala contínuo então é porque existem infrações e frações das frações então nós temos uma escala que cuja variação é no espaço contínuo ela não é não
dá saltos por outro lado a ela pode ser uma variável quantitativa também mas desta maneira discreta ou seja dando saltos números inteiros apenas então é um exemplo típico dessa variável quantitativa discreta é a contagem de células então sempre que estou realizando uma contagem celular o microscópio o equipamento eu conto unidades inteiras não existe uma célula e meia existem duas células ou uma célula eventualmente vocês vão ver números número de filhos na população brasileira por casal 1,8 filhos como é que é isso nós é uma média que é um valor artificial mas a variável é uma
variável discreta porque o número de filhos é um número inteiro então é importante levarmos agora esse conceito dos tipos de variáveis porque dela desse a classificação dependem as escolhas dos testes estatísticos que nós vamos ver em outras aulas ok então quatro tipos de variáveis em dois grandes grupos qualitativas quantitativas nominais ordinais as qualitativas e discretas e contínuas as quantitativas vamos então agora é trabalhar um pouquinho essa idéia de representação do nosso do nosso dados sobre a forma gráfica reparem agora nessa tabela que descreve a o uso de preservativo ou brasil no uso de tratamentos anti
concepcionais tá te pra e para se poder evitar a gravidez reparem que foi feito uma enquete não ser de saúde com 50 jovens né onde se perguntou que tipo de prevenção era usada para a evitar a gravidez e o resultado obtido foi esse aqui 21 jovens 21 garotas usavam o ritmo do seu ciclo menstrual a tabela conhecido como tabela 16 usavam preservativo nas relações sexuais oito faziam uso de pílula anticoncepcional e 5 referiram outro tipo qualquer de método anticoncepcional nós podemos então concluir essa pequena tabela onde eu mostro a freqüência absoluta a freqüência relativa na
em porcentagem aqui no caso ea freqüência acumulada ou seja quando eu parto do mais freqüente para o menos frequente eu tenho então uma forma de anotação também o gráfico mais característica típica para esse tipo de apresentação onde eu tenho poucas poucas fatias para serem representadas é esse gráfico chamado gráfico de pizza né popularmente diárias portanto são áreas que mostram essas proporções que cada uma da dos métodos aqui no caso representa na preferência de uso pelas pelas adolescentes esse é um gráfico muito comum e acho que a maioria de vocês que está nos vendo deve ter
já usado em algum momento ou visto em muitas apresentações científicas né agora um gráfico possível aqui que não é muitas vezes lembrado é o diagrama de pareto esse diagrama de pareto ele é uma boa representação paga pra variáveis qualitativas nominais porque ele dá duas informações interessantes ele mostra a frequência em porcentagem ea freqüência a absoluta nestas duas portanto nessas duas margens né e ao mesmo tempo ele mostra também o nosso nossa freqüência acumulada além de plantar junto a tabela então vejo que é uma representação muito elegante para ser feito né e pouco lembrada pelos nossos
pesquisadores que às vezes usam só aquele gráfico de pizza e foi uma tabela junto né ao invés de usar um diagrama eventualmente de pareto que também simplifica muito a visão de uma variação como essa que a gente está apresentando aqui então fica a dica pra vocês usarem também o diagrama de pareto nas suas apresentações quando couber vamos então agora as variáveis qualitativas que compunham que sejam cruzadas numa tabela de contingência né estou vendo aqui agora com vocês um exemplo de tipo de hepatite tipo de hospital e uma tabela de contingência dois por dois como essa
que é apresentada reparem que num estudo com 200 é parturientes realizado em dois hospitais um público e um privado foi anotada a freqüência de ocorrência de parto natural e parto cesariano então esses são duas variáveis aqui em questão o tipo de hospital onde é atendido à parturiente e o tipo de parto que foi que foi realizado nestas parturientes então essa é uma tabela acima de contingência que representa duas variáveis simultaneamente também é muito comum o seu uso e muito apropriado nesse tipo de variável é categórica não é uma variável qualitativa que possa ser expressa em
número de contagens cada uma repare na estrutura anatômica dessa tabela e nós temos totais nas margens né a tabela praticamente está aqui ó os dados anotados estão nesta situação aqui as margens são resultado da soma da de cada linha e nesse caso aqui e das colunas nesta outra direção então esses totais marginais são importantes de serem reparados porque é deles que vai derivar no futuro a expectativa de crescimento das células o que foi observado no experimento são esses valores 95 25 35 45 mas dadas as margens eu posso calcular aqui qual seria o valor esperado
em cada uma dessas posições e esse valor esperado vai ter uma repercussão no tocante a um teste de quadra o que nós vamos ver no futuro tá bom então é uma boa forma de apresentações na tabela mas eu também posso realizar essa mesma apresentação de uma forma gráfica né que está aqui ó eu posso representar com gráfico de barras também muitas vezes dá o espaço editorial uma uma publicação nos impede de colocar tantas tabelas muitas tabelas ou muitos graves é preciso reduzir e com portão vejam que esta apresentação de gráficos de barras para uma tabela
de contingência também é possível é transformar né realizar então uma uma uma outra uma outra forma também elegante apresentação tão reparem que a mesma informação está contida aqui agora né o hospital privado hospital público parto cesariano natural no em cada um dos hospitais e quanto foi a contagem em cada uma delas nós podemos colocar sob a forma de contágio forma de freqüência e portanto é uma uma maneira interessante de fazer a mesma apresentação da favela de 2002 uma forma de gráfico de barras um outro jeito de apresentar esta mesma tabela é um gráfico de barras
diferente em que eu interio cada cada valor aqui no caso escolha a cesariana eo natural para saber como é que há a divisão de ocorrência desses e não está o público e privado de cada um dos tipos de parto quando alguém olha pressa pra esse gráfico vai naturalmente têm uma impressão visual rápida de maior proporção de parto é natural no serviço público e uma maior proporção de parto cesariano no serviço privado tá certo então esse mais da maneira de apresentar também é bastante interessante quando eu preciso reduzir eventualmente não tenho só cesário natural mas eu
tenho uma série de categorias outras para representar num gráfico só facilitando bastante o trabalho editorial netão muitas vezes aquilo que seriam cinco seis gráficos de pizza eu posso transformar num gráfico de barras empilhado ou aquilo que seriam 17 tabelas dois por dois eu faço um gráfico empilhado não reparem como isso é é dar uma dinâmica informativa muito importante é dar uma descrição clara completa e sim o próprio espaço numa publicação por exemplo ou numa tese numa tese geralmente a gente vai usar as tabelas porque é um trabalho mais extensa mas num artigo eu vou precisar
reduzir a um número menor de gráficos e tabelas portanto essa é uma idéia de uma análise descritiva bem sucinta e e econômica mesmo para em termos editoriais vamos então agora as variáveis quantitativas a variável quantitativa dada a sua natureza de dispersão no entre números inflacionários ao infinito não seja tem infinitas possibilidades de representação ela vai permitir também com uma exploração gráfica muito mais plena vamos pegar um exemplo aqui característico deste estudo feito com pacientes do pronto socorro do hospital das clínicas em que nós anotamos 734 na temia-se 734 valores de sódio sérico né reparem que
eu poderia pegar se esses dados 734 pacientes e colocava em que tabela isso muito difícil né apresentar uma planilha enorme ela tem duas colunas mas são duas são 735 linhas pra representar eu não consigo ler simplesmente essa planilha eu pelo menos não consigo não sei vocês se consegue mas é um ele não trará não se traduz numa prévia dessa com os dados brutos numa informação é preciso tratar esses dados de maneira apropriada e vejam que a primeira abordagem possível é representar um fazer um gráfico de barras também com os valores individuais que estão anotados aqui
não percebam que a minha avaliação vai de 116 mil equivalentes por litro de sódio até 170 mil equivalentes então nesta visualização eu sei que os pacientes tiveram na premiação varia de 160 170 a olhar fotográfico já traduz rapidamente uma informação para nós eu percebo que os valores mais freqüentes rapidamente a gente percebe que eles estão aqui em torno de 134 a 142 são os valores mais freqüentes que estão justamente na faixa de variação fisiológica desta desse analista né os ódios érico valle em torno de 75 a 150 mil equivalentes político então nós temos rapidamente uma
visualização e é muito vantajosa essa apresentação destes dados mas eu posso aperfeiçoar isso também eu posso transformar esse dado bruto de frequência num dado de porcentagem que também me dá me revela uma informação mais afinada reparem que continua tendo o mesmo perfil não poderia ser diferente tem o mesmo perfil valor a variação do mínimo ao máximo mesmo os valores mais freqüentes continuam na mesma faixa porém eu tenho uma noção de porcentagem e portanto de probabilidade de ocorrência lembra que eu falei no começo da aula toda vez que eu pego um dado de um resultado empírico
de uma de uma de um estudo eu posso transformá-lo em probabilidade então aqui eu poderia dizer assim que em torno de oito e meio por cento das pessoas tem em 137 mil equivalentes de sódio por litro tá certo nós temos uma uma noção rápida de probabilidade de ocorrências ainda possa aperfeiçoar e a variável qualitativa e quantitativa contínua me permite fazer mais um tratamento interessante aqui eu posso fazer o dado acumula ativo também veja que eu possa representar graficamente a aaa como é que vai a variação acumulada de 116 que a menor freqüência e aí conforme
vão crescendo na escala eu vou acumulando a probabilidade eu posso chegar aqui podemos dizer pra vocês que em torno de 60% as pessoas têm menos do que 138 mex por litro de sódio tá bom então se aposentem menos do que esse valor então posso estabelecer algumas regiões de interesse para poder trabalhar é diretamente no gráfico é uma forma também boa de apresentar finalmente nós podemos agrupar esses dados apesar de ser uma variável quantitativa contínua eu posso fazer uma outra representação chamada de estou grama que a emi da postura de ver mais claramente esse fenômeno eu
não vou ver cada medida individual mas vou agrupá las de maneira conveniente pra ver uma tendência funcional para ver se eu consigo expressar a partir de uma curva uma curva uma função matemática que me permita calcular a probabilidade de ir pra frente de modo mais mas ainda fino em intervalos de interesse então estou grama não é a mesma coisa que gráfico de barras então cuidado quando vocês forem comentar encomendar alguma alguma representação gráfica foi em fazer não digam é temos aqui um gráfico de barras estão mostrando o histograma e vice versa é muito comum a
pessoa mostrar um gráfico de barras e na verdade o perdão é muitas vezes ela tá com gráfico de barras na mão e ela falou nosso histograma que está mostrando isso não é um texto grama lhe ainda o histograma na verdade exige um agrupamento uai é uma organização então é a mais do seu dado não é o dado de bruto como estava antes né vamos lá é preciso definir intervalos de classes né o nosso só deveria de 116 e 170 portanto é preciso de ver preciso agrupá alguns valores de modo conveniente pra gerar realmente o histograma
e aqui temos finalmente o histograma estou lembra do gráfico de barras o gato de barras ele era cheio de buracos no meio o histograma não ele é uma ele tem uma expressão contínua de valores em intervalos isso me permite pensar do mais simples numa curva que represente o meu o meu dado não é assim tão freqüência absoluta o histograma de frequências o histograma de porcentagem mas eu posso por uma curva uma função matemática que resume bem o dado para nós e todo o nosso esforço com as variáveis quantitativas especialmente é reduzir o meu dado bruto
aquele que eu anotei no meu estudo reduzi lo a uma função matemática para que eu possa calcular as densidades de probabilidade então veja que esse caminho é começa lá no ambulatório começa no centro de saúde começa na no pronto socorro onde estiverem fazendo o seu estudo né com as anotações os dados brutos mas eu posso resumir no final esta curva zouak ó essa elegante curva azul é aquela curva de gauss ou a curva normal tá certo esta curva me permitirá à trafaria tratamentos estatísticos muito mais sofisticado daqui pra frente porque eu posso finalmente calcular a
média que está aqui né e o desvio padrão desses dados quando é obter essas duas medidas de redução eu posso finalmente desenhar esta curva tá certo e é isso que nos interessa na no tratamento de dados reduzi los ao extremo de modo a poder trabalhar com eles com facilidade tá ok então já tem uma primeira no ano da copa de gaza que ela vai voltar várias vezes durante está essa disciplina muito bem nós ficamos de definir com vocês algumas medidas descritiva as medidas de posição e as medidas de dispersão as de posição caracteristicamente são a
média a mediana a moda e os cortes e as de dispersão são a amplitude a variância seu padrão e o intervalo inter curtiu o que vamos definir cada uma delas a moda é isso que ela que ela diz para nós todo dia né estar na moda é estar usando aquilo que a maioria das pessoas usa não é isso no nosso caso a moda é o valor que se repete mais freqüentemente se eu voltasse lá para o meu dado de na temia eu poderia dizer que a moda dá em torno de 137 mil equivalentes porque nós
quase 9 por cento dos pacientes tem 137 mil equivalentes por litro de sódio sérico amodu em pouco interesse em geral porque os valores muitas vezes a moda um não não definir algo tão importante não numa análise mais importante do que a moda é a mediana ea média a mediana nada mais é do que o valor central se eu pegar os meus valores e colocar em fila do menor valor para o maior valor eu pego exatamente o centro como a minha mediana realmente é uma posição relativa à mediana deixa 50% dos valores para baixo e 50%
para cima dela tá certo dos dados dos valores dos dados obtidos então eu tenho sento e sem pacientes entre o paciente 51 pa 151 vai estar na mediana toque a média diferentemente ela soma os valores e dividir pelo n pelo tamanho da amostra que o que eu coletei as duas podem discordar nem sempre a média ea mediana concordam a mediana é muito mais usada com variáveis qualitativas ordinais e com variáveis quantitativas discreta então a mediana muitas vezes é preferível para os dois tipos de variável a média a gente vai usar mais caracteristicamente com mais corretamente
quando tivermos dados quantitativos contínuos ok muitas vezes os dados discreto geram média com aquele que eu falei do número de filhos né o ibge divulga 1,8 filhos por casal é uma média mas talvez o dado mais correto fosse da mediana para o número de filhos a mediana ainda não está na linguagem do dia-a-dia da de leitura do cidadão comum mas vocês que são pesquisadores ou futuras pesquisas eles precisam saber optar entre a média mediana para poder melhor identificar o reduzir seu dado né pegamos um exemplo aqui sempre bom trabalhar com exemplos que facilita a nossa
compreensão nós realizamos um pequeno ensaio junto aos estudantes de medicina numa num dado momento no passado e em relação ao colesterol então vamos a uma classe estudantes submetemos um termo de consentimento livre e esclarecido para quem queria e concordaria em ter uma amostra de sangue para realizarmos o colesterol e obtivemos esses resultados que estão aqui mostrados na íntegra para vocês então vejam que é olhar para essa prova tabela dessa fica completamente difícil decodificá-la é que é melhor fazer reduzirá os dados de exposição e de dispersão tão vermelho ficou o nosso resultado depois de fazer algumas
contas de fazer uma observação crítica né nós temos que a moda veja que a moda aqui são quatro modas não tem valores é 136 141 143 145 milligan foi neste livro são a moda dessa desta classe de estudantes de colesterol mas vejo que esta moda se eu voltar aqui para o meu resultado essa moda é uma moda de 2 apenas a dois indivíduos que tem 136 dois indivíduos que têm 141 dois indivíduos com 145 então ela não é uma moda muito que pegou né e valores dessa natureza por isso que a moda não é muito
interessante que quando tem uma variável quanto à sua contínua amplitude de variação é grande então só de 135 155 nos valores fisiológicos o colesterol é de 120 e 130 a 200 então vai cair muita gente com valores muito diferentes o tempo todo não é não é a moda não não inspira para esse tipo de dado algo de valor que me preocupe posicione adequadamente quanto ao valor mais freqüente em relação à mediana já é diferente a mediana veja aqui me fornece um valor de 162 se eu voltar aqui pra tabela 162 tá aqui ó eu sei
que metade da classe está abaixo de 162 e metade da classe de estudantes está acima deste valor em colesterol é interessante a gente ter essa essa posição central porque ela me informa diretamente olha se eu tenho um problema de é daquela população não é digamos que é a mediana 162 me inspira o que eu tenho que trabalhar um grupo para verificar se eu devo fazer alguma intervenção do tipo educacional em relação à alimentação e exercícios ou ver se tem de pedir meia realmente naquele grupo mas não tem que trabalhar com todo mundo então quando vou
planejar uma intervenção já sei que o número não será muito grande de pessoas que eu devo trabalhar né entre ou por exemplo a medida poderá me mostra rapidamente isso a média ver o que não concordou com a mediana ea média obtida foi 167,87 miligramas como a média é resultado de uma conta de dividir ela não vai dar também exata ela dá um valor sempre que bravo né desse mal e não tinha nenhum existe nenhum indivíduo naquele grupo que tem esse valor nettheim aqui o mais próximo e 168 mas a média foi 167 então portanto quando
eu falo a média é 166,39 não quer dizer que o valor mais freqüente muitas pessoas têm uma tem uma tendência a interpretar a média como valor freqüente a média nem existe nesse grupo a mostrado até importante interpretar corretamente o que a média significa a média nada mais é do que o valor calculado a partir da soma de todos os valores individuais pelo tamanho pelo número de indivíduos aquela mostra ele é um valor central mas um valor central idealizado não é um valor verdadeiro portanto ela representa o grupo mas ele ainda não não me disse muita
coisa sozinho junto com uma média tem que vir um valor de dispersão vocês repararam que a mediana tem muito mais essa informação a mediana me localizar rapidamente que é 50% pra baixo pra cima daquele valor a média não sei dizer isso eu só saberei dizer isso se a instituição for normal que a gente vai mais pra frente mas enquanto eu não sei como é que a distribuição e aqui eu já adiantei um pouco expediente e coloquei uma atribuição uma curva normal em cima dos dados ficou feio né ou seja tem um sabor tem muito buraco
nessa esse histograma do colesterol não é um estou grama tão bem comportado quanto da ntma então a curva normal ela não passa muito bem por cima desse programa que conquistou uma de uma cor que com acoplamento da curva normal com o programa de qualidade muito inferior mas então é preciso ter um outro dado aqui que me informe um pouco a dispersão em torno da média e é justamente esse padrão que ele vai ver agora são as dispersões né uma primeira via de expressão é a amplitude quando eu informo o valor mínimo o valor máximo por
uma idéia de quanto vale o meu dado né no caso aqui eu fui de 117 de colesterol há 252 então tenho casos realmente de colesterol elevado ea amplitude é nada mais do que a diferença entre o maior valor é o menor valor gerando uma amplitude de 135 miligramas por decilitro amplitude bastante razoável né bastante grande também agora esse tipo de medidas de dispersão amplitude ele é muito limitado ele me dá muito pouco dado não é simples ele ele está sujeito à interferência de daquilo que chama de auto liars que é o twitter é o fora
da curva é o indivíduo por exemplo que tem 252 de colesterol ele pode não ser muito representativa do grupo mas ele está contando amplitude é o ponto mais elevado mas pode ser que seja um indivíduo com 252 e o próximo abaixo dele tem 220 então veja que há uma disparidade que não mostra muito bem como é o comportamento desta dispersão então a amplitude é muito muito pouco muito limitada como informação e ela de fato não considera a distribuição dos dados né portanto nós preferimos lançar mão para as variáveis quantitativas desta outra medida que a variância
a variância ea sua a sua filha que era o desvio padrão seu filho né quer dizer o padrão porque a e não calcula desvio-padrão diretamente eu calculo primeiro a variância o seu padrão é mais útil para nós mas a variância que o cálculo a gente não obtém o desvio-padrão uma conta direta a gente precisa primeiro obter a variância e o que é a variância a variância é esse resultado aqui a gente simboliza a notação dela é se ao quadrado e nós nós calculamos a variância como a diferença de cada medida individual da minha variável de
cada indivíduo é que foi mostrado - a média ao quadrado essa diferença ao quadrado somo cada uma dessas diferenças ao quadrado e divido finalmente porém menos um está e se esse tipo de cálculo ele não é você não vai encontrar isso na natureza eu costumo falar usamos isso não existe na natureza isso é uma invenção é uma elaboração de alguém que percebeu que fazendo assim eu tenho uma informação eu tenho uma uma forma de simbolizar de reduzir o dado portanto não procurem na natureza a variância ela não dá em árvore não cresce não dá não
vem na água que você toma tá certo a variância é algo inventado por que muitas vezes os alunos os estudantes os pesquisadores estão começando querem entender o que é a variância é só olhar a fórmula aí parece que eu estou fazendo a brincadeira mas muitas pessoas se incomodam com a fórmula esquecem que isso é uma invenção e por ser uma invenção ela ela está explicada uma vez que ela foi inventada não tem explicação natural não é ela é uma invenção muito boa uma versão muito boa mas é preciso apenas entender como ela é calculada por
que a raiz quadrada da variância é que é o desvio padrão que está aqui em baixo que o s tá certo então desvio-padrão nada mais é do que a raiz quadrada da variância avareza tem uma vantagem por ser algo uma desvantagem por ser ao quadrado quando eu e leva ao quadrado tenham essas aberrações aqui neo a minha variância de colesterol neste grupo de estudantes é mil e 43,53 miligramas ao quadrado por decilitro quadrado isso é muito pouco natural na nossa cabeça não é então vocês não precisam se preocupar se estão sentindo algum desconforto com essa
unidade está bom mas toda variável ao quadrado ao cubo a quarta potência qualquer espoli qualquer expoente incomoda gente porque nós não trabalhamos com muitas dimensões simultaneamente nós trabalhamos bem até duas dimensões não é isso não a gente é mesmo que a gente fala em 3d hoje em dia nós de trabalho na verdade com duas dimensões sempre o mesmo a nossa visão é feita em duas dimensões acopladas duas vezes o nosso bifocal aqui nosso nossa capacidade de olhar duas imagens simultaneamente no plano dá uma ideia de tridimensionalidade por isso que os aparelhos são tridimensionais e é
possível fazer dimensão com 12 imagens dessa forma portanto não se incomodem a variância ela vai ser pouco usada na prática mas é importante que é o passo para se calcular se o padrão o desvio padrão já é na já é mais natural né eu falo assim a média era 166 e 167 é isso o colesterol mais ou menos 32 e 30 tá aqui ó quando eu faço esse quando eu coloco isso aqui pra vocês já ficam mais confortáveis não seja tão na mesma unidade quer dizer que 11 o padrão a menos e uma mais eu
consigo calcular a variância não consigo calcular nada com ela eu só informa que amy 43 miligramas ao quadrado não se aborreça não fiquem desconfortáveis é assim mesmo com a variância a gente acaba esquecendo um pouco ela vai ser útil ela é calculada nos pacotes estatístico a gente não vai ver quase não vai ligar para ela nem vai muito relatar a variância a variante vai ficar sempre escondida por trás da da cena mas é fundamental é ela que permite o cálculo do desvio padrão então entendido isso vamos em frente então estamos aqui nossa nossa ponto de
chegada de o de agora é com estas medidas de dispersão né uma outra medida de expressão que é mais útil em termos de laboratório para quem trabalha com dados laboratoriais é o coeficiente de variação o curso de avaliação é outra invenção interessante e nada mais é do que o desvio padrão sobre a média é mais ou menos dizer assim quantos porcento o desvio-padrão representa da média o que a gente vê como é que analisa essa situação aqui do dado caiu sem variação se eu tenho um colchão de variação de 10% eu quero dizer o que
que ele traduz pra mim quer dizer que o desvio padrão é 10% da média se ele for 5% eo padrão é 50 da média que ele está me informando quanto menor o coxa de variação mais estreita é a variação se a média é 100 eo desvio padrão é 5 então 5% meu o meu desvio padrão é da média se o meu a média 100 mil padrões 50 que estou tendo aqui eu tenho uma variação muito grande né 50% de variação já na primeira fase o padrão então esses e ver o corpo de variação não é
o curriculum vitae e tá certo é o conhecido variação é muito útil para verificar replicações de fenômenos também em laboratório nós vamos usar isso muito para checar a reprodutibilidade de um certo um exame laboratorial de uma análise o ator ialta ele vai ser pouco lembrado em depois em outros fenômenos de análise epidemiológica não vai ser muito lembrado mas fica a mensagem do que é o curso de avaliação pra vocês né ela mede portanto a expressão relativa em relação à média é útil quando compara é os dados em unidades distintas né você tiver medindo por exemplo
sódio e mil equivalentes por litro colesterol e miligramas por decilitro e quero saber qual é o melhor análise laboratorial em termos de ser ver como ele é o número puro eu falo assim olha o sódio por ser um um espectrômetro iria mais refinada ele tem um cv menor ele varia menos colesterol por ser uma análise fotometria km vai variar mais então quando estou fazendo um trabalho uma pesquisa uma pesquisa científica eu pra escolher uma um exame como o marcador como variável eu posso levar em consideração o processo de avaliação dele tá certo então ele vai
ser importante talvez numa decisão de qual o exame laboratorial escolher pra fazer meu minha pesquisa ok uma outra uma outra forma de apresentar os nossos resultados e aproveitando aquela ideia de mediana é usar os cortes a medida não é assim no valor no centro que divide 50% pra baixo pra cima do valor os cortes têm a mesma função eles dividem aquele aquela amplitude em 4 entrei em quatro partes abaixo de 25 por cento que é o corte 1 entre o corte 1 ea mediana mais 25% dos dados entre mediano quartil 31 a mediana é o
quartinho dois né então entra mediana e um quartinho três mais 25% e os últimos 25 por cento na ponta muitas vezes e vai ser interessante pra mapear o meu dado né estou fazendo uma repicada um outro sub-conjunto eu posso querer pegar só os primeiros 25 por cento por exemplo os mais baixos para analisar então eu posso te possa representá las assim e eu posso jogar isso depois uma representação gráfica muito muito importante de ser lembrada para quem trabalha com dados em pesquisa que é o box plot o diagrama de caixa reparem que aquele meus dados
os dados de colesterol eles agora estão todos aqui reduzidos no diagrama simples e bastante objetivo né reparem que ele tem aqui dois cabelinhos na duas hastes nos extremos e uma caixa no centro aqui eu tenho do valor mínimo na aba na haste inferior aqui o quartil o percentil 25% ao primeiro quartil a mediana expressa nesta linha o quartil o percentil 85 por cento ou 4 3 e o valor máximo não reparem que numa única figura eu mostrei uma tabela daquela enorme né mais impressionante ainda é o fazer a mesma coisa com o sódio e aqui
identificar eu tenho a possibilidade de no boxe lotes de mostrar o salt liars não reparem que eu posso definir uma certa região a partir da qual eu vou chamar de um valor que extrapolou ele está fora do da curva é que são esses asteriscos aqui ó então vejam que eu só detém uma faixa de variação que eu considerei digamos fisiológica né é definir como aquela faixa fisiológica e aqui os pacientes que estão fora da faixa o salt liars então tem uma nuvem de dados muito baixos que é muito da nossa não é pra qualquer para
qualquer ser vivo homeostático como o nosso em que depende de de um equilíbrio de eletrólitos como sódio potássio e aqui um outro mostra novo e também com valores muito altos então veja aqui ao no pronto socorro chegam os dois grupos fora da faixa isso aqui é bom para mostrar para um aluno de graduação pronto não residente está começando a entender pronto socorro gente pra mostrar a importância de fazer o sódio na entrada né porque existem realmente casos e muitos casos que acontece uma hiper na academia ou a hiponatremia então o boxe lote é excelente para
esse tipo de representação de dados também quantitativos contínuos e em grande número e que mostram regiões bem definidas na ajuda muito a mapear e reduzir o meu dado o ok vamos lá então vamos em frente tudo isso aqui pra dizer que nós podemos então calcular probabilidades objetivas né a partir do dos dados empíricos como está mostrando aqui no estúdio na academia eu posso pegar certas regiões de interesse né ou valores pontuais como aqui no caso a probabilidade de ocorrer um dado de 167 é 137 mil equivalentes né se eu pegar um indivíduo ao acaso a
prioridade vai ser de 0,08 5 ou seja oito e meio por cento se eu posso ter intervalos de 136 146 max qual a propriedade pegar um indivíduo nesta faixa de variação eu somo cada um dos valores devidos pelo total obtendo quase 8 por cento e 34 e voltei 05 56 ou seja a chance de pegar o indivíduo nesta faixa de 66 56 é 55,6 por cento ou posso pegar intervalos abertos maior que maior igual né 147 bastante somar os dados individuais eu vou obter então que a novidade aqui é de 0,056 ou 5,6 por cento
e se a forma empírica de fazer né a probabilidade muito bem agora eu preciso trabalhar como a outra idéia é do valor esperado e aí é que entra a noção de de expectativa eu sempre estou eu tô eu faço uma mostra na expectativa de gerar uma representação mais universal nós vamos ver isso mais pra frente também mas tudo que nós fazemos é na tentativa de repetir tá em última instância a humanidade digamos aqui o meu paciente né meu paciente faz parte da humanidade então eu tenho os dados dos pacientes que atendo todo o trabalho que
estou envolvido mas eu quero mesmo é representar a humanidade em última instância o fenômeno que estou estudando a doença que estou estudando a minha pretensão é representar o todo e não apenas os pacientes que estão estudando então essa é a idéia do valor esperado depende de uma representação mais generalizável não é que no caso de variáveis quantitativas discretas ou discretas né é a somatória dos valores vezes a probabilidade de ocorrer né e no caso de uma variável contínua é uma função matemática que leva em conta não a somatória mas a integral ou seja uma função
que eu posso calcular a área embaixo da curva nesse sentido há aqui está expresso em cima então aquela idéia de média né e aqui em baixo está expresso a variância do padrão para o caso de variáveis discretos variáveis contínuas falou em variância é sempre a diferença do valor de cada valor é contra média ao quadrado vezes a probabilidade de ocorrência daquele evento né e no dado continua também tem a mesma formulação só que ao invés de uma propriedade individual eu tenho a função matemática que representava parece integral esse símbolo de integral uma derivação portanto edil
padrão é sempre a escola da variância pra isso eu preciso começar a estudar um as distribuições né ou seja as funções matemáticas que podem ajudar nesse caminho então nós vamos ver uma coleção agora de 3 distribuições existem muitas descrições matemáticas hoje nós vamos apresentar agora vamos apresentar três distribuições pra vocês a primeira delas é a instituição binomial a discussão de nome ao ela é própria para as variáveis do tipo positivo negativo falso ou verdadeiro masculino ou feminino sobreviveu e morreu ou seja fenômenos que o que são representados apenas por duas possibilidades ou acontece ou não
acontece ou 0 ou 1 a 1 então esse tipo de variável que só tem dois eventos possíveis é chamado de fenômeno binomial e aí ele vai ter um tratamento específico para cálculo de média e desvio padrão a média na principal nome é calculado assim é aprovado aquele evento ocorrer vezes o n que eu estou tratando o tamanho número de de sorteios ou de eventos de pacientes que estão aquela condição a variância desta variável nomeam é calculada pelo número de eventos de indivíduos que estou verificando esse evento vez a propriedade do evento vez um menos abordado
no evento então sempre lembrar na binomial eu tenho acordado o evento que é dono um evento ou do outro evento se preferir mas só como são sempre dois geralmente estou interessado num deles por exemplo aqui no caso da sobrevivência quem sobreviveu não tem essas não morreu mas morreu é o outro evento possível estou interessado em ser o resultado positivo do exame acontece que ele pode ser negativo é o outro evento é o complemento 1 - p ta certo e ele pq portanto que é uma outra letrinha para simbolizar 1 - p e esses são os
parâmetros prisão binomial ok muito bem vamos ver um exemplo aqui bom antes rendeu homenagem ao jakob bernoulli que foi o que fez a teoria sobre essa atribuição binomial o processo de bernoulli ele não fez isso para medicina a gente tem que ser honesto aqui tá certo esses matemáticos antigo sair desta época dos anos 1600 1700 e 1800 a ele estavam mais interessados em ver matemática para o jogo então é importante lembrar que muitas técnicas matemáticas surgiram graças o interesse do ser humano em ganhar o jogo então jogando dados jogando um moedas e apostando então esse
espírito a ideia é essa desse grupo fez surgir uma série de técnicas úteis portanto não é não desprezemos há interesse de alguns jovens e eventualmente para fazer técnicas novas baseados primeiros jogos né os jogos são divertidos e eventualmente render algum dinheiro mas eles também rendem idéias brilhantes tá bom eu não sei se ele ganhar o jogo mas eu sei que ele deixou uma herança interessante e criou uma série de regras para esse tipo de retribuição né os ensaios têm que ser idênticos ou seja a minha moeda não pode ser viciado não posso pegar a mãe
da chamada que cai sempre coroa pra cima então é o ensaio tem que ter uma chance idêntica de ocorrer quando se faz um sorteio né isso vale pra toda a estatística sempre tem que ter essa possibilidade essa mesma a mesma possibilidade de ocorrer a cada ensaio tem somente dois resultados não é binomial mais de 319 nome ao não pode usar e se acontece um não acontece outro tem que ser mutuamente inclusive a eles não podem ser não são concomitantes quando numa mesma pessoa o sucesso ou falha são definidos a partir do que eu escolher eu
posso definir o que é sucesso num certo momento para poder usar o complemento como como falha o sucesso p é constante em cada ensaio e não pode variar então ele é uma regra apertada né vocês estão percebendo aqui na nossa área na área médica isso já não é tão simples assim mas a gente acaba usando alguns filmes como vou mostrar pra vocês aqui é possível aproximar abdominal e os ensaios são independentes ou seja eu só posso usar o paciente não pode entrar duas vezes no meu irmão no mesmo ensaio ele entrou uma vez deve ser
entrar de novo não é mais meu nome ao fenômeno tá então ele a all a anotação é uma vez só em cada paciente veja um exemplo bem típico aqui é relação a vacinas a soroprevalência ea cerimônia na população vamos vamos dizer o seguinte aqui 30 por cento dos indivíduos são imunes por uma certa infecção então nós vamos vivendo aqui com dengue vamos dizer assim olha hoje hoje em dia dadas as características endêmicas da dengue eu diria que nós temos com 30% a população já sou convertida imune não é o caso mas pelo menos já fez
um contato uma vez com o vírus da dengue se eu sorteasse dez pessoas ao acaso nós vamos agora sair aqui por café daqui um pouco a gente fala assim vamos lá tem umas cem pessoas aqui no ambiente eu pego 10 qual é a probabilidade de exatamente quatro indivíduos serem imunes a gente pode jogar esse jogo a gente pode fazer esta esta cá esse cálculo estabilidade eu posso estimar a probabilidade de obter quatro indivíduos imunes aqui na brincadeira no pé não faz muito sentido pra vocês agora mas como gestor eventualmente de saúde pública você pode se
perguntar quantos kits em comprar pra fazer diagnóstico então tem que ter uma estimativa da prevalência no caso 30% e quanto eu vou precisar pra tratar o kit aí de ou terapêutico diagnósticos fazer uma compra eu posso calcular a probabilidade de ocorrer em quatro casos cinco casos ou um certo número de casos e aí eu faço uma provisão de acordo com esta propriedade né então calcular qual é a nossa prioridade aqui decide ocorrer em quatro indivíduos em 10 e muniz sorteados a casa né se a minha propriedade de interesse é 30% ou 0,3 e meu ne10
a esta é a fórmula da instituição binomial que me permite calcular a unidade está certo ela usa análise combinatória que está nesse eixo aqui então é indivíduos organizados x a x no nosso caso é de dez indivíduos 44 né há probabilidade de ocorrência do evento de interesse no caso de ser imune elevado número de indivíduos que me interessam que sejam imunes vezes 1 - p elevado à eni - x ou seja não ser imune elevado número de de sorteios aqui - o número de indivíduos imunes não é difícil lembra forma assim parece meio complicado né
mas realiza análise combinatória que tem essa tradição aqui ó isso aqui vira s10 fatorial quatro fatores alves 10 - 14 ao 10 30 na quarta 07 levado à 6ª então a calculando este este valor aqui é só fazer essa conta eu tenho que aproveitar de obter quatro indivíduos imunes em dez sorteados ao acaso é de 0,2 ou seja 20% de chance de obter quatro indivíduos precisam se perguntar puxa mais não era 30% a estimativa de prevalência não deveria ter obtido 30% não porque eu falei que vou sortear o acaso entre 10 então tem 30% em
média a média não não é obtida igual a cada momento ser sorteado se 100 indivíduos o cálculo mundo aqui sortear mil indivíduos muda de novo percebo que quanto mais indivíduos eu sortear mas eu possivelmente aproxima daquela daquele fenômeno 30% já estão percebendo que o tamanho da minha amostra influencia o meu resultado seu sortear 10 eu fui com 20% de chance de probabilidade de ocorrer a idéia de pegar quatro indivíduos e moniz não vou pegar os meus 30% né bem então essa é uma representação gráfica da bíblia mundial eventualmente é mais fácil entender isso vendo no
gráfico porque em dez indivíduos eu tenho uma chance de nenhum ser imune a chance de um ser de 2 34 67 é de 10 serem imunes veja que dê a chance dez serem imunes é representado como 0 aqui né nunca será igual a zero a chance mas é muito próxima de zero atende a 0 seu chassi dez indivíduos uma população uma prevalência de 30% a chance de pegar os dispositivos para a dengue é quase zero vai ter um outro mas os 10 é quase zero ah então isso é muito interessante vocês verem isso aqui é
a distribuição está expressa aqui agora a atribuição de nome ao tem esta carinha para 10 indivíduos então veja aqui a área de interesse era 4 né é quando o cálculo para 4 ac 02 ou 20% nós vamos fazer exercício desse tipo aqui numa próxima aula para vocês verem como é que o cálculo isso como é que eu faço esse gráfico por enquanto fiquem só com o conceito como referi anteriormente se eu aumentar muito o tamanho da do sorteio à medida que eu vou ampliando o número de pessoas sorteadas aqui eu só tirei duas atrizes são
miguel é bastante assimétrica aqui nós só tínhamos oito já tem uma certa simetria aqui nós só tínhamos 45 pessoas ela está bastante assimétrica né olha que interessante quando sorteamos 350 pessoas ela ficou com uma é perdão aqui mil indivíduos né aqui é mil indivíduos nessa faixa que vejam aqui aqui eu tenho mil indivíduos veja como está ela aparecendo com quem aparece outra curva que como ela aparece agora com essa curva normal então quando eu tenho muitos indivíduos o fenômeno é quando tenho uma mostra bastante grande começa de mil indivíduos a destruição binomial ela passa a
se aproximar da inscrição normal ela não é igual ao normal ela se aproxima veja o que é muito diferente né ela continua sendo uma definição de nome ao mas ela parece e ela eventualmente pode ser tratada como norma tá bom mas só quando tiver muitos indivíduos né veja que com poucas poucas amostras e não ela fica muito ainda assimétrica quem muito bem agora tem um problema na nossa vida que são os eventos raros vocês devem ter é experiência eventualmente com essa situação algumas doenças são bastante raras não vai acontecer um uma por ano na sua
clínica na sua vida ambulatorial como é que eu trato isso quando estou fazendo um estudo dessa natureza como é que eu vou calcular a probabilidade de um evento raro se á a prevalência dela é um em um milhão por exemplo esse número é muito pequenininho né 0,000001 a probabilidade de eu jogar no abdome ao eu vou jogar contra uma probabilidade não ocorrer de 0,99 999 é isso então é muito muito problemático trabalhar com números pequenos quando eu uso aquela binomial aquele tipo de combinar torna aquele cálculo todo quando eu uso valores muito íntimos né um
em um milhão por exemplo eu vou obter diferenças imperceptíveis quando calcular para cinco ocorrências duas ocorrências eu não consigo ver diferença porque eu estou muito próximo do zero e do 1 então nesse modelo eu preciso de uma outra solução e opôs on que é esse personagem é que nosso também esse matemático ele percebeu essa questão fenômenos muito raros não podem seguir nome que tem natureza binomial não podem ser tratados pela solução do bernoulli ele tem que ser tratado de uma outra maneira então que ele propôs ele propõe que a gente esqueça o denominador ou seja
a população tem 100 milhões de habitantes ocorre em dois casos em 100 milhões ele fala esquece o denominador os 100 milhões não existem mais o que interessa é contar o número de casos no tempo ou no período estudado então por exemplo se a gente diz assim acontece uma malformação congênita decorrente da rubéola em são paulo hoje dois casos por ano são 700 e e poucos mil nascidos por por mês o plenário ficou por ano o estado de são paulo dois em 700 mil a um fenômeno raro mas ele existe e esses dois são muito importantes
não estou dizendo que por ser raro não seja importante e eu preciso me preparar é preciso calcular é serviços e calcular está fazer estratégias a resolver esse problema mas eu não posso saber o nome ao do que 2 700 mil é um número pequeno ninho então vou usar o posso então este número dois por ano é que passa a ser importante não 2 por 700 mil entender a diferença é muito importante esse passo eu não estou usando mais a fração 2 por 700 mil estou usando dois casos que são números importantes de uma doença importante
em um período de tempo observado dois casos por ano então a fórmula do pós ontem essa característica ele ele denominou de lambida que essa letra grega aqui como o número de casos médios por período estudado então você pode ter uma série histórica por exemplo de anotação de casos de rubéola congênita no estado de são paulo durante os últimos 20 anos você pode obter uma média anual de rubéola congênita um ano teve um outro teve 41 outros dois são a nova série histórica e já obteve uma média de ocorrência por ano da série histórica que é
o meu lambda então eu posso ter número fracionário sakineh eu posso ter 1,3 casos por ano de rubéola congênita no estado de são paulo e aí calcular probabilidades a partir disso usando esta fórmula aqui em que eu pra calcular a qualidade de um certo número de ocorrências uso a média histórica por ano por o período de tempo elevado número de casos de interesse vezes oe que é o número de óleo que é esse número aqui a 2,7 18 281 é uma constante na matemática né que também chateia muita gente muita gente fica incomodada com essas
denominações né mas esse aqui são números que até chamado gás natural né de natural não tem nada né porque ele não termina aqui ele vai embora é como aquele número pi ele não tem ele é e racional também né há tanto que é chamado assim né ele não não terminam continuam calcular o pi até hoje já tem um milhão de casas decimais não como nunca acabou eles continuam calculando então vejam eu vou usar esse valor e que é muito freqüente essa esse número é muito usado para transformações logarítmicas logaritmo de base natural base e então
elevada - lâmina que a nossa média sobre x fatorial que o número de eventos de interesse é uma fórmula simples de utilizar dá para calcular como a calculadora científica no excel e qualquer tipo de programa e da fazer gráficos também porque é mais interessante então fenômenos raros não estão órgãos têm um tratamento adequado que pode ser calculado propriedade para eles também é importante conhecer pós onu muitas vezes vocês como pesquisadores terão fenômenos raros para analisar pela frente têm uma ferramenta aqui uma formulação matemática interessante então a média é a variância propriedade dada por a son
elas são iguais então a média a própria variância tá certo porque não tenho eu não tenho muitos casos para fazê lo uma com cálculo vem de variância correto né e da própria média é aparência e para calcular portanto a probabilidade de um certo uma certa concorrência né eu tenho o número ea probabilidade já acoplada seja o lambda resume tudo após o som ele a média ea variância do fenômeno então vamos ver aqui um exemplo exemplo é sempre a melhor forma de entender um processo né suponho que a gente tenha feito aqui um estudo psiquiátrico em
que a distribuição mensal de suicídio foi anotada entre adolescentes é um problema grave que acomete várias populações no mundo todo observou-se durante então esse período de de 1987 a 87 e a média de suicídios mensal anotada foi de 2,75 suicídios por mês não reparem que o resultado é fruto de uma série histórica de uma anotação mensal de um cálculo de média simples e taí o dado lambda pra gente 2 35 qual é a probabilidade de acontecer em três suicídios entre adolescentes num certo mês então agora eu posso fazer perguntas para preparar inclusive o meu serviço
psiquiatra você estiver lidando com o serviço aqui por exemplo reservar leitos eventualmente preparar uma certa ou co uma assistência uma intervenção né então após calcular essa probabilidade usando a técnica de possam se eu quero saber três suicidas num determinado mês eu vou usar essa fórmula 2 35 que a média lambida elevado ao cubo que são os três indivíduos né vezes o número de o ler elevada - holanda 2 35 sobre três fatores ao tac a probabilidade de 0 22 que me permite estimar a ocorrência de três suicídios no real mesmo 22% é razoável é uma
média né tá um pouco abaixo dos 50% mas ela é verdade que caracterizável tá certo e eu posso também fazer a representação disso é graficamente da mesma maneira você observa que se eu tenho eu posso dispensar aqui eu posso estabelecer uma certa medida né dezero suicídio a 10 suicídios e aqui está o cálculo de 30 22 ou 22 enquanto a expulsão da ok então é isso que me em forma e dar uma noção distribuição do fenômeno que estou estudando de cada de cada contagem de ocorrência aqui quando é mesmo sendo raro eu tenho uma técnica
possível pra ele muito bem nós falamos de doença é importante caracterizar algumas medidas de doença que são bastante descritivas e também são muito usadas né no nosso meio são palavras são termos que muitas vezes são usados de maneira errada portanto hoje estamos aqui até acertando um pouquinho natura com vocês só foi a seguinte situação foi feito aqui um pequeno estudo caracterizando a freqüência de umas de uma certa doença em várias cidades aqui de são paulo né e em 2002 então foi feita com amostragem são paulo em campinas em itu e em flórida paulista são cidades
de tamanhos bem diferentes são paulo megalópole campinas uma metrópole grande e tu é pequena ela somente essas duas últimas e fora da paulista que tem em torno de 10 mil habitantes ou menos ok então são quatro cidades que a gente pegou aqui de exemplo cada cabeça dessa aqui tá simbolizando um certo milhão de habitantes ou coisa do tipo né - em flórida paulista que vai representar um milhar de habitantes a hockey corrigida para cada um para cada cidade aqui uma parte da população não tem a doença está feliz aqui com vocês estão vendo né uma
parte da população adoeceu e uma parte morreu da doença então eu tenho três informações sobre essa doença aqui pode ser dengue por exemplo né dengue está no momento nos afligindo então vamos falar com dengue então a parte não teve a doença portanto ainda é suscetível uma parte do e seu tamanho o texto aqui e uma parte morreu da doença desse tipo de dado eu consigo calcular fazer alguns cálculos que geralmente esta formulação básica a medida ela leva em consideração o numerador quantos indivíduos adoeceram por exemplo e um denominador quantos indivíduos existiam na população naquele momento
que eu fiz a a contagem e muitas vezes também usa o tempo como um delimitador não é uma divisão real aqui e não estou dividindo né mas estou dizendo que por um certo tempo por mês por semana por ano por década dependo final estudando eu vou usar um tempo como baliza da notação principalmente porque a população varia também no tempo isso é muito importante lembrar quando estou fazendo estudos populacionais eu não estou eu não estou trabalhando com a população fixa ela é completamente dinâmica então eu não dado momento vou fazer uma enquete populacional eu tenho
um milhão de habitantes no ano seguinte após ter um milhão e 50 mil com milhões em depende da migração depende da do nascimento depende de uma série de fatores naquele grupo então há um crescimento um de que há um decréscimo também então os valores obtidos têm que ser referidos há anos meses tempo de tomada daquele daquela contagem tá bom então o tempo aqui pode ser expresso no ano que foi colhido ou por mês ele dá uma taxa portanto de variação o primeiro termo importante definir a prevalência com medo de doença é uma análise descritiva também
muito importante e é importante entender o que ela significa o quê que a prevalência é quantos indivíduos têm aquela característica ou aquela doença na população a prevalência é um dado de quem já tem na população então se eu falar que a tuberculose hoje é tem 57 prevalência quase 75 da população têm tuberculose não quer do e seu este ano perceba a diferença tem é o um certo momento congelado no tempo prevalência é um dado não fixo muito também e dinâmico mas a gente costuma manter os valores prevalência mais ou menos num certo vá uma variação
pequena né então a gente tem é hepatite c na população paulista está em torno de 1% são aproximações então 1% têm hepatite c no estado de são paulo vamos pegar só da paulista que é um é mais a minha é menorzinho cidade pequena dá pra gente ver todo mundo num tempo curto e estudos populacionais é importante muitas vezes a gente buscar um grupo que eu possa ver rapidamente no tempo é mais que estava na costa de são paulo é mais fácil trabalhar com flórida paulista estão supondo que ela tenha quatro mil habitantes né eu vou
dizer que mil têm a doença mil habitantes têm ou tiveram outros já tiveram contato com a dengue são soropositivos para a dengue por exemplo então a prevalência de dengue na flórida paulista é 0,25 porque mil indivíduos já são soropositivos da dengue em quatro mil que moram lá da prevalência de dengue fora paulista mil só de 4000 ac ou por exemplo de toxoplasmose na verdade né que é mais é mais factível do que talvez a dengue é uma estimativa meio-pesados de dengue né toxoplasmose tá em torno disso 25% de pessoas que tiveram já contato com o
top som a prevalência de toxoplasmose é 25 10 25 25% por outro lado né quando eu falo incidência necessariamente eu tenho que colocar o tempo como um fenômeno dentro da medida porque por coincidência ela vai variar a cada momento porque a incidência é a contagem de casos novos e não de todos os casos acumulados a prevalência acumulou todo mundo que já teve na população a incidência são os casos novos então vejam que em flórida paulista em 2002 tá aqui ó eu sabia dos dois tinha quantos lá mil indivíduos tiveram toxoplasmose então sobraram três mil indivíduos
que não tive não tinham toxoplasmose e eu vou observar dinamicamente a incidência né então aparecer um caso eu conto apareceram outros casos a gente conta eu vou então no final de tudo saber no período de um ano quantas pessoas adoeceram casos novos de toxoplasmose e aí sim eu posso calcular a incidência vocês percebem que esteja mais difícil calcular esse exige que o acompanha durante um tempo a população que eu tenho uma notificação muito aprimorada né e de precisão a notificação de todo o caso tem que chegar pra mim anotação se não pega incidência é verdadeira
a prevalência eu posso fazer um estudo mais amostral dá mais certo em incidência não dá tão certo assim mas é complicado fazer um estudo de incidência está então a incidência das suas mãos e foram 30 casos novos em 3 mil pacientes e 3 mil cidadãos que nunca tiveram tantos irmãos não nos 4 mil percebi que eu tenho que tirar aqueles mil indivíduos que já tiveram toxo eles não são casos novos não vão pegar de novo não são casos novos então eu vou fazer o quê 30 em 3 mil são os que podem pegar o que
podiam pegar em 2002 então a incidência em 2003 de tóquio em flórida paulista é um por 100 habitantes reparem que agora eu tenho que usar o denominador de maneira bem claro né eu tenho que fazer até coloquei um por 100 habitantes que fará valer em 4 mil habitantes se eu fizer a taxa por 100 mil habitantes fica no número de casos muito maior né então a gente tá respeitando aqui essa característica de colocar um denominador compatível com o tamanho da população está estudando também então em cada 100 habitantes chegou toxo em flórida paulista em 2003
mostrando que têm incidência é bastante grande né 1% ao ano da população pega toxo ontem que a intervenção lá está fazendo alguma coisa com a tem muito gato e muita muita carne mal e mal cuidada né tá passando toda sua vontade não entenderem é sempre essa diferença importante prevalência e incidência são duas medidas completamente diferentes não pode usar uma pela outra as palavras têm que deus tem que ter uma significado claro pra vocês futuros pesquisadores ainda muito bem voltando pra nossa variável quantitativa agora contínua vamos mostrar a distribuição mais famosa de todas é que a
distribuição de gauss já vimos em slides anteriores não é que ela tem uma um jeito simétrico ou seja quando eu vejo esse tipo de distribuição na minha frente eu penso em curva de gauss porque se eu fizer o histograma e sobrepuser uma curva como esta aqui vou ver que existe uma semelhança entre a representação contínua da curva azul eu estou grama não é perfeito ou seja os meus dados não se a copa perfeitamente a curva correto não que nós estamos vendo aqui é que existe uma certa diferença de intensidade porque na média e com o
desvio padrão eu levo em consideração uma inspeção que não é possível caber perfeitamente normal mas é uma representação adequada e nós podemos testar essa adequação para verificar se o quanto ela é adequada usar ou não mas sempre que eu falar em média sempre que a variável foi constante e contínua eu tenho uma boa possibilidade de utilizar a a curva de gauss ta ta a função de estar na verdade aqui no caso já mostrada é a curva de gauss como é que essa como é que essa equação aqui na verdade assim o que que essa equação
me permite quando eu tenho uma função o que ela me permite permite calcular em baixo da curva regiões de interesse saem sem que eu tenho que ter os dados originais agora se eu ea minha observei o objetivo é representar a população eu não preciso eu preciso na verdade de um marcador amplo e representativo e não mais os dados dos pacientes a originais agora é preciso substituir o paciente que eu mostrei o grupo amostral por um grupo que extrapola a população geral agora não estou lidando mais apenas com os meus dados e tentando fazer uma função
ampla universal para todos os pacientes vão ver que isso é é um processo inferencial né então uma região de interesse é possível calcular agora em baixo da curva eu posso calcular de tanto a tanto com a qualidade ocorrência isso para nós é uma funcionalidade muito importante no tratamento de dados esta aqui é a transmissão normal a curva de gauss ela que me permite agora fazer aquelas interpolações tá certo claro que nós não vamos fazer isso na mão de usar um software para isso mas é importante conhecer o que está por trás da curva a curva
não é um desenho que eu fiz a mão ela é uma função matemática então essa equação aqui um sobre raiz quadrada de 2 pi vezes o desvio padrão da minha variável tudo isso explicando o número de oliver e elevado a menos cada valor de x que me interessa - a média ao quadrado sobre duas vezes a variância seguir ao quadrado então veja que com dois parâmetros eu consigo representar uma função matemática contínua médias e o padrão são importantes por isso que eu posso jogar nessa equação então entendo porque o álcool média cálculos do padrão para
poder jogar numa equação desta natureza aqui tá bom então tá lá por isso que a gente está precisando calcular médio padrão quando pode calcular a média o padrão e quando é que eu posso calcular médio padrão variável quantitativa contínua a mensagem de hoje vai ficar claro para vocês agora né vamos ver a curva normal como é que ela tem uma anatomia muito característica ela pode ser a alta pode ser magra pode ser gordinha e baixinha mas ela tem as mesmas propriedades relação à média do padrão a primeira grande propriedade dada a distribuição normal é que
ela é simétrica perfeitamente esse método a média coincide com a mediana e elas dividem a as duas metades igualmente então a média é igual à mediana ea curva completa fica dividida pela metade perfeitamente então eu tenho em baixo aqui 50% e aqui 50% metades perfeitamente iguais simétricas outra propriedade importante é que qualquer que seja a forma aparente da curva normal se ela for mais baixa e larga ou se ela for mais alta e estreita né ela é delimitada por números de desvio padrão perfeitamente iguais ou seja as áreas compreendidas aqui entre o primeiro desvio padrão
em relação à média representa em torno de 60% da área da curva se ampliar isso para dois desvios padrão a esquerda ea direita eu voltei em torno de 95% de baixo da curva e com três desvios padrão em torno da média para cada lado nós temos 99,7 por cento não reparem que esta esta perfeição da curva é muito importante porque ela é simétrica e ela respeita regiões bem definidas em termos de padrão tão ela é fácil trabalhar matematicamente mesmo para interpretar os dados se eu consigo colocá los numa sessão normal eu consigo interpretar e vê
com muita clareza como é que eles se distribuem usando dois paramos apenas a média do padrão muito bem vamos retomar o exemplo da d'ana temia porque agora divide os nosso grupo lá de 724 pacientes em três grupos um grupo abaixo do valor fisiológico que eu chamei de hiponatremia cuco um grupo fisiológico que na faixa tão esperada de variação do sódio e um grupo e perna treme com acima da faixa etária são soja cada grupo tem uma média e um desvio padrão que estão anotados a quito ldu pra gente então aqui nós temos a cada um
dos grupos representados com a média do padrão e o seu n notem que o grupo fisiológico representa a maior parte 408 indivíduos o grupo ipr na treme qo representa 41 indivíduos e um ipo no atlético 285 olha como é que fica a curva distribuição desses dados já repararam que quando ele é pequeno aqui no caso pelo atlético ficou a atribuição sofrível aqui né ficou muito ruim a distribuição o grupo fisiológico que tem 408 indivíduos já dada uma distribuição mais adequada os valores permitem o histograma mais simétrico o nosso grupo de hipona técnicos também não está
muito bonito não ele está a cimed cupra a esses valores mais baixos né está tudo normal não coube perfeitamente nem aqui e nem aqui por conta dessa acontece que se eu reduzi tudo isso a densidade de probabilidades e esquecer os dados originais agora e pegar a média do padrão de cada um e jogar numa curva normal padrão eu vou ter esse efeito aqui ó olha que bonito fica fica muito interessante né o grupo ipê hiponatremia está em verde o grupo no fisiológico em preto e o hiper na tv em vermelho já repararam que a curva
normal faz com que eu agora perceba que os três grupos têm uma interpretação possível apesar de estarem definidas a priori pelo valor acima de 155 pelo valor abaixo de 135 quando eu coloco na curva a distribuição me mostra que a chance de uma pessoa que é e por na tréplica de vez em quando caí pra cá na norma na clínica eo contrário também uma hiper na clínica pode também regular para menos de vez em quando porque isso é importante por conta do 1º primeiro fenômeno que que nos é que nos importa que a variabilidade nem
sempre as medidas serão aquilo que a gente espera porque os pacientes vão ter intercorrências variação genética ambientais que levam à mudança dos valores também quando eu faço uma rede de sódio eu estou vendo apenas aquele momento eu não estou vendo como é o comportamento da flutuação numa situação dessa estou vendo agora que pode acontecer e interpretação das curvas ou seja uma pessoa caracteristicamente hiper na técnica poderá em algum momento ser norma na clínica por isso que nós temos essa necessidade de lidar com a viabilidade com a incerteza ea coisa normal me permite ver essa dispersão
então as curvas se interpenetram né e nós temos tratamentos estatísticos para isso graças a essa essa função que é normal muito bem essa curva normal ela pode ser do dado concretamente como eu mostrei lá ela tremia mas ela pode ser também uma curva padrão padronizada portanto para ser igual para todas as variáveis como eu padroniza a curva normal eu preciso fazer o cálculo integral mas eu posso usar o computador também é que nós vamos mostrar mais pra frente o importante na padronização é que eu vou transformar tudo entre valores 0 e 1 a média será
em 0 e 1 o desvio padrão será um pra qualquer que seja a variável e para fazer isso passa que opera essa pequena conta aqui o valor de minc minc é essa - a média sobre o desvio padrão tac a variável desta maneira eu transformo tudo numa padronização z chamado assim apenas por por um gosto a quem inventou o filho chamada z e chamou dizendo a esperança que seria a última transformação porque achou que seria suficiente para tudo e aí perceberam que não era recomeçada outras letras pra trás pra chegar em dia tem que ser
muito muito específico mas por hoje nós vamos ficar com a letra z e para padronizar qualquer medida colesterol sódio potássio or é o que vocês quiserem qualquer variável contínua eu posso simplificar para um número puro que eu chamo dizer que varia centrado em 0 né e o desvio padrão em um tabu tão qualquer que seja a média do padrão ou a variável eu posso simplificar com uma número puro então é isso aqui nada mais é do que a distância da média e esse aqui é a métrica dessa distância que é o desvio padrão então quando
você for maior que zero o valor que eu estou estudando está acima da média quando usei foi menor do que zero um valor negativo quer dizer que o valor que estou estudando está abaixo da média muito bem com essa padronização eu posso usar agora áreas bem as mesmas áreas características numa tabela fixa o que facilita muito né é melhor do que a cada momento uma tabela para uréia uma tabela pra só de uma tabela para crescer e mia uma tabela para as pra conhecer ou imagina 2000 analistas que a gente faz no laboratório não não
têm com a tabela tudo isso também vai fazer uma tabela padrão que a tabela z então isso para vocês aqui ó entre 0 que a média e um que é o primeiro desvio padrão eu tenho 34 por cento ou 0 34 tá fica fácil trabalhar com a tabela padrão né então aqui nós colesterol lado os estudantes que a gente mostrou anteriormente a média era 137,9 padrão 32,3 eu posso representar esse grupo é normal tá certo o que me autoriza isso é a variável ser quantitativa continua neste momento mesmo que não fique muito bonita o histograma
sempre vai ter uma um acoplamento menos favorável mas eu posso substituir o histograma que é feio em termos de simetria pela curva normal nesse momento me dá uma melhor visão da distribuição em todas as direções muito bem suponho que eu tenho interesse aqui de verificar a propriedade pegar uma pessoa ao acaso entre 90 e 167 que o meu valor da da média quer saber aqui nessa turma por exemplo é de vocês quem é que tem entre 90 e 150 e 7,9 de colesterol eu posso direto na tabela né e fazer meu cálculo que antes 90169
sobre 32,3 que é o meu desvio padrão isso aqui me dá um número z igual a 2 - 2,41 ou seja 90 disso da média - 2,41 disco então com esse número possa agora na tabela ver qual é a probabilidade diretamente a tabela tem mais ou menos dessa cara aqui desse jeito em que dizer é definido na vertical então aqui eu tenho 2,41 é a segunda casa decimal na horizontal então eu uso a tabela dessa forma 2,41 tal justamente nesse nível aqui vamos ver com mais clareza 2,41 a minha probabilidade de pegar uma pessoa caso
entre esses dois valores 90 ea média 69 0,49 2 ou seja tem 49 por cento de chance de pegar uma pessoa acaso nesse intervalo de colesterol essa é uma apenas mostrar a vantagem trabalhar com z e não trabalhar mais com a medida direta do colesterol se transforma para desvio padrão em relação à média eu calculo qualquer intervalo embaixo da minha da minha curva normal então a curva normal tem muitas vantagens e essa é uma delas poder calcular probabilidades de maneira fácil sim lançar mão de recursos mais sofisticados né muito bem estamos chegando ao fim dessa
primeira apresentação do curso de metas quantitativos a disciplina de metas qualitativas virose ano no curso aqui de princípios pesquisa clínica e vamos fazer uma breve recapitulação do que nós aprendemos hoje primeiro aprendemos as noções de dados informações e conhecimentos e para recordar isso sugiro a leitura do capítulo do livro que está disponível na internet pra vocês de prontuário eletrônico do paciente tem um capítulo sobre conhecimento dados e informação surgiu que é uma leitura interessante que vai fixar melhor essas noções pra vocês aprendemos que para lidar com incertezas não podemos escapar das incertezas é faz parte
do nosso do nosso negócio da área médica né então lidar com incertezas é preciso transformar as incertezas em probabilidades é melhor maneira de lidar com a incerteza aprendemos que propriedades variam entre 0 e 1 ou elas elas caem nesse intervalo aprendemos que as variáveis são qualitativas ou quantitativos isso é muito importante quando olhar para um certo dado qualifique dá uma com a dar uma característica é quantitativa e qualitativa é nominal original é discreto o é contínuo essa e se esse é o primeiro diagnóstico que a gente faz que eu estava lendo uma variável para cada
tipo de variável a gente tem indicações próprias para fazermos apresentação gráfica então se eu vou escolher o histograma eu tenho que ter uma variável com chuva contínua vou fazer um gráfico de pizza eu tenho um gráfico do tipo nominal mais apropriados fazer assim eu posso usar um jargão de pareto com o gráfico nominal também você tiver algum poucos poucas categorias os dados podem ser reduzidos e devem eles podem e devem ser reduzidos a medidas de posição como média mediana e de dispersão como desvio padrão por exemplo as funções matemáticas as distribuições propiciam o cálculo de
probabilidade de eventos de interesse então nós temos que olhar para nossos dados e tentar reduzi los e se possível localizar uma distribuição para representá los para que eu não quis não precise mais usar os dados originais se eu tiver reduzido os dados para medir o padrão ou para algum outro tipo de redução mediana e puder atribuir distribuições a ele hoje nós vimos destruição binomial e possam comprá dados be nominais do tipo preto presente ausente positivo negativo e atribuição de graus que é própria para os dados quantitativos contínuos encerro aqui então a minha aula agradeço a
atenção de todos e voltaremos em breve para continuar a disciplina obrigado