Aula 8b: Exemplos práticos de transformações de dados (Violação das pressuposições da ANOVA)

7.8k views3337 WordsCopy TextShare
Alcinei Azevedo - Dicas e aulas
Nesta aula são apresentados exemplos práticos da influência de outliers e da violação das pressuposi...
Video Transcript:
[Música] então precisávamos fazer com que alguns exemplos no software ié resolve que nosso objetivo aqui noite não vocês como fazer uma análise de software não é falar sobre os diferentes pacotes nas botinas vamos lá vamos começar então pelo seguinte conjunto de dados é eu tenho aqui o povo dos dados onde eu tenho frente genótipos aqui que são os nossos tratamentos e tenha largura e o comprimento das coisas não experimento foi conduzido em dikika do tratamento tive quatro repetições que então nós vamos utilizar aqui um pacote que eu estou criando né então ele não está disponível
para download vai demorar um pouquinho ainda por determinar ele disponibiliza para download tudo bem mas já dá pra gente ver que os resultados que são bem interessantes então veja só três conjuntos de dados fazendo análise para nossa primeira característica comprimento da folha nós já temos aqui então o resultado na estatística olhando aqui primeiro desse relatório nós conseguimos ver que nós temos diferença significativa entre os nossos acampamentos né pois o nosso pedro valor foi menor que 0 1.053 74 vezes 10 mil sim né ou seja menor 01 05 então a diferença dos nossos tratamentos vamos dar
uma olhadinha aqui a qualidade que nós temos aqui o valor está em porcentagem né então se o nosso provável ele for maior que 5% a gente não rejeita h0 e admite que a normalidade dos resíduos então a gente consegue ver então que a gente não rejeita gazé admite então que os nossos resíduos que segue a discussão normal aqui pudesse assimetria a gente vê também né que nós residence métrico pelo portogente também consegue porque é simétrico a gente não rejeita gaza 0 aqui protesta o amor gomes menoriza mesma coisa pro teste a fio eu que a
mesma coisa todos esses testes a questão do teto de nova humanidade nós podemos também utiliza que gráficos para nos auxiliar nós vamos ver os dobrando construída com os nossos resíduos nos deu uma distribuição muito próxima discussão normal nós conseguimos ver aqui que não lá era uma ausência de normalidade é que a gente tem um formato campânula a uma distribuição de aproximadamente cinética esse outro figura que a gente mate que pilote pelo que pode e consegue ver que os pontos nosso estão próximos de retas e já tinha que a gente tem aqui isso significa também é
que a gente tem normalidade dos nossos resíduos a inter genialidade nós conseguimos ver que as de vários testes em um teste leweni topete debate desde que levem um debate a gente vê que a gente esses valores que nós tivemos foi maior do que 5% que a gente considera então que a homogeneidade das varinhas residuais se fosse menor que 5% então haveria heterogênea idades nosso êxito que quer lei olha só ficou bem próximo de 5% não é isso que significa significa a gente não tem problema né mas quadra a gente teve nessa fosse menor que 5
que eu ia falar processo que a gente teve um probleminha de 13 da cidade na somatória que essas duas figuras a gente consegue fazer um exame visual sobre o teor genialidade nós conseguimos ver aqui ó os nossos valores ajustados nossos valores pedidos pelo nossa pelo nosso modelo estatístico e aqui os erros experimentais a gente consegue ver que aqueles tratamentos é que tiveram menores estimativas é um cometa o comprimento de fogo estiveram atendendo até menores resíduos e aquelas folhas de cheque tratamento tiveram folhas maiores entender então até uma maior variação a gente é um comportamento que
de leque isso é um indicativo pra gente né de interinidade alianças e se outra figura que é quase a mesma modificar a única diferença se nós tivermos nela o aluno subindo ou seja uma linha né apontando para cíntia indicativo de heterogeneidade guaribas residuais nesse caso aqui tá tudo tranquilo nós poderíamos então considerar um passo a seguir o que seria mas o técnico para suas múltiplas que nós vamos aprender mais à frente a outra variável que nós temos aqui pra nós é o comprimento da folha então eu falei que o cumprimento da folha coloque coluna 3
vou fazer nossa análise e parecer que o resultado os cumprimentos da folha aqui a olha a figura nós já conseguimos ver algo estranho olha a gente consegue ver que há uma assimetria na nossa distribuição quando a gente olha o que é próprio a gente ganhou o aluno muito distante dessa linha central então eu já sei que eu tenho um problema aqui de desvio de normalidade se nós somos olha que essas figuras aqui embaixo a gente também viu o formato de leque bem proeminente e principalmente nessa partida zinho que eu sei também que eu tenha algum
problema que de ter agilidade de variâncias confirmar isso aqui nesse diagnóstico deve ser um dos nossos de botas não há qualquer coisa um olhar que a nova variante seu agente que teve aquela prova 1,27 vezes pesa menos nove também é menor que 0 ponto 05 nós consideramos então que a diferença dos tratamentos beleza aqui embaixo perde aderência a gente vê que nosso super valor ele foi bem próximo de zero por cento é redondo 10 que significa então que a gente rejeita 0 e admite que não há normalidade das coisas de dados a mesma coisa a
gente vê aqui pela para a assimetria por tó zé é o 10 comemorou 2009 falou que está tudo ok né mas o teste para o filho de shapiro hilux também falou que a gente tem problemas aqui de normalidade quando a gente olha aqui a nossa é procedente da cidade a gente vê que pertece de leweni bebê anos por uma luta maior assim por certo a gente não rejeita gazela admitiu então que a oportunidade bahia residuais por outro lado se eu fosse considerar bed bath leite a gente consegue ver que né que a gente tem problemas
de héteros e da cidade mas olha só se nós somos olha que o nosso em que blog gente consegue ver que a gente tem um ponto aqui é muito distante de todo mundo a mesma coisa várias nós somos olha aqui nesses outros garros baixo né uma observação do técnico holandês 75 ou seja que corresponde a linha 75 nosso conjunto de dados aqui no estadão a gente vê nenhum valor isolado lá no finalzinho né ou seja um indicativo de outline o valor discrepante a gente vê aqui no nosso conjunto de dados ou na linha 75 a
gente vê aqui na linha 75 a gente vê que o nosso genótipo ufjf e 26 nós temos 17 centímetros de comprimento da folha que a gente tem 15 centímetros da repetição 4 a gente tem 19 pontos oito centímetros e nessa repetição de 34 centímetros né o valor muito alto muito discrepante em relação aos demais sendo assim né eu posso considerar vão acontecer no fly a eu sei das minhas coisas não tinha nenhuma punirá com essa magnitude 2 acautela em falso pode ser menor de tabular os dados da mulher errado então excluir essa minha 75 bom
ver o que vai acontecer é o próprio - a minha 75 fazer análise estatística começou a mudar alguma coisa mudou a gente vê agora nós estamos mais próximos a distribuição normal nossa estou grama melhor que brote então todos os pontos próximo dessa linha central netão os problemas de normalidade ele foi sanado gente consegue ter êxito nessa figura e quando a gente olha os gráficos aqueles resíduos a gente consegue ver né que sumiu aquele formato de leque nós tínhamos em nosso teste de normalidade né terra devem ser enquadrada a gente vê que nosso futebol foi maior
5% ou seja a gente não veja da gazela admite que há os nossos exibe sex posição normal o mesmo vale aqui para as elétricas e para por todos e há que protege como albano 19 e proteste abril que também o teste é trouxe da cidade o teste de dna gente consegue ver que está tudo ok e proteste battisti também então veja que quando nós temos outline nosso conjunto de dados né isso daí prejudica então nosso experimento ea gente pode ter problemas da relação às posições por conta desse out lay out lounge lá é falso ou
seja decorrente de uma anotação errada um experimento após escolher tranquilamente se nós out na área ele é forte lá é verdadeiro por exemplo tem uma planta que tem um valor muito discrepante um ano bom que abalou muito discrepante principalmente dar certo no motel aquilo mesmo foi o experimental uma situação como essa já questionado se a gente deve ou não escolhesse out laia eu pessoalmente geralmente eu não gosto de excluir então vamos ver aqui mais um exemplo nós temos aqui um novo conjunto de dados nesse conjunto de dados nós temos seis tratamentos o titular e econômico
já de 70 chegando a letra g o experimento foi conduzido em bebês e nós temos aqui três repetições nós temos aqui nossa primeira variável resposta novo dilema dói diz se nós fomos ver que nós temos alguns tratamentos muito resistentes não é com tratamento a o tratamento de até o tratamento ce onde esteve o número de nematóides muito pequeno já que esses números foram pequenos estão variação muito pequena 2035 22 já testament foram muito suscetíveis nós tivemos aqui uma variação maior 500 400 né então mesmo antes de eu fazer minha das estatísticas já consigo ver que
né com 50 certeza que eu vou ter que há uma heterogênea idade deveriam ser revivido ice não é porque eu tenho valores muito discrepantes entre os meus tratamentos e consequentemente não tenho que variantes muito diferentes e os tratamentos é nós temos aqui o número de frutos que também é fã de analisar tudo e temos aqui as habilidade que seria a porcentagem de plantas que foram consideradas sadias então vamos ver como ficaria a análise tática desse conjunto de dados então vamos ver aqui então não há como ficaria a análise de variância com esses resultados estão aqui
a gente consegue ver que de acordo com ted a denúncia é nosso o valor foi menor que 5% a gente rejeita gazelle admite que é os nossos resíduos não se a gente tem uma violação das disposições normalidade assimetria dá tudo ok né mas protege por dose o teste de como o golpe enorme pelo teste abril que a gente vê que houve rejeição de hipótese nula néné bandas então a concluir que a gente tenta uma violação da exposição de normalidade é quanto é ter ou se da cidade nós conseguimos ver que protege bartlett que a gente
também tem problema né foi menor que 5% então não há homogeneidade de varinhas residuais em outras palavras aéreas e da cidade né a é ter afinidade com alianças residuais nós vamos olhar aqui pelos figuras né nós conseguimos ver que é que a gente tenha uma distribuição bem diferente o seu normal o nosso que quebrou em nós temos valores muito afastado dessa linha principal o que mostra aqui mesmo aumento que a gente tem aqui a gente é um problema de ausência de normalidade e aqui para os nossos resido gente vê que ele comportamento de leque né
moleque à medida que aumenta o valor dos nossos valores pedidos existentes até então a maior variação dos nossos resíduos é na outra figurinha que a gente vê que a gente tem uma tendência até uma linha subindo que indica que pra gente também né quero medida que eu vou aumentando aqui as minhas médias eu tenho uma tendência a ter maiores estimativas para o meu resíduo então essas duas últimas figuras e que indica pra gente né a presença então de heterogeneidade das alianças residuais nós falamos que quando nós temos tratamentos muito de cinema como é o caso
de no crematório uma transformação que pode utilizar de transformação logarítmica amolar softwares curiosidade e vou fazer aqui no blog dançando essa variável que é o nome de matou diz selton contra o inter que eu vejo o resultado é que a gente vê que tem uma coisa estranha a gente não tem um valor aqui peço a nossa segunda observação resultado nosso conjunto de dados conseguimos ver que a nossa observação o valor zero né e todo mundo sabe que não tem pode então logaritmo de zero então a gente precisa somar uma constante na última onda nós falamos
que é uma constante a gente pode ser um marco nesse caso é o valor adicionado/valor onde consegue contornar esse problema então fazer a análise então ao invés de considerar os valores originais vão te considera que então os valores transformados num blog esse valor lembrando que este lote pode ser na base terras ou logo no período que nós falando na última aula ou dar um controle em ter aquilo meus novos resultados nós fomos olhar aqui na segura a gente vê que já melhorou bastante a nossa distribuição está mais próximo de uma distribuição normal é os nossos
pontos aqui estão muito mais próximos dessa linha central e aquele formato de leque notinha já assumiu a gente não tem mais netão aparentemente nosso problema de heterogeneidade crianças foi o reduzido a uma olhadinha nos nossos testes de hipóteses então para a humanidade aqui nós conseguimos ver então que o teste de aderência né nós não temos mais problemas normalidade pudesse assimetria nem protege por tozzi como a voz 19 nem ou seja transformação de dados né ele fez com que aquele problema que nós tínhamos anteriormente de ausência de normalidade esse problema aqui né a gente ainda tem
um pequeno desvio de trânsito da cidade aqui ele é de 4% não seja um pouquinho menor que 50 foi ele é muito melhor do que era anteriormente é preferível novas fazer os nossos testes comparações múltiplas né considera os valores transformados do que os valores originais vamos ver então como ficaria a nossa análise para a nossa segunda variável de frutas frutas vamos ver como é que ficou as figuras né gente consegue ver também que existe uma distorção que a nossa distribuição normal existe pontos muito distante sakineh dos nossos linha principal agente aparentemente tem uma violação aqui
da distribuição normal que a gente tem uma pequena tendência também né de informação aqui daquele formato leque que nós comentamos o que vai acontecer aqui os nossos testes de hipóteses os nossos testes de hipóteses de acordo com o teste que quadrado está tudo ok de acordo com ted assimetria tá tudo ok de acordo com o teste com dose está tudo ok terra de acordo com o teste como algozes 1009 o nosso valor foi menor que 5% aqui pro teste abril que também estão de acordo com esses dois testes né nossos conjuntos de dados não segue
à disposição normal já o dash barth leite a gente conseguiu ver a mesma coisa menor que 5% então nós não podemos admitir que a oma vendas das varinhas residuais número de contagem uma transformação na transformação raiz quadrada de nós temos aqui a raiz quadrada eu vou utilizar aqui fazer nossa análise então o raio x quadrado dos valores quando o encontrou em ter o que aconteceu quando eu fiz isso a instituição melhorou um pouquinho não muito né a minha linha central até os pontos estão mais próximos dela é formato de leque diminuiu o que aconteceu aqui
com as nossas predisposições acontece de a dengue está tudo ok a assimetria tudo ok pelo toque de acordo com testes como o vosso melhor teste abril que também está ok nesses dois casos em todos os casos aqui 5% então é razoável nós estudarmos nosso conjunto de dados considerando que os resíduos segue a distribuição normal o teste devendo né nós conseguimos ver que o piloto também ficou acima de 5% eo pessoal vamos para o nosso último exemplo vamos estudar então dados de sanidade é a porcentagem de plantas sadias então nós temos sanidade é para sanidade nós
vimos que nós temos muitos valores próximos de 100 muitos valores próximos de zero daí pode ter pode nos levar alguns problemas que nós já comentamos na hora anterior é dom seg estão fazendo nossa análise para os nossos dado disse realidade aqui nós conseguimos vender o programa né uma distribuição que não é muito contínua dos nossos resíduos é nós conseguimos ver alguns valores não é bem um afastado dessa linha principal e nós conseguimos ver também um comportamento bem de leque né aqui neste gráfico dos resíduos é bem interessante que nós vamos observar nós vemos aqui é
longe do conjunto grande de valores né bem próximo do zero e um conjunto grande de valores bem próximo dos 100 e isso acontece porque esses dados tendem a ser uma discussão de nome ao então com o caso como esse nós já falamos né como transformação adequada pode ser transformar seu avô semana nós podemos ver também que no nosso teste nós tivemos né de acordo com testes de aderência uma distorção normal o teste melhoria da ok mas o teste por toda a gente vai cantar neva no menor que 5% o teste de 2009 a gente também
teve problemas com o teste em abril ea que protege de heterogeneidade da aliança a gente vê que nós tivemos problema também né veja só sabe a gente verifica então como ficaria a nossa análise temos aqui os nossos dados originais né vamos obter transformação aconselho um deles então o conselho da raiz quadrada é x / segue então vou pegar os meus dados originais ou de tipo sem né depois vou fazer a raiz quadrada desse valor é depois de fazer raiz quadrada nós vamos utilizar transformar só com o cello agora opinou de efetuamos a transformação de dados
vamos fazer análise estatística com esses dados os seus formados e vamos ver se os resultados melhoram após a transformação de dados nós conseguimos ver que a distribuição de se aproximar um pouquinho mais a distribuição normal é os pontos eles não estão mais tão próximos assim dessa linha central o formato direto diminuir um pouquinho né mas vamos ver como é que ficou a que os nossos testes associadas com as posições nas baianas olha aqui a gente consegue ver que o problema da normalidade de acordo com testes de aderência deixou de existir a gente não tem jeito
é gazelle admite ser razoável estudar os nossos resíduos considera a distribuição normal o mesmo gente consegue ver aqui para o teste a simetria para o teste por tozzi para o técnico comemorou box 1009 para o teste em abril diz nós fomos olhar que pudesse barth a gente ver também que deixou de abrir né problemas aqui associados ao teste de heterogeneidade variâncias então o pessoal é nós conseguimos ver que várias situações onde o uso de transformar as quantidades amenizou o problema que nós tínhamos neco às pessoas a nós ganhamos é importante destacar que nem sempre a
transformação de dados será suficiente para resolver o problema né então a gente tem de utilizar a transformação e verificar se de fato os problemas associados né as distorções as posições generis goiás e foi de fato amenizado é muito importante também destacar que não é sempre que a gente tem no dia de normalidade os filhos de homogeneidade para crianças carentes e se preocupar muitas vezes quando estes vírus é pequeno a gente pode fazer na rádio band am sucesso que o próximo executivo sem problema nenhum esses testes são robustos pequenos desvios normalidade de homogeneidade de de variâncias
residuais né conseqüentemente então nós precisamos nos preocupar apenas em situações onde essas distorções são muito severas então pessoal o dae o vídeo se inscreva meu canal e em breve nós teremos aí novas obras [Música] [Aplausos]
Related Videos
Software R: Vantagens do R Studio Cloud
5:53
Software R: Vantagens do R Studio Cloud
Alcinei Azevedo - Dicas e aulas
2,735 views
Robustness/Transformations in R
16:56
Robustness/Transformations in R
Quant Psych
2,829 views
Aula 8a:   Principais transformações de dados
10:36
Aula 8a: Principais transformações de dados
Alcinei Azevedo - Dicas e aulas
8,069 views
October Jazz: Sweet Jazz & Elegant Bossa Nova to relax, study and work effectively
October Jazz: Sweet Jazz & Elegant Bossa N...
Cozy Jazz Music
Aula 9a: Testes de comparação múltipla ( t - lsd, Tukey, Duncan, Dunnet, Scott-Knott)
28:25
Aula 9a: Testes de comparação múltipla ( t...
Alcinei Azevedo - Dicas e aulas
26,762 views
How to create a violin plot with ggplot2 in R with geom_violin and geom_dotplot (CC092)
18:29
How to create a violin plot with ggplot2 i...
Riffomonas Project
15,093 views
TESTE PARAMÉTRICO E NÃO PARAMÉTRICO - DIFERENÇAS E QUANDO USAR CADA UM
4:33
TESTE PARAMÉTRICO E NÃO PARAMÉTRICO - DIFE...
Profa. Dra. Mariana Goldim
6,424 views
Aula 7a:   Pressuposição da ANOVA
25:46
Aula 7a: Pressuposição da ANOVA
Alcinei Azevedo - Dicas e aulas
7,953 views
Transformação  Box Cox no R
27:33
Transformação Box Cox no R
Chave R
9,310 views
Tudo que você precisa saber sobre transformação de dados no R em 5 minutos
7:30
Tudo que você precisa saber sobre transfor...
Wlademir Prates
813 views
ANOVA de uma via no R
41:37
ANOVA de uma via no R
Fernanda Peres
27,865 views
Aprenda a rodar ANÁLISE DE VARIÂNCIA (ANAVA) no programa computacional SISVAR (UFLA)
12:51
Aprenda a rodar ANÁLISE DE VARIÂNCIA (ANAV...
Ian Lucas de Oliveira Rocha
40,011 views
Diferenças entre Três ou Mais Grupos Independentes - ANOVA e Teste de Kruskal-Wallis
28:20
Diferenças entre Três ou Mais Grupos Indep...
R, Estatística e Aprendizado de Máquina
3,245 views
O QUE É A BENDITA DISTRIBUIÇÃO NORMAL e por que ela é tão importante para a análise dos seus dados?
10:50
O QUE É A BENDITA DISTRIBUIÇÃO NORMAL e po...
Canal Pesquise
28,621 views
Why the p-Value fell from Grace: A Deep Dive into Statistical Significance
20:08
Why the p-Value fell from Grace: A Deep Di...
DATAtab
133,950 views
Mini Aula de Minitab 17 - Distribuição Não Normal
8:43
Mini Aula de Minitab 17 - Distribuição Não...
Mini Aulas de MiniTab
3,544 views
Aula 16a: Teste qui-quadrado (Teoria, contas e análise no R)
26:34
Aula 16a: Teste qui-quadrado (Teoria, cont...
Alcinei Azevedo - Dicas e aulas
4,210 views
Building the Ultimate Workout Tracker with React Native & MongoDB
3:59:34
Building the Ultimate Workout Tracker with...
notJust․dev
476,620 views
Data Modeling for Power BI [Full Course] 📊
2:34:41
Data Modeling for Power BI [Full Course] 📊
Pragmatic Works
3,365,734 views
Sustentación LGR
19:15
Sustentación LGR
ANDRES CASTAÑEDA SERRANO
1 view
Copyright © 2024. Made with ♥ in London by YTScribe.com