[Música] Oi pessoal! Hoje nós vamos falar da análise de variância para os delineamentos inteiramente casualizados, delineamentos em bloco casualizados e delineamento em quadrado latino. Em últimas aulas, nós já falamos sobre alguns conceitos e peculiaridades de cada um delineamentos.
A análise de variância nós podemos abreviar ela por ANOVA, que deriva do termo em inglês, ou consideramos a tradução em português, análise de variância, o termo mais correta seria ANAVA. Então, se falarmos ANOVA ou ANAVA, nós estamos nos referindo a mesma coisa. A ANOVA então, é um dos testes estatísticos mais utilizados para avaliação do experimento em todas as áreas do conhecimento, essa análise e vários outros fundamentos, foram desenvolvidos por Fisher, nós já falamos bastante sobre o Fisher em algumas aulas anteriores, certo?
Então, não vou entrar em grandes detalhes aqui não. O mais importante nós falarmos então, dessa instituição que foi criado em 1843 e que fez várias experimentações, relacionadas ao uso de fertilizantes. Só que eles tinham uma dificuldade muito grande para analisar esse conjunto de dados, em 1920 decidiu contratar então um matemático para criar um departamento de estatística com o objetivo de analisar uma grande quantidade de dados acumulados desde 1843.
Fisher se candidatou a esse cargo, foi contratado, permaneceu como chefe deste departamento por um longo período de tempo. Durante esse período, Fisher então tirou várias técnicas e conceitos que se tornaram centrais na estatística, técnicas essas que são estudadas até os dias atuais, por serem bastantes importantes na experimentação. Em 1923 desenvolveu um método chamado método da máxima verossimilhança, em 1925 generalizou este método para análise de variância.
A análise de variância então, ela tem como principal finalidade decompor uma variação total em parte conhecida e parte desconhecida. Então, com a análise de variância essa variação total corresponde a variância dos nossos dados experimentais, a parte conhecida corresponde a variância daqueles efeitos que são controlados pelo pesquisador, esses efeitos podem ser os efeitos de tratamentos, que poderia ser diferentes variedades, adubações, espaçamentos, tratos culturais, e, outro fator que nós podemos controlar também seria o uso de blocos, no caso do delineamento de blocos casualizados, ou linhas e colunas no caso do quadrado latino, que são adventos do terceiro princípio básico da experimentação que é o controle do local. Essa parte desconhecida então, refere-se aquela variação que nós não conseguimos controlar, é o resíduo.
, aquela variação que nós continuamos denominando de erro experimental. Então a análise de variância nos possibilita fazer várias coisas, nós conseguimos de compor essa variação total obtendo uma variância associada a cada fonte de variação, na variação devido então ao efeito do tratamento, uma variância devido ao efeito de blocos, uma variância devido ao erro experimental. Nós conseguimos também decompor os graus de liberdade total, obtendo então um número de grau de liberdade associada a cada um das nossas fontes de variação, isso também é muito importante para os testes de hipóteses.
Nós conseguimos estimar componentes de variância e/ou componentes quadráticos, futuramente nós vamos falar que os parâmetros que constituem os nossos modelos estatísticas podem ser de natureza fixa ou aleatória, consequentemente, nós podemos então estimar componentes de variância para aqueles efeitos que são aleatórios, e componentes quadrados, para aqueles parâmetros que são de natureza fixa. Nós conseguimos também fazer testes de hipóteses, o primeiro teste de hipóteses que nós podemos fazer na nossa análise de variância mesmo, é o nosso Teste F, nós vamos falar um pouquinho sobre o Teste F também um pouco mais à frente. Então pessoal, nós temos aqui alguns modelos de análise de variância, temos aqui nosso modelo de análise de variância para o delineamento inteiramente casualizado, neste delineamento então nós controlamos apenas a fonte de variação tratamentos.
Então nós temos aqui, fonte de variação tratamentos, fonte de variação total e o que a gente não consegue explicar? Essa variação total, ao controlar a fonte de variação tratamentos, é o que constitui nossa fonte de variação resíduos, tanto que nos resíduos nós conseguimos obter por diferença. No caso delineamento em blocos casualizados, nós conseguimos então utilizar o controle local obtendo uma fonte de variação a mais, que seria a forte variação blocos.
Tanto quanto ocorre aqui no caso do nosso quadrado latino, sendo que aqui no quadrado latino nossa parte conhecida seria essa parte nós conseguimos controlar, que seria os efeitos de tratamento, efeito das linhas e efeito das colunas, então nós vimos aqui as linhas que constitui então as nossas fontes de variação que está sendo estudadas aqui na nossa análise de variância. Mas na nossa análise de variância, nosso objetivo então é obter variâncias associadas a cada uma dessas fontes de variação. Para obter essas variâncias então, nós devemos obter o grau de liberdade, somas de quadrado e os quadrados médios seriam nossas variâncias, vai ficar um pouquinho mais claro isso.
Vamos lembrar aqui da nossa fórmula da variância amostral, nós vimos lá estatística básica que a variância amostral pode ser obtida por essa fórmula, se nós formos pensar bem, nessa fórmula da variância nós temos aqui um desvio de cada um dos nossos indivíduos em relação à média geral, então essa parte interna aqui seria o nosso desvio. É bom nós lembrarmos que, se nós temos então os nossos desvios, nós teremos valores positivos e valores negativos, se nós somarmos todos esses desvios, nós teríamos valor 0 não é? Teríamos valores positivos, valores negativos, somando então eles se anulariam, e nós teríamos a estimativa zero para essa soma de desvios.
Então uma estratégia que nós podemos tomar é pegar cada desvio e levar ao quadrado, ao fazer isso, os lados negativos ficarão positivos e na hora que somarmos teremos um valor não nulo. Afim então de levar em consideração nosso tamanho amostral, também nessa nossa estimativa de variância, nós poderíamos utilizar o “n”, se fosse uma variância populacional ou “n-1” para uma variância amostral, esse “menos um” que nós temos aqui então nesse denominador é uma correção que a gente faz para tornar essa variância uma variância não visável. É importante então nós lembrarmos que, essa parte de cima, que seria o desvio ao quadrado e depois com somatório, então soma de quadrado desvios é o que nós podemos chamar aqui de SQ, esse “n-1” é o que nós denominamos de graus de liberdade, e esse S² que é a nossa variância, é a mesma coisa de quadrado médio.
Então aqui só dando nome aos bois então, nós temos aqui: grau de liberdade, que é esse denominador, soma de quadrados que seria o nosso numerador e quadrado médio que seria essa nossa variância, então nós vamos obter uma variância associada a cada uma das nossas fontes de variação. Para nós entendermos então o que que seria nosso Teste F, vamos considerar então que a gente obteve aqui a nossa variância do efeito de tratamentos e a nossa variância devido ao efeito de resíduos, nós então podemos considerar essa primeira balança aqui. Neste primeiro caso, nós temos o quadrado médio de tratamento e vamos imaginar que essa variância devido ao efeito de tratamento é igual à variância devido ao efeito do resíduo, ou seja, o efeito do erro experimental, se esses dois lados aqui tiverem o mesmo peso, é óbvio então que se eu fizer razão do meu quadrado médio de tratamento pelo quadrado médio de resíduo, eu vou ter um valor muito próximo ou igual a 1, porque meu quadrado médio de tratamento ele é igual ao quadrado médio do resíduo.
Se eu tiver um valor de F calculado de tratamento muito próximo a 1, eu não tenho uma diferença real entre os meus tratamentos, aquela diferença que nós teríamos, aquela variação que nós teríamos entre os nossos tratamentos seria igual uma variação que se deve ao acaso, e, consequentemente então, pelo Teste F, nós chegaríamos à dedução que não existe uma diferença estatística entre os nossos tratamentos. Vamos imaginar uma outra situação uma situação, onde o nosso quadrado médio de tratamento é muito maior que o quadrado médio do resíduo, uma situação como essa nós teríamos então uma estimativa muito maior do quadrado médio de tratamento do que quadrado médio do resíduo e, consequentemente, essa razão aqui nos daria um valor muito maior do que 1. Então, se nós tivermos um F calculado muito maior do que 1, isso indica que a minha variância devido ao efeito de tratamentos é muito, mais muito, mais muito maior do que aquela variância que se deve ao acaso, ou seja, os meus tratamentos eles são de fato diferentes, as diferenças que contém entre os meus tratamentos.
Então quando nós utilizamos essa estatística, que seria o Teste F, o que nós estamos fazendo é comparar duas variâncias. Então para isso, pra gente saber se esse valor de F calculado ele é estatisticamente maior do que 1, ou não, nós podemos recorrer à distribuição F de probabilidade, ou então a Tabela F de Snedecor, mas para fechar voltaremos a falar sobre 249 00:11:27,070 --> 00:11:33,700 isso. Então aqui, cada delineamento ele possui um modelo estatístico, o modelo estatístico para o delineamento inteiramente casualizado seria esse apresentado aqui, onde nós temos o Yij que representa o valor observado na parcela que recebeu o tratamento I na repetição J, M seria o efeito da nossa média geral, Ti é o efeito do tratamento I e Eij é o erro experimental na parcela que recebeu o tratamento I e na repetição J.
Nós temos aqui uma tabela que ela generaliza pra gente como que seria a nossa tabela com dados experimentais, então nós poderíamos ter vários tratamentos, nós poderíamos ter o tratamento 1, tratamento 2, até chegar no nosso último tratamento que seja o tratamento Izão. Poderia ter repetição 1, repetição 2, até chegar na nossa repetição Jotão, e aqui dentro, que seriam os nossos Y, representam então os nossos valores observados, a nossa variável resposta. Nós temos aqui indexadores então, o primeiro valor ele simboliza o nosso tratamento e o segundo número a nossa repetição, nós temos aqui então os totais tratamento, que pode ser simbolizado por “Y1.
”, então seria o total de todas as parcelas que recebeu tratamento 1, “Y2. ” que seria o total de todas as parcelas de receberam o tratamento 2, e “Yizao. ” que seria somatório de todas as parcelas receberam o nosso último tratamento, que nós estamos denominando aqui como “Izão”.
Se nós considerarmos o “Y. . ” então seria o valor total, advinda do somatório de todos os valores observados no nosso experimento.
Então nós conseguiríamos chegar no nosso grau de liberdade total considerando o nosso número de observações, que seria o nosso número de parcelas, que poderia ser obtido considerando nosso número de tratamentos que multiplica nosso número de repetições, isso no caso de um experimento balanceado, ou seja, com o mesmo número de repetições para todos os tratamentos. Então, graus de liberdade total seria o nosso número de parcelas, que é “Izão vezes Jota – 1”, grau de liberdade do tratamento seria o nosso número de tratamentos, nós teremos aqui então “Izaotratamento - 1" por diferença nós conseguimos achar nosso grau de liberdade do resíduo e nós montaríamos então nossa primeira coluna aqui da nossa análise de variância. Para a soma de quadrados nós poderíamos recorrer aqui a algumas fórmulas onde nós faríamos então o somatório de cada um desses totais de tratamento ao quadrado dividido pelo número de repetições que é o “Jotão” menos uma correção, que seria o valor total de um ponto ponto levado ao quadrado dividido pelo nosso número de observações.
E o SQ total nós consideraríamos então cada um desses valores observados elevada ao quadrado menos essa correção aqui em cima, esse é o nosso Y ponto ponto ao quadrado dividido “IzaoJotão”. Ao olhar essas fórmulas, parece que a análise de variância é muito difícil de ser feita, que a soma de quadrados é muito difícil de fazer, daqui a pouco nós vamos montar a nossa análise de variância considerando o raciocínio básico em que nós vamos conseguir obter nossa soma de quadrados para qualquer delineamento, sem precisar então fica memorizando essas fórmulas, não preciso assustar não, mas se nós formos utilizar fórmulas, são essas fórmulas aqui, o resíduo mais uma vez a gente obtém por diferença, faz o SQ total menos o SQ de tratamentos. E aí nós conseguimos montar então as nossas somas dos quadrados, se nós formos lembrar lá atrás daquela fórmula da variância, se a gente quer obter as nossas variâncias, basta nós pegarmos então a nossa soma de quadrado e dividir pelo seu respectivo grau de liberdade.
Então nós temos aqui quadrado médio do tratamento, a soma de quadrado de tratamento, dividido pelo grau de liberdade do tratamento. Quadrado médio do resíduo é a soma de quadrados do resíduo dividido pelo grau de liberdade do resíduo, e assim nós temos aqui os nossos quadrados médios. A razão entre essas duas variantes a gente obtém então o nosso valor de F calculado para efeito de tratamento, então nós teríamos aqui quadrado médio de tratamentos sobre quadrado médio do resíduo, e assim nós conseguiríamos então montar a nossa análise de variância para o DIC, esse F calculado nós poderíamos então comparar ele com o valor tabelado afim de nós então rejeitarmos ou não o H0.
Essas peculiaridades sobre os nossos testes de hipóteses eu vou falar a seguir, ok? Então nós poderíamos obter um valor de F tabelado onde nós consideraríamos então nível alfa significância, nosso número de graus de liberdade de tratamentos, nosso número de graus de liberdade do resíduo, a partir desse F tabelado nós conseguiríamos então verificar se estatisticamente os nossos tratamentos são diferentes ou iguais, ou seja, estatisticamente se nosso quadrado médio de tratamentos é muito maior que quadrado médio do resíduo. No caso aqui do DBC, a única coisa que vai mudar nosso modelo estatístico é que agora nós vamos ter esse bj a mais, sendo esse bj o efeito do nosso bloco j, nos demais parâmetros nosso modelo estatístico permanecem os mesmos.
Aqui está a nossa tabelinha com nosso conjuntos de dados, a única diferença é que agora tenho Y. 1, Y. 2 e Y.
r, que representa os totais então de cada um dos nossos blocos. Então graus de liberdade total é a mesma coisa que nós vimos anteriormente, graus de liberdade de tratamento a mesma coisa que a gente tinha anteriormente, graus de liberdade de blocos nós pega o nosso número de blocos que nós estamos chamando de “jotão” menos um, então nós temos graus de liberdade bloco, mais uma vez, por diferença, fazendo graus liberdade total menos graus de liberdade blocos menos graus de liberdade tratamento nós conseguimos chegar ao nosso grau de liberdade do resíduo. Temos aqui então, a nossa soma dos nossos graus de liberdade para cada uma das nossas fontes de variação, nessa soma dos quadrados nós temos aqui o estimador idêntico ao que nós vimos anteriormente, para soma de quadrados de tratamento em um delineamento inteiramente casualizado, e aqui nós faremos também nossa soma de quadrados de blocos, que seriam obtidos então fazendo somatório do total de cada um dos nossos blocos elevado ao quadrado dividido pelo nosso número de tratamentos que é o nosso “Izão” menos o nosso valor total, que nosso “Y.
. ” ao quadrado dividido pelo nosso número de parcelas, que é o “IzãoJotão”. Vocês podem observar que isso que nós temos aqui no final é uma correção, então ela é idêntica para todas as nossas somas de quadrados, no nosso caso soma de quadrado total também vai ser idêntico ao que nós vamos no delineamento inteiramente casualizado.
Por diferença, soma de quadrados total menos a do bloco menos a que a gente obteve para o tratamento, nós conseguimos obter então nossa soma de quadrados do resíduo, montando aqui então a nossa terceira coluna na nossa análise de variância. Nosso quadrado médio nós vamos pegar cada soma de quadrado e dividir pelo seu respectivo grau de liberdade, vamos obter o quadrado médio e para obter os nossos valores F calculado nós vamos ter F calculado para tratamentos, que vai ser quadrado médio de tratamentos sobre quadrado médio do resíduo, e F calculado para blocos quadrado médio do bloco sobre quadrado médio do resíduo. Pra gente obter nosso valor de F tabelado para tratamento nós vamos desconsiderar o nosso nível de significância o número de graus de liberdade associados aqui ao numerador, que seria quadrado médio de tratamentos, e grau de liberdade associado ao denominador que seria do resíduo, já que para F tabelado dos blocos nós vamos considerar mais uma vez um nível de significância, graus de liberdade associado ao nosso numerador que é graus liberdade de bloco e graus de liberdade associado ao nosso denominador aqui do valor da estatística F, que é nosso grau de liberdade do resíduo.
Para delineamento quadrado latino, a única coisa que mudou em relação ao DIC é que nesse caso aqui nós temos dois parâmetros a mais, que seria o efeito da linha j e o efeito da coluna k, o resto fica mais ou menos parecido, “Yijk” então é o valor observado na parcela que recebeu tratamento “i”, na linha “j” e coluna “k”, “m” é o efeito da média geral, “Ti” é o efeito tratamento “i”, “Lj” é o efeito da linha “j”, “ck” é o efeito da coluna o “k” e o “Eijk” é o efeito do erro experimental na parcela que recebeu o tratamento “i”, na linha “j” e coluna “k”. Nós temos representado aqui a nossa tabela como poderia estar tabulado os nossos dados para o DQL, nós podemos lembrar que no quadrado latino nosso número de tratamentos é igual ao nosso número de linhas, que é igual ao nosso número de colunas que nós podemos chamar então de “Nzão”, então nós podemos ter linhas indo de 1, 2, até “Nzão” linhas, colunas indo de 1, 2 até “Nzão” colunas, e aqui os valores observados. Então para a gente ter nosso grau de liberdade total é nosso número de parcelas, então nosso número de linhas que é “Nzão” vezes nosso número de colunas que é “Nzão” menos 1, então grau de liberdade total é o nosso de parcelas menos 1, grau de liberdade do tratamento nosso número de tratamentos que seria “Nzão” menos 1, nós temos nosso grau de liberdade, número de linhas “Nzão” menos 1, número de colunas é nosso “Nzão” que é o nosso número de colunas menos um, e grau de liberdade do resíduo a gente obtém aí mais uma vez por diferença, então nós conseguimos chegar aqui nos nossos estimadores para graus de liberdade para cada uma dessas fontes de variação.
SQ de linhas então, nós faríamos o total de cada uma das nossas linhas, elevaria ao quadrado e somaria esses quadrados desses totais divididos por “Nzão” menos a nossa coleção, que seria o valor total elevada ao quadrado menos nosso número de parcelas. Soma de quadrados de colunas seriam então nosso total aqui de colunas elevada ao quadrado, então somo esses totais dividido aqui pelo nosso número de “N” menos a nossa correção. Para tratamento nós precisaríamos então obter um total para cada um dos nossos “N” tratamentos e faria mais uma vez o total dos nossos tratamentos elevado ao quadrado dividido por “Nzão” menos a nossa correção, o total nós vamos considerar cada valor observado, essa fórmula aqui é igual para todos os delineamentos, e por diferenças nós conseguimos achar soma de quadrados do resíduo.
Quadrado médio nós vamos pegar cada soma de quadrado e dividir pelo seu respectivo grau de liberdade. Então pessoal, a fim de falar um pouquinho aqui sobre o teste de hipóteses, vamos imaginar então nós estamos com nossa análise da variância pronta, então esse valor de F calculado, só relembrando aqui, ele expressaria para a gente então o quanto que o nosso quadrado médio de tratamento é maior do que o quadrado médio do resíduo, ou seja, se as variâncias devido aos meus efeitos de tratamentos for uma variância que se deve apenas ao acaso, isso faria com que nossa razão aqui, ou seja, o nosso F calculado ele teria um valor próximo à 1, por outro lado se a variância devido ao efeito de tratamentos for muito maior do que a da variância que se deve ao efeito do acaso, isso indicaria que os nossos tratamentos são de fato diferentes, e muito diferentes, o nosso F calculado seria muito maior do que 1, sendo assim então nós podemos arquitetar nossa hipótese nula como sendo “não há diferença entre as médias dos tratamentos” e hipótese alternativa como sendo “pelo menos a média de um dos tratamentos se difere dos demais”. Então vamos pensar um pouquinho que que poderia acontecer num momento em que nós estamos fazendo nosso teste de hipóteses.
Nós poderíamos tomar a decisão de rejeitar H0 ou de não rejeitar H0, por outro lado, na realidade, a nossa hipótese nula poderia ser verdadeira ou nossa hipótese nula poderia ser falsa. Se nós rejeitamos uma hipótese nula sendo ela verdadeira, nós estamos cometendo um erro, que nós chamamos de erro do tipo 1, e simbolizamos isso por alpha que seria um nível de significância, por outro lado, se nós não rejeitamos o H0 e esse H0 é falso, nós também estaremos cometendo erro, sendo esse erro denominado de erro do tipo 2, o qual é simbolizado pela letra grega beta. É importante nós apresentarmos que o erro tipo 1 é o erro mais perigoso que existe, pois o erro do tipo 1 ele tem como consequência a mudança de um sistema produtivo de uma forma desnecessário, por exemplo, vamos imaginar então que nós temos um sistema produtivo onde nós temos em uma fazenda uma variedade X de cana que é plantada em toda sua extensão, e aí nós então avaliamos uma outra variedade Y em uma pesquisa para saber se essa variedade Y é melhor do que a variedade X.
Então, nós estaríamos fazendo uma análise estatística e vamos imaginar que essas duas variedades seriam iguais, não existia diferença nenhuma de produtividade entre a variedade X e a variedade Y, porém, a gente cometeu o erro do tipo 1 ao fazer isso, nós então diríamos ao dono da fazenda que a variedade de cana Y é diferente da variedade X, sendo que na verdade não é, e obrigaria ele a mudar todo o sistema produtivo dele, numa situação dessas, esse produtor então teria um prejuízo muito grande, já que ele teria que investir muito para mudar todo o sistema produtivo e não teria no nenhum com isso. Então vamos pensar então segunda possibilidade dessa nossa fazenda ter em toda sua extensão uma variedade X de cana, e aí nós conduziríamos então uma pesquisa afim de verificar se a variedade Y é igual ou diferente. Vamos imaginar que a variedade Y é melhor do que a variedade X, e nós então diríamos para o produtor que essas duas variedades são iguais, ou seja, cometesse então erro do tipo 2, numa situação como essa o produtor ele não iria mudar todo o sistema produtivo, então ele poderia deixar de ter lucro, mas não teria prejuízo, então se a gente for pensar por esse lado então, nós conseguimos ver com o erro do tipo 1 é muito mais perigoso do que erro do tipo 2, toda mudança de sistema produtivo de uma forma desnecessária traz apenas prejuízo.
Então nós temos o valor de F calculado, que é dado por quadrado médio do tratamento sobre quadrado médio do resíduo, e para nós fazermos nosso teste de hipóteses podemos obter então o valor de F tabelado, nós vamos considerar um nível de significância, número de graus de liberdade associado ao numerador e o número de graus de liberdade associado ao denominador. Esse nível de significância então, geralmente a gente o utiliza como sendo um nível de significância de 5%, isso quando a gente considera o nível de significância de 5%, então nós, como pesquisadores, estamos nos submetendo a cometer o erro do tipo 1 a uma probabilidade de no máximo 5%, por outro lado, nós não utilizamos o valor de alfa muito pequeno porque se o nosso nível de significância for muito baixo nosso erro do tipo 2 tenderá a ser muito alto, então 5% é um valor que contrabalanceia bastante essa balança. O valor de F tabelado então, ele vai nos separar uma região a partir da qual nós vamos ter uma área de 5%, se nós utilizarmos um nível de significância de 5%, essa região aqui então seria uma região que nós chamaríamos de região de rejeição da hipótese nula e essa outra região uma região que nós chamaríamos então de região de não rejeição da hipótese nula.
Neste caso então, se o nosso valor de F calculado obtido na nossa pesquisa for maior que o valor de F tabelado nós rejeitamos H0, caso contrário, nós então não rejeitaríamos H0 e consideraríamos então nosso tratamento com o sendo igual. Então nós temos aqui a tabela do teste F onde nós consideraríamos então aqui na coluna o número de grau de liberdade associado ao numerador e aqui nas linhas o número de graus de liberdade associado ao denominador, então esses valores tabelados eles vão variar de acordo com esses números de graus de liberdade pois essa é uma propriedade da distribuição F, como vocês podem ver que nessa figura, de acordo com o número de graus de liberdade que se tem no numerador ou no denominador, nós teremos uma distribuição F em um formato diferente, sendo que quando nós tivermos um número de grau de liberdade muito grande, como nesse último caso aqui representado por essa linha cinza, nós conseguimos ver que a distribuição F vai se convergir à distribuição normal, então, se o nosso valor de F calculado for maior que o valor de F tabelado, como já foi dito, a gente rejeita a hipótese nula.