Olá Então vamos agora paraa nossa 13ª aula prática que é uma aula prática sobre regressão logística binária a regressão logística tem um raciocínio semelhante ao da regressão linear que é o de tentar encaixar um modelo matemático aos seus dados a diferença entre a regressão logística e a regressão linear é que na linear a variável que nós queremos prever a variável dependente é contínua enquanto que na regressão logística essa variável é categórica e Mais especificamente na regressão logística binária que é o tema desse vídeo a variável que nós queremos prever é uma variável categórica dicotômica ou
seja com apenas duas categorias para isso nós vamos usar esse banco de dados que é o banco de dados 13 que contém informações de 70 indivíduos fumantes e não fumantes Além disso inclui o nível de stress desses indivíduos e o desenvolvimento ou não de câncer de mão e o que a gente quer verificar é se o hábito de fumar e o nível de estress desses indivíduos prevem o desenvolvimento de câncer de pulmão e nós vamos treinar também como descrever esses resultados de forma adequada abrindo aqui o spss nós teremos um banco com as variáveis stress
uma variável contínua hábito de fumar uma variável categórica dicotômica e câncer uma variável também dicotômica e eu quero usar as variáveis estress e hábito de fumar para criar um modelo que me permita prever o desenvolvimento de câncer de pulmão a regressão logística tem uma vantagem com relação à regressão linear que é ela tem muito menos pré-requisitos por exemplo normalidade não é um pré-requisito para regressão logística ela vai ter basicamente três pré-requisitos importantes um deles é que não exista multicolinearidade ou seja as variáveis Independentes não podem apresentar uma alta correlação entre si Então nesse caso eu
não posso ter uma autocorrelação entre stress e hábito de fumar e um outro pré-requisito é que não existam alers no meu modelo porque alers podem influenciar a equação que vai ser gerada no final Além disso é importante que para executar uma regressão seja linear ou logística a gente tem um n razoável um n mínimo adequado existem pessoas que sugerem um n de 10 por variável independente e existem pessoas que sugerem um n mínimo de 50 por variável independente eh Além disso é importante que dentro de cada categoria das suas variáveis Independentes categóricas você tenha o
mínimo de cinco casos nesse caso aqui eu tenho 70 indivíduos eu vou considerar que eu atendi a esse pré-requisito do n então eu vou testar tanto a multicolinearidade quanto a presença de outliers ao longo do teste para testar a multicolinearidade a gente precisa fazer isso pela janela da regressão linear não é possível fazer esse teste na janela da regressão logística então Antes de tudo eu vou testar a multicolinearidade para testar essa multicolinearidade eu vou vir em analisar regressão linear e vou montar o modelo como se fosse já o meu modelo da regressão logística colocando câncer
como a variável dependente e estress e hábito de fumar como variáveis Independentes então eu vou clicar aqui em estatísticas e vou selecionar diagnósticos de colinearidade e vou clicar em continuar Ok Isso vai abrir essa janela com várias informações que são tabelas da regressão linear e nenhuma delas me interessa a única informação que me interessa está nessa Tab coefficients aqui do lado direito que é a parte da estatística da colinearidade Então os valores de de tolerância e de vif são os que me interessam para decidir se os meus dados atenderam ou não ao pré-requisito de não
apresentar multicolinearidade para que não exista multicolinearidade os valores de tolerância devem ser maiores que 0,1 e os valores de vif devem devem ser menores que 10 Então nesse caso vejam que a gente atendeu de fato ao pré-requisito de ausência de multicolinearidade uma vez que os meus valores de tolerância são maiores que 01 e de vif São menores que 10 então ok sabendo disso eu posso de fato montar a minha regressão logística para isso eu vou clicar em analisar regressão e vou selecionar aqui logística binária Lembrando que nesse caso a gente tá usando logística binária porque
a variável dependente é uma variável dicotômica só tem duas categorias Então nós vamos montar aqui a regressão logística a minha variável dependente éo desenvolvimento de câncer então eu vou transferir essa variável paraa caixa do dependente E como covariáveis eu vou colocar aqui as variáveis Independentes dos meus fatores que são stress e hábito de fumar é possível ainda inserir aqui uma interação entre esses fatores para isso eu deveria selecionar os dois e clicar nesse botão aqui asterisco B vejam que isso adiciona ao modelo um fator interação no entanto adicionar um fator interação vai tornando o modelo
cada vez mais complexo então eu tenho mais um estimador mais um coeficiente então adicionar um fator interação ao modelo é algo que você só deve fazer quando existir uma razão teórica muito forte para isso então no meu caso eu não vou adicionar esse fator interação como a gente conversou em aula existem vários várias formas de montar o seu modelo eu posso usar esse método inserir que vai inserir Obrigatoriamente essas duas variáveis Independentes no modelo não importando se elas são relevantes ou não eu posso optar pelo método hierárquico Ou seja eu defino que uma das variáveis
vai entrar antes e a outra variável vai entrar depois ou eu ainda posso usar um método matemático mudando aqui para os métodos matemáticos também chamados de métodos stepwise porque nesses métodos as variáveis Independentes são adicionadas por passos que são o método avançar e retroceder vejam que o spss fornece três opções para o método avançar e três opções para método retroceder basicamente a diferença entre essas opções é qual é o critério matemático que ele usa para escolher a ordem de entrada das variáveis no modelo eh recomenda-se que seja usado esse método RP que é o método
no qual ele se baseia na razão de verossimilhança o método old não é muito recomendável porque Ele comete erros do tipo dois quando o seu coeficiente é muito grande então a gente poderia escolher o método avançar que vai que parte de um modelo sem nenhum sem nenhuma variável independente e vai adicionando uma uma eh até chegar no no modelo final ou a gente poderia escolher o método retroceder que parte de um modelo com todas as variáveis e vai excluindo uma a uma até chegar no modelo ideal no No meu caso eu vou escolher fazer uma
regressão hierárquica porque eu já sei que o hábito de fumar interfere na probabilidade de se ter câncer de pulmão e o stress é algo que eu ainda não sei se interfere Então eu vou deixar eu vou fazer uma regressão hierárquica sendo que eu vou pedir pro spss adicionar montar primeiro um modelo com hábito de fumar e depois adicionar o estress como a gente faz isso então para isso eu vou tirar a variável stress daqui deixar apenas a variável apto de fumar e aqui ó Onde está bloco eu vou clicar em próximo veja que isso deixou
isso limpo porque ele abriu aqui um bloco dois e no bloco dois eu vou pedir para ele inserir o stress Além disso é importante clicar aqui em categórico e definir se alguma dessas variáveis Independentes é uma variável categórica então para isso eu vou colocar aqui esse hábito de fumar vou vou transferir pra janela da variável categórica esse contraste indicador É de fato mais recomendado nesse caso da regressão e logística E além disso aqui eu posso escolher qual é a categoria que eu quero que ele use como referência isso é importante principalmente para eu calcular a
razão de chances a ods ratio eu V eh eu vou clicar aqui que eu quero que ele use como como categoria de referência a primeira categoria porque a primeira categoria é a mais frequente e nesse caso é o SIM para o hábito de fumar eu quero que ele use isso como referência então eu vou clicar aqui em primeiro e alterar vou clicar em continuar antes de clicar em Ok é necessário selecionar algumas opções aqui na janela opções então é importante pedir aqui o intervalo de confiança pro espb ou seja o intervalo de confiança para Odds
ratio eh Além disso é legal pedir esse diagrama de classificação eu vou mostrar para vocês o porquê é interessante pedir essa qualidade do ajuste de rosmar lames e é importante também clicar aqui e pedir que ele me mostre valores discrepantes que estejam fora do intervalo mais do menos do desvios padrão então isso é importante pra gente identificar se eu atendi aquele segundo pré-requisito que é o da ausência de outliers então vou clicar aqui em continuar Além disso é possível clicar aqui em salvar e pedir para ele adicionar ao meu banco de dados algumas informações por
exemplo eu posso clicar eu posso pedir para ele salvar ao no banco de dados a as probabilidades de cada uma das pessoas ou aqui a o grupo ao qual elas pertenceriam de acordo com esse cálculo Então isso é uma coisa legal Às vezes dá para pedir eu vou deixar então pedido isso vou clicar em continuar e agora sim posso clicar em Ok Lembrando que eu estou aqui fazendo uma regressão logística binária hierárquica porque eu tenho dois blocos um no qual eu inseri o hábito de fumar e um segundo no qual eu inseri o stress