Aula 4 - Modelos de machine learning; pré-processamento de variáveis preditoras

22.72k views3474 WordsCopy TextShare
Canal USP
Esta é a quarta das nove aulas do curso " Inteligência Artificial em saúde: o uso de machine learnin...
Video Transcript:
bem vindos a mais uma aula do curso de aplicações de inteligência policial na área da saúde com foco em marcha e lane vamos falar agora sobre os quatro principais tipos de algoritmos de mach lane em primeiro lugar é aquele que a gente vai ver ao longo desse curso táxi um algoritmo de aprendizado supervisionado é o que seus algoritmos seu quando os dados utilizados para treinar o algoritmo incluem a solução desejada o rótulo ou lembo seja incluem a resposta certa vocês imaginem analisando esse gráfico é você tem duas variáveis x 1 x 2 daí você quer
identificar o chinesinho que há por exemplo câncer então que o algoritmo iria iria concluir neste caso que quanto maior o x1 e maior x 2 maior a probabilidade de câncer tst resposta certa que quer dizer que nesse caso é ter câncer não ter câncer é o ter câncer de cinco anos e não ter câncer de cinco anos então existe uma resposta certa que você quer pra dizer no caso de algoritmos não supervisionados você já não têm esse rótulo você já não têm esse lebu tá então o algoritmo aprendi a estrutura dos dados os padrões nos
dados sem ter uma resposta certa então normalmente de duas formas com dois objetivos ou redução dimensão e diminuir o número da quantidade de seus dados que está analisando ou análise de clusters ou seja procurar agrupamento nos dados imagine por exemplo você tem uma mostra de pacientes com doença cardiovascular você quer identificar clusters de pacientes ou seja grupos de pacientes parecidos que têm doença cardiovascular então que tal algoritmo vai provavelmente acabar encontrando ao grupo das pessoas que têm doença genética cardiovascular ao grupo das pessoas obesas sedentárias ao grupo das pessoas idosas tá com o objetivo de
você testar intervenções parecidas para grupos parecidos têm versões diferentes para cada um desses desses grupos em terceiro lugar o aprendizado ser supervisionado que é bastante utilizado por exemplo identificação de fotos em redes sociais então o algoritmo começa com um algoritmo não supervisionado você identifica que essas fotos tenham a mesma pessoa ele agrupa essa pessoa sem saber que ela é seja não supervisionado ela encontrou fotos com pessoas parecidas e você simplesmente dar o rótulo de uma delas ou duas dessas fotos ele identifica você então desse grupo então ele junta técnicas não subordinadas de técnicas supervisionados está
em quarto lugar o aprendizado que o reforço está aqui é um tipo dia de algoritmo que tem dado resultados bastante sobre o surpreendente nos últimos anos principalmente aquela resultado recente é que acho que muitas pessoas acompanharam que o algoritmo ganhou do campeão mundial de go aqui é um jogo super complexo conhecido na na ásia bastante jogado na ásia que é super complexo e que muito se falava há dez anos atrás que a gente vai conseguir começar a falar em inteligência artificial de fato quando o algoritmo ganhar do campeão mundial de golfe taekwondo e xadrez jogo
super simples né então os algoritmos grande humanos há muito muito tempo tá e gol é um jogo muito mais complexo que ganhou na recentemente do campeão mundial e fizeram um documentário que está no netflix sobre essa vitória o documentário muito interessante recomenda todos assistirem que é o marco não só deteriam especial mas provavelmente na história da humanidade então assistem e se esse documentário se não gostar bastante então agora daqui pra frente vamos focar em algoritmos supervisionados né para a edição não seja pra dizer uma resposta certa são divididos em dois grandes grupos em algoritmos de
classificação quando atua variáveis e acredita é qualitativa por exemplo essa pessoa vai morrer cinco anos senão essa pessoa vai ter câncer e cinco anos o senhor não qual causa básica essa pessoa vai morrer quando ela morrer então pode ser duas categorias ou várias categorias e algoritmos de regressão quando atua variável se acredita é uma variável quantitativa por exemplo há quantos meses de vida a pessoa tem pela frente qual será o cmc no próximo ano qual é sobre m certo então o número a quantitativa o resultado quantitativo o interessante é que a maioria dos algoritmos de
mach lane podem ser usados nos dois casos você só usa a função de perda é que a gente vai ver então antes de seguir quero voltar porque essa questão diferença edição a diferença entre referência e produção está em produção já está interessado em performance positiva enquanto inferência o interesse é entender a relação entre as variáveis entender por exemplo de se fumar associado ao câncer de pulmão vai ser um problema clássico de diferença por onde proibição seria será que seu joão que vai chegar uma consultória manhã com as características dele vai ter câncer de pulmão enquanto
seu problema de produção qual é o problema não é você consegue fazer predição com algoritmos diferença em geral como estive no caso da regressão linear da regressão logística o problema é que essas condições não são boas ea gente testa eles a gente vai ver que a gente testa é um dos algoritmos que a gente testa para apreensão regressão linear regressão logística mas em geral estão entre os piores as piores performances positivas porque eles são relativamente simples não consegue modelar a complexidade dos fatores a interação dos fatores que levam ao desenvolvimento de problemas de saúde então
você tem que antes começar com mochilas tem que refletir bem o teu problema que está tentando resolver um problema de diferença ou por meio de petição problemas diferentes alguma coisa não substitui a outra já existe uma tentativa de meio termo mas é bastante crítico a gente vai falar um pouco sobre isso é bastante crítico nessa tentativa de de meio-termo por enquanto tem levado a interpretações muito erradas a gente precisa ter muito cuidado de usar westland para interpretação qual é o objetivo de machine é desenvolver algoritmos que façam boas condições de saúde quais são os principais
motivos pelos quais às vezes os algoritmos não apresenta uma boa profissão meu lugar pré processamento adequado os dados uma hora que a gente vai ver bastante a nas próximas aulas segundo lugar validação inadequados algoritmos ou seja você não toma decisões certas sobre qual o melhor algoritmo e quais os melhores e preparamos é uma coisa que a gente vai ganhar bastante ao longo do curso extrapolassem adequada acontece quando você treina o algoritmo uma população e testa ele uma população totalmente diferente ea questão sobre a justiça que é grande desafio the machine que é uma que é
um problema que a gente vai ver bastante também vamos começar com pré processamento dos dados então eu cheguei a mencionar a outra aula que machine à vontade aqui algumas pessoas que não são da área pensam não é jogar tudo no algoritmo algoritmo civil você pode fazer isso a prevenção é muito ruim você tem que realizar o pré processamento dessas variáveis porque porque a presença de alte liars com relações aleatórias erros de medida podem prejudicar a performance criativa dos modelos e essa é a grande chave para processamento é a grande chave para a boa performance positiva
tá é onde as competições no cargo para quem não conhece o cargo é o site competições de predição onde empresas lançam desafios e dão prêmios em dinheiro prêmios às vezes bastante altos é por exemplo será que vocês conseguem melhorar a performance positiva do algoritmo do netflix por exemplo uma competição de fato aconteceu eu não quero que pagou um milhão de dólares tal então existem várias dessas competições e o mais interessante pra gente ache lane é que depois os vencedores dão entrevistas para o site dando a entender que eles fizeram para ter uma boa posição para
a produção e na grande maioria dos casos a chave é o pré processamento dos dados o quê com você trata as variáveis antes de jogá-los no modelo daí porque isso que os algoritmos em geral que ganham são em geral uma combinação do ex e bucha que é algo que a gente vai ver com o de plano e também ao ritmo que a gente vai ver já em geral eles usam alguma combinação desses dois as grandes mudanças em geral vem no processamento dos dados tem várias técnicas para processamento dos dados que a gente vai ver então
seleção das variáveis problema de vazamento dos dados a padronização redução dimensão questão da colina idade que são os valores missing e uma derrota em couro última coisa que a gente vai então olha o tamanho de decisões que têm que tomar antes de você inserir os dados no algoritmo existe algumas tentativas hoje de automatizar machine learning então tornar esse processo mais automático mas mesmo assim sinto mais lições que muitos deles não têm uma decisão certa se você for testar todas as opções têm algo a gente vai rodar por urbanos é e não estou exagerando por antes
em primeiro lugar seleção de variáveis é importante você não inserir todas as variáveis no modelo porque às vezes se pode ter alguma associação aleatória que o algoritmo pega como sendo importante então só deve incluir a associações plausíveis variáveis que cocô algum nível de de possibilidade de probabilidade pode afetar o seu desfecho então eu não seria por exemplo variáveis que não tem nada a ver eu imaginei que você está tentando predizer hipertensão no próximo ano e você tem informação sobre o número de camisetas amarelas que essa pessoa tem em casa e qual seria o problema de
ser essa informação então imagina que são poucas pessoas que têm cinco camisetas amarelas e por alguma coincidência a 5 não tiver hipertensão no ano seguinte então o algoritmo pode achar que essa variável é super importante quando na verdade é uma coincidência porque quer um pouco os dados e algoritmos acaba modelando essa variável como sendo muito importante como uma é uma associação espúria é uma coincidência como uma variável crítica muito importante então essa idéia é evitar que os algoritmos de muita importância para variações aleatórias ou alguns erros de medida então só colocar as variáveis que vocês
acham que têm alguma chance de afetar o seu desfecho em segundo lugar o vazamento de dados é preciso ter muito cuidado com essa medida dados em inglês a gente chama de deitar liquide é o que o que é uma das medidas acontece com os dados de treino apresenta alguma informação escondida ou alguma das suas variáveis para editoras apresentar informação escondida que faz com que o seu modelo a pagar a prenda padrões que não são do seu interesse em geral é como uma variável preditor até escondida dentro dela o resultado certo a predição correto então essa
variável está escondida ela tem dentro da escondida o resultado certo que você não quer modelar o exemplo mais comum é a utilização do número identificador do paciente competitivo então imagine o caso que está tentando para dizer câncer no estudo multicêntrico seja se tem dados de vários hospitais pacientes no mesmo hospital vão ter números parecidos se imagina lista do número de pacientes em geral pacientes no hospital voltar logo na seqüência do outro e voltei números parecidos então imagine que alguns dados desses são de hospitais de câncer tão logo isso vai aprender que não é que pessoas
com esse número de identificação próximo tem câncer é o resultado pra você não interessa nada que ele não aprendeu nada de importante o futuro para generalizar no futuro vai ter que ser considerado é chamado de vazamento de dados isso é uma das grandes razões pelas quais algoritmo de mach lane para ser abertos então muitas empresas hoje estão vendendo algoritmos the machine que são esses mesmos que a gente vai assinar aqui no curso passou exatamente esse mas ele se fecha dão nome às vezes o nome de pessoa até e vender isso a empresa sem falar o
que está lá dentro é o que está lá dentro isso algoritmos mesmo mas não fala que está lá dentro então às vezes ele pode estar encontrando coisas espúrias fatores spudis vazamento de dados que uma coisa que qualquer profissional de saúde dedicaria a hora então é por isso que é importante na área de machi lane a gente divulgar o nosso código fonte e deixa aberto os nossos algoritmos que é uma coisa que a gente faz no nosso laboratório uma outra técnica é importante é a padronização dos dados está porque a gente precisa padronizar as variáveis antes
as variáveis quantitativas variáveis contínuas antes é porque presença de variáveis com alta escala pode afetar adversamente os algoritmos então que meu lugar alguns algoritimos darão muita preferência pra variáveis em uma escala muito grande pelo que variam de 1 a 1 milhão por exemplo por que porque o erro vai ser bastante gostoso você raça variável e termos de qualidade e de produção que lhe vai dando peso as variáveis né variados alguns algoritimos tem esse problema com essas escalas e também a questão de tempo né a escalas grandes levam mais tempo para o ritmo chegar ao resultado
final então o que a gente faz a gente padroniza que na área de estatística tradicional a gente costuma chamar como scott z está o que a gente faz então cada novo valor vai ser o seu valor original dessa variável - a média dessa variável dividido pelo desvio padrão nessa variável ea gente vai ter um novo valor para cada uma dessas variáveis contínuas nesse novo valor padronizado que vai ter média 0 e desvio padrão de um pra todas as variáveis ainda vai ter uma variabilidade mas a média desvio padrão os seus mesmo você puxa todo mundo
por uma mesma escala de valores outra questão redução dimensão então quanto maior a dimensão dos dados seja quanto mais variáveis você tem maior risco sobre ajuste do modelo então por mais que você tenha variáveis que você acha importante que são muito parecidas alguns algoritimos não lidam bem com essa questão de variáveis relacionadas ou muitas variáveis então o que a gente faz a gente geral os anais de componentes principais é para agrupar algumas variáveis principalmente variáveis parecidas já é considerado um tipo de modelo de mach lane a gente imagina que considera o tipo de modelo de
martinho lane apesar de vida estatística tradicional tipo de modelo não supervisionado se você está reduzindo a dimensão se está a diminuindo resumindo as suas variáveis número menor de variáveis o objetivo é encontrar combinações lineares as variáveis preditores que incluam a maior quantidade possível da variância original aí o primeiro então vai ter vários componentes principais têm que decidir quantos né então você tinha 800 variáveis por exemplo você diminui em oito componentes principais 9 alguma coisa assim seja tem que tomar essa decisão sobre quantas novas variáveis e vai criar o primeiro componente principal irá preservar uma combinação
linear possível dos dados está o segundo maior combinação possível dos dados não correlacionada com o primeiro componente e por aí vai aí você não vai ter novas novos novas variáveis para inserir os modelos que fez 16 entre as variáveis originais outro problema com relação ao alto é um dos motivos pelos quais componentes principais funcionam tão bem nas praias na prática já em geral no nosso laboratório a gente usa componentes principais variáveis contínuas principalmente aquelas muito parecidas uma das motivações que funciona tão bem é porque cria componentes cria novas variáveis não com relacionadas entre elas daí
a gente vê que na prática alguns algoritimos lidam melhor com as variáveis não tem alta correlação entre elas tá e torna o modelo menos instável porque contei variava muito relacionada às vezes ele usa uma variável e tira outra né e se mudar um pouco o resultado ele faz o oposto tá então torna um pouco instável esse modelo além do das componentes principais outra forma de diminuir a dimensão é sculli variável então há variáveis cozinhar estavam há muito têm perdido aí aumenta a instabilidade dos modelos então você faz alguma regra é de de correlação por exemplo
correlação entre duas variáveis 0.75 ou acima de 0.9 você tira essas variáveis e tira uma delas ano tem um modelo até chegar a um valor aceitável de correlação entre as variáveis variáveis missing outra outra coisa que a gente precisa pensar antes de colidir jogar os estados no modelo tão variável míssil é quando alguns valores da variável dessa variável estão faltantes você não tem essa informação taesa que só vai ser interessante machine está a e e e se você entender porque é bastante interessante mas gilani importante machine e problemática referência você vai acho que você já
está começando a entender a diferença diferença e predição porque a inferência você quer ver a associação entre uma variável eo desfecho tem valor mísseis têm um problema que se não consegues e perde essa informação desses dois desses dois fatores em predição variável liceo valor missing pode ter informação preditiva então imagina que está analisando há risco de a pessoa ter algum distúrbio cognitivo no próximo ano daí essa pessoa não está a conseguir responder a perguntas você está tendo valores missing aqui algum teste cognitivo a uma pergunta sobre o passado dela que ela simplesmente falou não sei
o que a gente faz na prática nem variáveis categórica a gente cria uma nova categoria míssil para essa variável e isso pode trazer informação preditiva tal fato essa pessoa não consegue responder essa pergunta pode levar há uma melhor prevenção de problemas cognitivos no futuro por exemplo a mesma coisa para a mobilidade motor mobilidade funcional e 60 então se tiver se foi devido a um problema sistemático e sims em este traz informação positiva enquanto na na questão da referência normalmente é um problema teme-se não exclui essa observação dos 22 análises em pressão às vezes a gente
até gosta de ter alguns me se porque pode ter alguma informação competitiva e também me sim é interessante machiline você pode usar uma chicane para imputar esses valores dessa força interesse você consegue predizer então imagina que não conseguiu coletar essa variável dessa pessoa por um motivo aleatório você consegue predizer criar um modelo de mach lane para predizer qual deve ser o resultado dessa dessa variável para essa pessoa fundadas característica pessoa qual deveria ser o presente o mc max e não conseguiu por algum motivo apesar m de altura dessa pessoa consegue predizer o mc então como
ashtiani a imputar esses dados se você quiser fazer muitas importações ao mesmo tempo uma solução é ossca a vizinhos mais próximos porque você consegue executar todas as variáveis ao mesmo tempo você ganha bastante tempo e ver se tem que fazer um modelo preditivo para cada variável que você teme se para terminar a questão do rock em kolding tac alguns algoritimos têm dificuldade em entender variáveis que têm mais de uma categoria por mais que você informe que essa variável é qualitativa então por exemplo a estado civil você pode codificar estado civil por exemplo 10 solteiro casado
dois divorciados 3 mil você pode informar o teu o tua linguagem que se trata de de variáveis qualitativas mas mesmo assim alguns algoritimos tem problema eles acabam interpretando elas como uma variável contínuo o que leva uma série de problemas então que a gente geral faz ea gente sempre faz isso também mexe lane a gente faz um ano rota em kolding a gente transforma cada categoria na sua própria variável é a variável solteiros que vai ser zero para todo mundo que não é eo as pessoas que são solteiros aí você vai ter variável casados que vai
ser zero para todo mundo que não é e outra variável que a casa mesmo pra divorciado mesmo para viu e chamou a rota em coaching ajuda bastante e alguns algoritimos vezes eles perdem um pouco a cabeça alguns algoritimos quando a você incluir variável a categórica como o número a mesma informando que se trata de uma de uma variável categórico qual é o projecto rota em codenm é um problema principalmente nas agressões na regressão linear hoje você aonde você que se você tiver ter certo a matriz não fique reversível se não conseguem ver tema matriz o
que não te leva o resultado final né com sucos mandar muitos problemas em quando você tem que ter certo numa numa regressão aí nesse caso a gente usa danos é que você cria ele - uma variáveis então você deixa uma variável como referência normalmente é a variável mais prevalente nos seus dados da e deixa como referência uma categoria para cada uma das outras é assim as duas seleções funcionam bem [Música]
Copyright © 2025. Made with ♥ in London by YTScribe.com