[Música] Olá sou professor Eduardo Santarém e a gente vai dar continuidade à nossa disciplina de introdução à Ciência de dados a gente vai falar sobre preparação e pré-processamento de dados dando continuidade à aula anterior então essa aqui é a parte dois dessa aula bom a gente estava falando de dados né dados com problemas e os dados com ruídos pessoal dados com ruídos são Dados que contêm objetos que aparentemente não pertence à distribuição que gerou os dados analisados ou seja tem algum problema naquele dado ruído pode ser uma variancia um erro aleatório no valor gerado de
um atributo o indicador de presença de ruído é a existência de outliers que são valores que estão além dos limites aceitáveis ou são muito diferentes dos demais n valores observados para o mesmo atributo representando por exemplo exceções raramente vistas por exemplo notas de um aluno que vão de 0 a 10 de repente uma nota 17 lá alguma coisa tá errada né Isso é um ruído aqui dados com ruídos então por exemplo a gente tá olhando aqui né que eu tenho peso com 300 aqui né então quer dizer esse dado com certeza tem alguma informação errada
então quando a gente faz quando a gente olha para esse tipo de informação a gente sabe que tem a presença de uma informação né um dado que é um outlier aqui continuando existe diversas técnicas de pré-processamento que podem ser aplicadas paraa detecção e remoção de ruídos né vocês vão ver lá na seit learner por exemplo que tem lá né e eh técnicas para reduzir para detectar utilares esse tipo de coisa técnicas de encestamento que suavizam o valor de um atributo né então Eh primeira primeiro os valores são ordenados depois são divididos em faixas e esses
valores são substituídos por uma média ou mediana Esse é um é uma técnica técnicas de agrupamento por exemplo em que valores é que não formarem grup grupos são considerados ruidosos ou outliers técnicas de regressão ou classificação que procuram determinar um valor verdadeiro para um outlier né então tentar fazer com que aquele out cingula dentro de um outro grupo Bom agora vamos falar sobre transformação de dados várias técnicas de machine learning estão limitadas à manipulação de Valores em determinados tipos alguns algoritmos estão restritos a valores numéricos outros valores qualitativos eu falei para vocês né que alguns
algoritmos trabalham especificamente com tipo de dado esse tem que transformar esse dado para poder atender a necessidade daquele algoritmo específico em várias situações dependendo do modelo de machine learning a ser utilizado Vai ser necessário converter esses dados qualitativos e numéricos ou vice-versa também há de se pensar que valores qualitativos nominais ou ordinais né podem ser tratados de forma diferente Exemplo né redes neurais artificiais e suporte Vector machines que são dois tipos de algoritmos de machine learning lidam apenas com valores numéricos portanto quando um conjunto de dados a ser utilizado por essas técnicas apresenta atributos qualitativos
né os valores precisam ser convertidos para numéricos então isso aqui é um caso que acontece muito nos algoritmos de machine learning as situações em que é necessária a transformação de valor numérico em outro valor numérico por exemplo isso acontece quando os limites inferior e superior de determinados atributos são muito diferentes O que leva a um grande Há uma grande variação de valores ou ainda quando vários atributos estão em escalas diferentes muitas vezes vai precisar eh organ eh melhorar o processo dentro de uma determinada escala né para não ficar muito discrepante entre outros atributos ou então
dentro de um contexto de análise essa transformação é realizada para evitar que um atributo predomine sobre o outro senão a gente vai ter vai ter muito Impacto para um atributo e pouco para outro normalização por amplitude né redefinindo uma nova escala de valores com limite máximo e e mínimo e por padronização né com definição de valor C e um valor de espelhamento para todos os atributos também são utilizados para normalizar dados numéricos então muitas vezes você tem lá um um conjunto de dados você determina uma escala e redistribui esses valores dentro de uma determinada escala
fechada de valores por quê para evitar né as discrepâncias redução da dimensionalidade dimensionalidade é o tamanho horizontal né a quantidade a dimensão a quantidade de atributos que você tem né dentro de um uma uma tabela um conjunto de dados né Ou seja a quantidade de atributos que um determinado objeto tem em análise de imagens por exemplo né Cada Pixel representa um atributo Ou seja você tem uma uma imagem de 24 por 1024 imagina quantos atributos você vai ter né nos estudos de genético os dados dos genes por exemplo apresentam milhares de atributos Então são é
uma dimensionalidade muito grande você vai ter que trabalhar para reduzir isso não sua análise você não consegue um algoritmo consegue processar isso né ou consegue uma máquina que consegue processar isso em muitos algoritmos grandes quantidades de atributo inviabilizam o processo a redução de atributos melhora o desempenho reduz seu custo operacional e torna os resultados mais compreensíveis principalmente reduzir o custo operacional duas técnicas bastante utilizadas para redução de atributos são agregação e seleção de atributos as técnicas de agregação né Elas vão substituir atributos originais por novos atributos formados pela combinação de grupos Então essas técnicas elas
eh você junta atributos né para transformar num atributo só as técnicas de seleção mantém uma parte dos atributos originais descartam outros atributos tá uma maneira de fazer também destaca--se novamente que mesmo com a evolução computacional e toda a tecnologia que amplia o processamento né usando distribuição de processo aumentando a escala horizontal de forma ampliar o desempenho dos algoritmos manter atributos desnecessários e um conjunto de dados pode levar seu modelo a um custo de desempenho que seja impossível de prosseguir com análise tá os equipamentos não vão conseguir processal vai ficar muito caro para fazer isso redução
da dimensão quando eu vou usar agregação por exemplo reduza a dimensão por combinação de atributos né uma das técnicas mais conhecidas pessoal é da análise de componentes principais né o PCA né o PCA né algoritmos de machine learning que se reproduzem o PCA entretanto os grandes mestres do machine learning né sempre dizem que essa não deveria ser uma técnica para reduzir a dimensionalidade mas muita gente usa usa esse algoritmo para conseguir reduzir a quantidade de atributos fazer a agregação o p o PCA des correlaciona estatisticamente os exemplos né reduzindo a dimensionalidade do conjunto de dados
original pela eliminação das redundâncias algumas áreas como biologia Finanças medicina entre outras por exemplo evitam agregar atributos pois consideram os dados originais importantes para os processo de interpretação dos resultados diz que se você agregar atributos pode ter algum processo que vai mudar o resultado is analisado dentro de cada processo redução da dimensionalidade por s né reduza a dimensão eliminando atributos não é simples identificar atributos que podem ser eliminados Principalmente quando há uma grande quantidade de valores relações complexas em atributos torna tudo muito mais difícil né algumas técnicas automáticas tem sido estudada para avaliar né a
a qualidade ou o desempenho de um subconjunto de atributos entre elas a abordagem embutida abordagem baseada em filtro e a wrapper Então você vai fazer a seleção de atributos né Por forma de de um filtro ou então é por forma de um árbitro ou então por forma embutida nesses casos pessoal a gente vai usar técnicas tá para tentar eh selecionar quais atributos são importantes você vai rodar os processos para tentar achar a maneira de fazer por meio de demonstração né eu vou apresentar algumas soluções para pré-processamento de dados então é importante ressaltar que ainda há
um conjunto de possibilidades e necessidades que os dados podem ter para estarem aptos para serem enviados paraa aplicação dos modelos de machine learning mesmo do ponto de vista teórico pessoal né apresentamos os principais e mais conhecidos né necessidades de pré-processamento mas há muitas outras que vocês vão encontrar no seus conjuntos de dados Então a gente vai utilizar o pandas para algumas demonstrações mas há muitas outras possibilidades e ferramentas inclusive outras ferramentas que vão além do Python então eu vou fazer uma demonstração para vocês em relação a isso prestem atenção porque na verdade o meu objetivo
não é é é aprimorar isso mas é mostrar possibilidades para vocês do que a gente pode fazer tá joi vamos lá então bom Chegamos aqui na parte de então de demonstração do pré-processamento Lembrando que esse Júpiter notebook fica esse notebook fica disponível para vocês darem download né poder testar entender compreender exatamente como é que vai funcionar vou começar aqui importando a minha biblioteca pandas né então porque eu vou usar ela já vou usar ela para importar aqueles dados que a gente tá acostumado a fazer já né que são os dados eh eh da daquela da
do torneio de tênis e aí feito isso já importei aqui ó no meu no meu pd né no meu meu dataframe vamos dar uma olhada isso aqui é a primeira coisa que eu faço né dá um dados ponre pegar os cinco primeiros registros e começar a dar uma olhada que tipo de informação eu tenho aqui então por exemplo eu sei que aqui é uma data mas olha como é que ela tá aqui ó eu sei que aqui eu tenho um valores que estão nulos aqui ó eu sei que eu tenho valores que são textos né
são dados categ são são Dados textuais n aqui eu tenho que dados categóricos que aqui por exemplo eu sei que o Winner Hand a mão do V edor então a mão direita por exemplo né então aqui o Winner é uma abreviatura do nome do país então percebam que numa primeira análise né eu começo a olhar para esses dados aí eu vou dar uma olhada nesse info aqui ó que vai me dizer o quê eu vou ter informação dos tipos então para cada coluna né ele vai me dizer que tipo de objeto que é Alguns são
inteiros outros são objetos que é o tipo do Python mesmo né outros são floats então a gente já começa a perceber né começa a olhar e identificar que tipo TIP de objetos que eu tenho aqui outra coisa é fazer um describe eu gosto de usar esse include All aqui né para fazer o describe em todos os os os atributos senão ele não faz só faz uns numéricos mas eu quero fazer em todos aqui vão perceber a diferença Por exemplo quando eu tenho um atributo numérico né quando eu tenho um atributo que eu tenho valor eh
o tratamento é um pouco diferente eh então por exemplo aqui ele falou sobre draw size né que é o tamanho do torneio certo então ele vai pegar aqui por exemplo primeira é contar quantos registros eu tenho então eu sei que essa tabela tem 2225 registros aí vai falar o seguinte ó aqui como é numérico aqui não faz muito sentido né porque mas ele fala aqui que a média por exemplo né a a a média que eu tenho é de 66 participantes por torneio o tamanho da minha chave né Eh a O desvio padrão ia falar
que o mínimo normalmente torneio com 12 pessoas né com o máximo 128 e 50% aqui aquela distribuição que eu tenho né dos quars 25 50 0% e os valores máximo e mínimo ele vai apresentar aqui nesse conjunto de dados Esse describe é muito legal porque me dá uma ideia do que eu tenho agora por exemplo eu vou quero pegar dados aqui ó que são categóricos então por exemplo eu vou pegar aqui ó Winner ioc eu tenho Quando eu olho para esses valores aqui né eu sei por exemplo que o valor que eu mais tenho é
eu sei né então eu tenho mais jogadores dos Estados Unidos e aí olhando pro comecinho aqui ó eu tenho valores únicos valores top e a frequência Olha só quando eu olho paraos Estados Unidos aqui eu sei que então eu tenho valores únicos são 49 valores diferentes que eu tenho aqui os Estados Unidos é o que mais tem e ele aparece por 235 vezes das 2225 vezes então é muito legal aqui ó ele fala aqui do perdedor quantidade e a semente do valor tal então eu tenho aqui no describe uma observação sobre cada um dos atributos
que eu posso fazer também com aquela com aquela biblioteca que a gente usou swit vis lá na outra na outra na outra aula eu vou usar aqui o snul olha que legal isso aqui eu quero saber se eu tenho valores nulos aqui ó a maioria é falso e falso e fil mas vou perceber que alguns eu tenho valores nulos que valores nulos é um dos problemas que a gente pode ter né se eu sei que eu tenho valores nul numa primeira olhada eu posso fazer aqui ó verificar nas colunas então eu vou usar um SN
e vou somar vou contar quantos valores eu tenho por coluna olha só essa coluna aqui ó 127 valores nuos ou seja tenho muitos valores nuos nessa coluna né Essa coluna aqui por exemplo né já são colunas que tem poucos valores nuos 70 outras não tem nada sempre os valores estão preenchidos então aqui eu consigo olhar que tem alguns atributos aqui que são problemáticos podem me gerar problemas então é um primeiro olhar para verificar esses valores nulos que eu posso ter ou não se eu vou olhar a coluna Winner ent por exemplo tem muitos valores NS
indica como o vencedor entrou no torneio então quando eu olho para essa coluna Winner entry aqui ó ela tá aqui ó eu sei que eu tenho muitos valores nulos aqui que que será que tem nessa coluna aqui né então é como que o valor Como que o vencedor entrou no no no torneio E aí vamos olhar que que tem nessa coluna Vamos dar um describe nela olha só ela tem 363 valores só são seis valores únicos né sendo que o qualify Né o q de qualify isso aqui para quem conhece T sabe que o q
é qualify né E a frequência 203 vezes é o qualify vai quero olhar um pouquinho mais para essa observação para para essa para essa para esse atributo vou verificar os valores nul os valores únicos que ele tem ele tem muitos valores nulos ele tem qualifying que é quando a pessoa entra direto ele entrou P qualificatório para conseguir entrar né E aí ela tem outras classificações aqui do tênis né que é por exemplo quando reseve um convite ou então quando ele é um e eh eh quando ele perdeu na qualificatória Mas quem ganhou dele não não
conseguiu participar foi convidado então isso aqui é para como que entrou percebam que por que que tem a gente tem muitos valores nulos porque normalmente quem ganha o torneio não entrou por essas maneiras né então entrou pela maneira normal que é simplesmente participar lá do torneio então muitas vezes Quem ganhou vai tá com nulo lá outra coisa eu quero apagar todas as linhas que o atributo Loser rank é nulo porque são poucas ocasiões Isso pode implicar erro nos resultados então eu quero apagar as linas que esse atributo é nulo vamos perceber que lá no user
rank eu tenho lá ó são seis seis por seis vezes tá ele é nulo então se ele é seis vezes só eu vou eliminar essas linhas eu vou acabar com esses nulos Isso é uma uma como não é para você fazer isso eu tô dizendo explicando como é que se faz certo você vai ter que analisar então por exemplo aqui eu faço um dados pon dropna que é para apagar as linhas tá E aí eu vou dizer assim ó quando o subs Loser rank for vazio for nulo Então vou dar um impl TR el vai
fazer automaticamente Então vou apagar as linhas que essa que esse atributo é Zerado tá nulo beleza ele executou tá agora eh eu vou apagar eu vou até mostrar para vocês aqui os dados vamos perceber que ele diminuiu aqui ó 2225 diminuiu para 2219 linhas apagou aquelas linhas agora vou apagar as colunas que todos os valores são nulos tá isso é uma técnica isso não tem eu não tenho isso aqui tá a gente não tem isso no nosso exemplo mas se eu quisesse apagar por exemplo eh todas a a apagar a coluna aqui os valores todos
são nulos eu simplesmente dizer ó drop na eixo eixo um quer dizer colunas quando o valor é vazio né então se todos os valores forem vazios naquela coluna eu vou apagar a coluna aqui aí não vai me retornar nada tá ele vai mostrar o resultado E vai continuar aqui com 2219 com 49 colunas então ele não apagou nenhuma dessas colunas porque ela não tem nenhuma coluna que a gente tem valores só nulos é só um exemplo para vocês saberem como fazer agora eu quero alterar valor eh dos dados nulos em uma coluna então por exemplo
eu tenho lá o Loser entry né Como que o cara que perdeu entrou vamos olhar os valores que eu tenho Olha só eu tenho nulo qualify então enfim eu tenho os valores lá de como de como que os e eh os os perdedores entraram no torneio e eu tenho muitos valores nulos aí eu quero substituir então eu vou pegar o Loser entry vou dar um fio na vai preencher o valor vazio e eu vou colocar o valor x lá ó Ou seja eu vou substituir os nulos que eu tenho por valor x certo e vou
dar um impl true para ele fazer diretamente então ele vai executar isso e na sequência eu vou mandar verificar os valores únicos que tem agora não tem mais o nulo ó ele substitui os nulos por x certo isso aqui é específico para nulo bom alterar mais de um atributo com condições diferentes vamos ver esse w a aqui ó ou seja quantas vezes né O Vencedor fez Ace no jogo então valores únicos que eu tenho tem lá 4 7 6 E aí eu tenho aqui um nã percebam que aqui são valores numéricos e de repente eu
tenho um nã quer dizer o cara não fez isso ou não foi ou não foi lançado o valor tá nulo lá que que eu posso fazer Ah e vamos vamos observar um outro aqui que é a altura dos perdedores altura mesmo do jogador tá vamos ver os valores únicos os valores únicos que a gente tem tem aqui as alturas né em formato americano E aí eu tenho também nulo quer dizer não foi preenchido a altura lá do do do jogador eh olha só eu posso fazer um fio n que é o que eu tinha acabado
de fazer agora a pouco anteriormente tinha feito um fio na aqui ó só que eu quero fazer atribuindo mais de um campo de uma vez Então vou dizer ó valores né então vou pegar o wace e vou preencher com zero então aqui o wace esse valor novo vou preencher com zero e aqui eu vou pegar o user HT e olha o que eu vou fazer eu vou pegar aqui e vou preencher esse valor com uma média dos valores que eu tenho nos outros registros que não são nulos legal né E aí a gente vai pegar
vai fazer isso em Place e vai executar executou vamos ver agora como é que ficou o w Agora eu tenho lá um valor zero lá no meio n então era um n aqui ficou zero e aqui o user HT os valores que estavam nulos que que eu fiz eu substituí por um valor que é uma média dos outros valores técnicas para vocês operarem uma outra técnica posso utilizar é usar o método f exemplo para projetar um dado pro registro seguinte Ou seja eu pego um dado dado tá nulo eu pego o valor do registro anterior
e ponho nele tá então às vezes é um dado série temporal alguma coisa que foi acontecendo tal e aí o que que você faz você vai você pega o dado do anterior e passa pro próximo copia ele no próximo quando ele tá nulo é uma maneira também de você resolver o problema dos nulos Então vou pegar aqui um conjunto vou pegar o atributo minutos vamos olhar esses registros aqui do 1975 a 1990 Olha só eu sei que aqui ó eu tenho um dado nulo aqui e um dado nulo aqui que que eu faço elimino tal
não eu quero projetar então eu quero pegar o valor que tá aqui do 119 e passar para cá e o valor que tá o 127 e passar para cá Isso só vai acontecer nos nuos é o que eu quero fazer então eu vou fazer um no campo minuto no atributo minutos eu vou fazer um fil nar com o método ffil e fazer um implace TR para ele já executar ele vai executar e vamos ver como é que ficou olhando os mesmos registros Olha só ele copiou aqui o 119 do anterior e ele copiou aqui o
127 do anterior o resto fica tudo igual Isso é uma projeção identificar duplicados pessoal pega os dados e manda rodar duplicados ele não achou nada duplicado daria para olhar um por um mas como aqui tem muitos registros não D para olhar de cabeça será que tem algum aqui eu não tô achando vamos contar Então vamos somar os duplicados aqui somou deu zero quer dizer não tem nenhum duplicado al se tivesse e eh testando né Se tivesse mais do que eu ia ter que procurar onde que tava deu zero então identificar duplicados outra coisa eliminar duplicados
de uma coluna nem sempre se quer realmente fazer isso tá toma muito cuidado o que eu vou fazer aqui é uma técnica é uma coisa que não é para você fazer nos dados tá só quero explicar como que se faz eu peguei o campo nome do torneio Então você tem lá 20 jogos de um torneio só né eu tô pegando o todos os registros vão ter o mesmo nome de torneio que que eu quero fazer eu quero pagar os duplicados baseado no nome do torneio Ou seja eu vou ter ele vai ele vai eliminar e
vai deixar só um jogo por torneio tá aleatoriamente mas vai deixar um registro só porque eu mandei apagar os outros vai pegar o primeiro os outros que tem esse mesmo vai apagar os registros Então vai apagar as linhas duplicadas baseado no campo nome do torneio é isso que ele tá fazendo aqui ó tá em Place true mandei rodar vou pegar os primeiros 10 aqui ó vocês vão ver que já vai acontecer ó olha só o que ele fez ó pegou os primeiros 10 com nome do torneio ele já trouxe os nome do torneio já colocou
ó 0 0 27 58 13 quer dizer ele já foi eliminando um monte de coisa aqui certo se eu der um describe para ver vocês vão perceber olha só ele ficou com 53 linhas aqui ó Ou seja eu eliminei um monte de de linha tá então eu fiz uma coisa que não é um process um processamento natural de se fazer só queria mostrar para vocês como que eu elimino quando eu quero eliminar né informações que tem duplicar Vamos fazer um deslocamento agora pessoal deslocamento é um negócio muito legal olha só eu vou importar uma tabela
de ações da Apple né então V usar aquele processo que a gente tá acostumado a fazer vou subir aqui o arquivo ele sempre diz lá para mim que eu subindo nesse arquivo eu não depois tem que subir todas as vezes eu vou importar esse arquivo um arquivo csv vou mostrar o que que tem aqui ó que legal né tabela da Apple são 252 registros né ele tem valor de data valor de abertura valor mais alto valor mais baixo valor de fechamento volume e tal então É é operação de ações aí que que eu faço eu
quero fazer o seguinte ó eu vou criar aqui uma coluna um atributo chamado Close ontem que não tem aqui quanto que fechou ontem tá e eu vou pegar o dado do close e vou dar um shift um que que é um shift 1 eu vou pegar o dado de um uma uma um registro e passar pro de baixo Lembra quando a gente fez a projeção a projeção a gente pegava o valor e jogava pro de baixo é só que eu quero pegar o deslocamento de um valor só que não tem nada a ver com nulo
só que eu vou jogar para essa outra para essa outra coluna que eu criei Então vamos ver o que que vai acontecer eu quero vai ficar mais fácil de entender eu mandei executar Vamos mostrar os dados dois olha só eu peguei o Close aqui ó esse 112 eu desloquei um para baixo e joguei aqui ó esse aqui eu desloquei um para baixo e joguei aqui eu poderia ter jogado um para baixo aqui eu tô jogando um dia para baixo poderia ter jogado 30 dias por exemplo deslocamento de um mês é Depende do que eu quiser
fazer técnicas pra gente poder usar por que eu tô fazendo isso pessoal porque eu quero saber quanto que a ação né é mudou de valor de um dia pro outro então se eu tenho o fechamento de ontem eu tenho fechamento de hoje na mesma linha eu sei a diferença de porcentagem se se ela aumentou ou se ela diminuiu por isso que eu peguei aqui o fechamento de ontem então eu tenho aqui ó quanto que fechou ontem né aqui é dia 9/9 fechou ontem e aqui quanto que fechou hoje então que fechou com 117 ont tinha
fechado com 112 que que aconteceu aumentou vamos olhar faço uma conta aqui Criei um um campo novo de alteração porcentagem tá então o que que eu vou fazer fazer uma continha aqui ó eu pego quanto fechou hoje com quanto fechou ontem tá conta de porcentagem -1 x 100 porcentagem básica aqui vamos mandar executar vamos olhar os 20 primeiros registros agora para ver como é que ficou isso aqui olha que legal eu tenho aqui ó 112 fechou ontem 117 ó Ontem fechou 112 hoje fechou 117 o que que aconteceu aumentou 3,99% no outro dia o anterior
tinha fechado 117 nesse dia fechou 113 o que que aconteceu diminuiu tr 6,26 então aqui eu vou ter sempre o quê Quanto de alteração que eu tive nas ações dia a dia legal né isso aqui não tinha na minha tabela agora pessoal percebam que a primeira aqui ó ficou com nlo Por que que ficou com nlo porque eu não tinha O Valor anterior né Eu só tenho a partir de um dia começo a projetar pra frente então o que que eu posso fazer para não atrapalhar meus dados eu vou lá e vou mandar dar um
drop na né quando alteração porcentagem for vazio vou alterar vou apagar aquela linha Aonde esse campo é vazio mando mostrar legal fiz isso tá aqui ó paguei o Primeiro Registro aqui vou dar um describe que que vai ter aqui na alteração Olha que legal a gente tem aqui a média de mudança foi 0,1 tá a maior mudança né o menor na verdade né Quanto mais caiu o dia que menos mais caiu caiu 5,6 por o dia que mais subiu foi 6,35 por. Então esse é um campo novo que eu criei o describe tá me ajudando
a compreender o que aconteceu isso é análise exploratória transformar os dados em categórico vou usar uma um processamento aqui para fazer isso para vocês entenderem vou de novo importar aqui né os meus dados de tênis por quê Porque eu queimei as linhas lá né então eu vou importar de novo eu quero olhar esse campo aqui ó que é o inoc aqui esse campo traz de que país que que o jogador é E aí eu quero ver os valores únicos aqui Ó tem Polônia Estados Unidos grã-bretanha tarará então tem todos os valores aqui dos dos dos
dos jogadores da dos países dos jogadores entretanto eu quero usar uma um um um um algoritmo machine learning que não trabalha com dados categóricos só trabalha com dados numéricos que que eu faço então eu vou usar aqui um recurso que a gente chama de Label Encoder Ou seja eu vou transformar isso aqui em valores eu vou usar a minha biblioteca S kit learning então eu tô importando ela aqui tá tô importando cit learning tô importando esse recurso aqui do Label Encoder vou pegar os países aqui ó Então vou gerar uma uma lista com os países
Esses são os países a gente já tinha visto né esses são os países a lista que eu tenho e aí olha só aqui eu vou dizer n que eu vou ter um l Encoder que é a minha função depois eu vou pegar o l Encoder vou fazer uma transformação vou pegar os países certo que que eu tinha aqui né e fazendo esse L incoder vou gerar os números os países por números e vou mostrar Quais são esses números então o que que ele fez ele gerou uma um número pode ver que os primeiros dois aqui
são Polônia ele gerou 34 PR Polônia Estados Unidos é 48 gerou 48 aqui no final ó né el tem a Espanha com 16 aqui a Espanha 16 então ele gerou um número para cada país vamos olhar o cabeçário aqui então eu tenho aqui os países certo como eu tinha os os os os valores então tudo que aqui tá como texto ele gerou como número nesse países número então o que que eu vou fazer vou agregar isso pro meu Data Frame Então vou pegar o país número vou criar uma coluna nova e a gente vai ter
agora né Essa coluna vamos olhar como é que ela ficou lá no final a gente tem lá países números e é um valor numérico para poder trabalhar com algum algoritmo de machine learning que precise disso enfim Essas são e são dicas né que a gente pode usar para pré-processamento de dados aí para poder olhar fazer análise exploratória pré-processados vamos voltar lá pro slide finalizando Então pessoal eh Entenda os dados é muito importante acostume-se com as técnicas a prática e a repetição leva a melhoria do conhecimento do processo eu mostrei algumas coisas para vocês aqui exatamente
para você fazer dessa maneira Mas eu mostrei técnicas apaga uma coluna escol uma coluna vê se tem n Vê se não tem e apaga a linha altera valor projeta valor da shif enfim são recursos pra gente poder manipular os dados para poder chegar no no processamento mais pra frente né algo muito importante no processo de pré-processamento É a criatividade né então em cada novo livro em cada novo artigo em cada nova observação é possível observar né e descobrir novas técnicas e aprender com elas é assim que eu faço né Cada vez que eu vejo alguma
coisa diferente eu vejo que tá fazendo e procuro ver se isso vai dar certo nos projetos que eu tô desenvolvendo alguns cientistas de dados consideram processamento uma parte muito muito chata né Não Tenha Dúvida dominar as técnicas é algo realmente muito relevante para tornar um bom cientista de dados mesmo sendo chato isso aqui tem um impacto decisivo pros resultados que você vai ter no futuro fazer um pré-processamento legal é muito importante saber fazer é um negócio muito legal e muito importante para você ser um profissional de data Science bom a gente se vê na próxima
[Música] aula a [Música]