Introdução à Ciência de Dados - KDD e Análise de Dados

7.04k views5071 WordsCopy TextShare
UNIVESP
univesp.br Ciência de Dados - COM350 Univesp - Universidade Virtual do Estado de São Paulo Profess...
Video Transcript:
E aí [Música] o Olá eu sou pro celular de Santarém nós não dá continuidade à disciplina de introdução à Ciência de dados e agora vamos falar sobre Cadê de e análise de dados bom cria antes de começar a falar de cada de mostrar um pouquinho dos processos de data Science uma disciplina introdutória ciência de dados então é muito importante né que eu consigo a demonstrar para você os processos que fazem parte de um de um projeto de data Science né a ideia que não é especializar vocês e nenhuma dessas partes mas mostrar os caminhos mostrar
como você inicia o processo mostrar o que que a cada uma das partes mostrar como que ela se conectam e aqui é a primeira ideia né de compreensão do projeto é com essa imagem aonde a gente tem mais ou menos uma compreensão de como que se dá um projeto ao todo então a gente tem aqui começando do lado esquerdo né o mundo real e gerar dados aí a gente tem aqui né a geração de dados ou seja os dados são coletados depois eu tenho a processamento dos dados que a preparação dos dados a limpeza dos
dados depois a gente tem as análises purgatório aqui um pouco do que a gente vai falar que hoje né na sequência que a gente já fez tudo preparou os dados lá exploratório entender Quais são os dados entendeu projeto entender o cenário aí só para parte de algoritmos de Mach enorme quando a gente aqui na parte algoritmos de Machine Vânia que todo Já tá pronto já preparei os dados as exatamente quais os vídeos eu vou usar já entendi isso os dados tinham problemas já melhorei isso eu já passei a pré processei todos os estados a gente
vai estar na parte do algoritmo depois que a gente já clicou os algoritmos de Mach Lane né a gente vai ter a parte de comunicação de visualização e a parte de relatório e normalmente a gente vai sair aqui para tomada de decisão ou vai gerar outros dados para eles entrarem nos numa cadeira num processo aí de é o processo circular de dados né na cadeia de dados que a gente tem eu percebi que essas retas vão e voltam muitas vezes porque Pois é que eu tenho análise exploratória que muitas vezes análise exploratória percebe que eu
preciso voltar lá na seleção de dados nem trazer o contato que eu não tava trazendo a identificar alguma fonte que eu não tava trazendo ou então os cartão alguma fonte que eu tava trazendo Isso faz parte do processo eu trago aqui uma visão um pouquinho mais é é detalhada dessa parte de cima da imagem da primeira imagem olha só aqui quando a gente fala da primeira imagem do mundo ainda não São Paulo das pessoas dos negócios das questões que eu tenho que formular aqui eu tô falando de que tipo de dado como que eu vou
cortar Que tipo de dado que eu tenho né então dados originados de log de meio da gente seus médicos de Pesquisas enfim depois a gente faz o processamento dos dados que a limpeza né a organização a gente faz o Joey fica a gente faz a organização EA gente vai para limpeza dos dados onde efetivamente a gente vai organizar todos os dados para eles poderem ser ele processado vejam que é do o processo que a gente formou as hipóteses é aqui que a gente compreendendo o cenário daí eu lembro porque a gente tem já começar a
descobrir né Quais as hipóteses que a gente pode ter já começar a fazer as nossas perguntas que o data Science vai responder que a nossa ciência de dados responder isso é muito importante muito mais do que você é um grande especialista em um em um modelo de uma churn compreendeu processo todo é muito importante é isso que eu quero que vocês têm uma consciência nesta disciplina que a mais cedo introdutória que é você conseguir pegar o processo desde o começo e até o final sabendo como proceder em cada um deles e aí sabendo como proceder
em cada um deles você vai se aprofundar para melhorar o processo em cada um deles bom falando sobre o Cadê de naquela novo Discovery data vez Então cadê o processo de descoberta de conhecimento né segundo faiad e taxi rápido Smith é um processo de várias etapas não trivial interativo iterativo a identificação de padrões compreensíveis válidos novos e potencialmente úteis a partir de um conjunto de dados ou seja é quando você vai fazer um processo que observar o que está acontecendo naqueles dados a característica não trivial diz respeito a complexidade existente na execução e manutenção dos
processos de cada dica de não tiver é porque cada vez para fazer humanos um jeito naquela devagar de um jeito aí não é um processo simples de ser feito é o imperativo representa a relevância de possuir um elemento que o controle que controla o processo você gente tem uma cadeia dentro desse processo o imperativo indica a possibilidade de repetição em qualquer uma das etapas do processo fazer igual eu posso repetir aquela etapa várias vezes voltar para etapa anterior repetir de novo como tava no meu presente mesmo cafezinho para cada lado porque isso pode acontecer e
conhecimento o último aponta para indicação de que o objetivo foi alcançado normalmente pessoal Cadê dividido em cinco faz né isso a gente traz eu tenho os dados e depois eu tenho a seleção onde eu faço a seleção desses dados aí vou ter os dados relevantes aí eu vou fazer o pré-processamento aí eu tenho os dados pré-processados faço a transformação entre os dados transformados faça um datamine que a mineração dos dados aí eu vou encontrar os padrões eu faço a interpretação EA gente chega no processo de conhecimento que é onde eu tomo decisões então cada dia
normalmente a esse processo completo de como que as coisas acontecem as cinco fases da primeira fase da seleção né consiste em selecionar um conjunto ou subconjunto de dados né que vão fazer parte da análise a são utilizados pode ser planilha pode ser banco de dados pode ser trator House é eu posso possui dados com formatos diferentes durados não-estruturadas semiestruturadas então é quando eu vou identificar né esse tipo de dado e vou selecionar o que eu vou realmente trazer para o meu projeto depois no pré-processamento tô conseguindo fazer verificação da qualidade dos atos as exceções os
ruídos são e movidos a gente tem limpeza tem correção tem remoção de dados inconsistentes tem identificação de dados ausentes incompletos não interiores Ou seja é quando a gente vai tratar esses dados e eliminar tudo que possa tirar de ruído depois nas minhas análises e da gente tem que pegar os dados identificar cidade São problemáticos ele tem também tem que corrigir esses problemas tá bom muitas vezes vai ter que voltar para fazer exame que eu tenho que descartar algum dado volta para seleção buscar outro esse é um processo iterativo ele já faz a transformação consiste aplicar
técnicas de transformação como normalização agregação criação de novos atributos na parte do que eu já tem eu Gero novos atributos a redução esse interpretação dos dados então busca-se identificar atributos úteis nos dados para alcançar os objetivos pretendidos muitas vezes na transformação pessoal você vai converter pés em metros para quilômetros se converter e você vai girar dados calculados a partir de uma informação que você tinha esse é um processo de transformação normal que faz parte ali no meu pensamento até quarta mineração né consiste na aplicação de algoritmos e técnicas para identificação de padrões nos dados e
verificar as hipóteses estão geralmente as descobertas podem ser descritas descritivas né ou preditivas com os seguintes objetivos regressão uma função que faça o mapeamento dos dados clusterização quando eu identificar um conjunto finito de categorias ou classes personalização que é buscar descrição compacta para os conjuntos de dados dependências ou associações identificar dependência significativas entre variáveis e divergências identificar alterações significativas a partir dos valores medidos observando isso essa parte aqui é muito significativa né Por exemplo vai falar de clusterização de regressão é ele vai falar da sumarização esse tipo de compreensão há muito tempo para aprender não
é para entender exatamente o que acontecer e a gente vai falar um pouquinho mais sobre isso lá na frente eu quero que vocês têm uma clareza de como que isso funciona eu vou explicar isso para vocês tá joia e no final de ter faz interpretação que consiste em avaliar o desempenho do modelo ocorrendo a consolidação do conhecimento descoberta seja quando o modelo válido funcionou E aí eu tenho um conhecimento novo né E essa avaliação pode ser feita baseada em análise de profissionais ou mesmo em comparação com dados coletados anteriormente Ou seja é onde eu tenho
a finalização do projeto E aí eu vou passar a tomar decisão baseada em seu válido esses dados e toma decisão a partir disso bom e a gente tem uma fase que a gente chama de análise exploratória de dados a gente é muito mais comum você acostumar escutar falar de análise exploratória é eu apresentar o multidão análise exploratória e falo pouco de cada dia que é o processo por completo né Eu quero tratar de uma outra forma é a análise exploratória é um tem bastante os profissionais de hidratações A análise tem como finalidade principal examinar os
dados previamente né aplicação de qualquer técnica estatística é o gato os dados mesmo então você consegue né um entendimento básico dos seus dados e das relações existentes entre as variáveis aos atributos que a gente tem ali naquele conjunto de dados na análise exploratória é muito comum análise descritiva né é que de forma detalhada e permite o cientista de dados familiarizar-se com os dados organizá-los e sintetizá-los de forma a obter informações necessárias do conjunto de dado para responder as questões que os problemas de hidratação esse tá tentando resolver se tem dizendo isso você precisa conseguir olhar
precisar de olhar para essas variáveis consoante entender o que cada variável representa ligada cá tributo representa no seu conjunto de dados Qual é a importância dele né como que ele tá caracterizado Que grandeza que ele tem é quando você olha para isso e Como consegue e o que que o seu cenários Excel o seu mundo tá trazendo de informação para o seu projeto dias atrás size é a análise exploratória pode ser comparada com as três primeiras fases do Cadê de e pode ser entendida como a primeira e importantíssimo observação sobre os dados é fundamental você
só consegue pensar e resolver problemas só consegue pensar em virar a hipótese a parte momento que você faz uma análise exploratória bom é análise exploratória realizada é determinante conhecer Tecnicamente o que seus dados representam E como eles são classificados Então vamos olhar para essa tabelinha aqui em uma tabela bem simples aonde eu tenho um conjunto de dados de hospitais Então eu tenho os atributos né Uai dickel que é o código do paciente o nome a idade o sexo peso tipo de mancha que ele tem temperatura quantidade de internações que ele tem estado e um diagnóstico
que ele tem quando eu olho para essa tabela antes do olhar e entender o que que representa cada informação aqui então quando o óleo por exemplo cam e tem que saber que é o nome da pessoa mas Campo nome é fácil né mas por exemplo hoje eu tenho initially é provavelmente Quem olha no primeiro olhar não imagina que aquele a quantidade internações eu sei porque eu estudei esses dados então eu sei a hora que eu trouxe eles que aqui a quantidade de internações que esse paciente já recebeu mas muitas vezes a olhar para esse preci
dado vai olhar para o seu conjunto original da citocina Caraca tributo é esse que informação é essa fez a gente não sabe então é importante entender saber que tipo de informação tem ali né saber como que essa informação está estruturada e muito mais do que isso saber como que cada tipo de dado se configura bom e a gente é a quantidade de variáveis é importante a gente conhecer essas variáveis conhecer os atributos que eu tenho então por exemplo dados unidimensionais estados univariados são dados no quais o sistema coleção de números ou seja por exemplo a
temperatura de pessoas de uma aula como na tabela dos olhos interior a quantidade de gols que seu time fez por jogo no campeonato ou a média de minutos diário que você usa olhando no seu Instagram e quantos minutos você leu por dia o primeiro passo foi inevitável é computar alguma estatística né saber o dia que gastou mais minutos Instagram que você gastou menos a média de minutos a soma deles e são Dados dimensionais agora imagine o seguinte quando a gente tem os dados multidimensionais é quando ele tem mais de uma dimensão por exemplo o sexo
a idade o peso como a tabela já vista os gols feitos e os gols sofridos pelo seu time ou então a quantidade minutos Instagram e também a quantidade de posts realizados Ou seja você tá comparando é dados que conectam coisas tá diz que estão junto com alguma coisa uma informação em relação a outra Esses são dados multidimensionais e muitos casos é importante conhecer cada dimensão individualmente né mas também necessário dispensar é esses dados e são emprego seu como que esses dados se conectam entre eles na relação de um com o outro é importante também saber
o tipo de dado que está trabalhando muito importante que não projeto análise da tu sabe dizer isso aqui saiba compreender isso aqui Eu sempre tive o tipo define-se o atributo representa quantidades sendo então chamados de quantitativo numérico né ou qualidades quando ele é chamado de qualitativo simbólico ou categórico gente vai usar muito só que daqui para frente pois os valores podem ser Associados a categorias dados qualitativos por exemplo né que possam pequeno médio e grande estão dados qualitativos eles podem ter seus valores ordenados mas nunca podem receber operações aritméticas dados quantitativos são valores numéricos que
podem ser ordenados e usado sem operador em operações aritméticas e às vezes vai escutar Condado é escalar nesses mosko tá letal de algum lugar de dados que ela que você tinha um dado o único que representa um dado que não é um Array é uma lista ou vetor ou um objeto que eu já pude aqui no caso do pai objeto escalar é um objeto único né de outra forma ele vai ser se não for escalar é uma lista uma matriz ou algo assim sobre os dados quantitativos e as várias condições podem ser contínuas ou as
podem ser discretas variáveis discretas normalmente representadas por valores que contém um número finito ou infinito contável de valores caso de atributos contáveis são valores por exemplo 01 né idade número de peças com defeitos são coisas que são contáveis variáveis continus normalmente representadas por valores que podem assumir o número infinito de valores na geralmente resultado de medidas por instrumento por exemplo e atributos representam peso tamanho e tem importante que vocês tenham essa noção da diferença entre entre valores discretos entre varias coisas estão contínuas ou discretas foi está olhando para fazer análise exploratória sobre os dados quantitativos
né as áreas que eu sempre também podem ser categorizados como intervalar de valores dentro de um intervalo nessa em usar absoluta então valores que vão de um valor até um outro e o valor racional né quando ele tem o zero absoluto quando por exemplo a idade né eu sei que a idade começa a lá tudo começa no zero eu tenho uma noção de que aquele valor começa no zero a intervalar a as datas por exemplo médium calendário ou então a temperatura pessoal a temperatura mais não o graus Celsius né que é o nosso não acostumado
começa a 10 as outras escalas elas não tem 10 como parâmetro então que são os dados em intervalos o racional é a quantidade de vezes que uma pessoa foi ao hospital por exemplo eu fui 5 vezes em sabe que o parâmetro a zero Então cinco vezes sabe quantificar isso esse é o dado numérico racional bom e os dados e as variáveis qualitativas elas podem ser nominais ou ordinais variáveis nominais né os valores são nomes diferentes carregando a menor quantidade de informação possível não existe relação de ordem entre seus valores por exemplo cpf rg cor dos
olhos sexo a gente não tem uma classificação então esses são os dados qualitativos que são a gente chama de nominais e ordinais são aqueles valores que refletem uma ordem de categoria representada essa forma operadores de comparação né maior e menor por exemplo pode ser utilizado exemplos de escolaridade patente militar classificação no campeonato até pode escrever lá primeiros segundos sem número né que você sabe o que é que o raio uma classificação Ou seja você e são as variáveis que ele chama de ordinais a sua exploração uma grande quantidade de informações úteis pode ser extraída a
partir do conhecimento sobre tipos de dados e principalmente sobre exploração de um conjunto de dados a estatística descritiva resumo de forma quantitativa as principais características de um conjunto de dados da Então a gente vai olhar é isso aí uma demonstração para ver né essa estatística descritiva como que a gente descreve os dados que é muito importante eu já mostrei para vocês alguns é pra gente vai ver de novo é mas é importante pessoal geralmente a partir de um tipo de análise quando se tem conhecimento sobre o tipo de dado né é algo muito interessante para
se identificar a característica desse dado Então é só na tabela a seguir uma tabela bem básica tá É apresentar uma sugestão de possíveis representação para cada tipo de dado por exemplo um valor que é escalar é normalmente você representar ele por meio de um diagrama de barras de linha ou de pizza e a medida de tendência Central é normalmente é usada a moda ou seja essa tabelinha que não é uma tabela que resolve todos os seus problemas mas é uma tabela que a gente tem dado ordinal intervalar racional você olha para vocês verem como que
eu vou tentar representar esse aqui é o meu primeiro passo pode ser que isso não resolva Mas normalmente é o primeiro passo a ser utilizado Então parece que vai ser ver se tá Belinha original você vai usar o blogspot intervalar você fazer um histograma polígono de frequência enfim é assim para mim descer começa o processo para depois demonstrar esses dados vão ver uma demonstração rapidamente é sobre algumas o purgatório para que vocês melhor em processo de análise exploratória vamos lá para demonstração E lembrando que essa vídeo-aula é esse esse notebook fica disponível para vocês né
eu vou executar aqui primeiro vou importado do Texas que vou usar abusar não pai vou usar Pan do danet pode usar se bom aquelas que já estão acostumados a ver a gente utilizando aqui nessa disciplina Bom agora vou gerar dados aleatórios aí botaram histograma e vou explicar para vocês o que que é um histograma né que não são valores distribuídos eu vou gerar 30 valores né ou seja um por dia né um minuto 0 a 60 então o que que eu vou fazer aqui ó eu vou usar ou não pai para gerar 30 valores aqui
a quantidade de valores que eu Gero eu vou gerar valores de 0 a 60 valores aleatórios de 0 a 60 ou seja ser mais ou menos o seguinte eu quero gerar 30 números que seriam 30 dias né e quantidade minutos que eu fiz exercício por dia né Pois é bom de Office encontro já fiz dentro do dia eu fiz 50 Então vai ser aleatória eu vou pegar os dados importados não pode gerar uma uma lista para ir eu gerei a lista vamos ver essa está como é que ficou É como se eu tivesse só primeiro
dia Eu fiz 16 minutos segundo dia 44 terceiro dia 57 Então essa é a quantidade de minutos que eu fiz de exercício por dia durante eu tenho aqui 30 valores certo bom E aqui eu vou gerar né um gráfico para vocês olharem que é o seguinte o meu gráfico aqui eu vou gerar um Spot ou seja um histograma o que que é um histograma é um gráfico de distribuição gratuita distribuição eu pego valores desse tipo que eu tenho aqui nem junto quantas vezes eu fiz 40 minutos quantas vezes eu fiz 30 minutos quantas vezes eu
fiz 20 minutos e são histograma ele vai fazer distribuição então eu vou criar aqui esse gráfico eu vou fazer aqui um seeborn minutos por dia e aí eu vou executar isso aqui olha só e eu coloquei que o Label meu chefe vai ser minutos por dia e meu Y levou vai ser quantidade de vezes eu vou mandar para outra olha só aqui me ligou é diferente aquilo que ele ficou subindo né nem de propósito mas por exemplo 10 minutos né de 0 a 10 eu fiz duas vezes de 10 a 20 talvez três vezes aqui
de 20 a 30 cinco vezes de 30 40 eu fiz bastante perto de 50.000 quase dez vezes né então a quantidade de vezes que eu fiz existe deixa aqui é meu é meu minha distribuição de quantidade de minutos que eu fiz exercício né juntando um determinado mês poderá gerar os dados de novo Olha só vou gerar de novo aleatóriamente vou gerar aqui de novo Oh e vamos ver que que ele gerou aqui agora o novo gráfico o gráfico diferente então é gera e aqui é a mesma coisa é uma distribuição que eu tenho de vezes
né por quantidade de minutos agora vai ser uma nova biblioteca para análise exploratória e se não usarmos o que você quer muito legal nessa sua e teve se eu vou tenho Pipe aqui ó você quer quando eu não tenho uma biblioteca já é dentro do meu coleb E aí eu vou trazer uma biblioteca do colégio não tem instalado e eu vou instalar ela aqui então eu tenho que usar esse PIB para instalar e depois eu faço a importação Olha só você gente vai fazer aí instalando é que tá coletando automaticamente aqui da web né tá
fazendo o procedimento de é puxar e já instalou já importou eu vou carregar aquela base de tênis que a gente já usou né no outro exercício que é uma base de tênis um arquivo csv ou então vou determinar Qual é o arquivo aqui importou né fiz aqui vou fazer porque eu não falto determinou né atribuído a variável aqui sim eu vou importar vou usar o pan das redes s é tranquilo de fazer e gerei os dados Esses são meus dados Olha só conjunto de dados aqui e aí eu sei que eu tenho duas 1225 linhas
por 49 colunas e aqui eu vou chamar de análise exploratória né é eu vou fazer um suitevilas. Análise com esse conjunto de dados olha só que legal ele vai gerar aqui vamos rodar e ele vai fazer análise exploratória para isso unidade vai gerar um arquivo HTML tá por isso que esse é da ponto choro até mesmo eu queria uma variável aqui na que recebe análise depois eu Gero um HTML só que é sensacional pessoal que vai nos ajudar muito a fazer qualquer tipo de análise tá então é muito importante que a gente compreenda esse tipo
de coisa esse tipo de ferramenta ajuda a vocês a entender o tipo de dados que a gente tem ele gerou aqui então um arquivo ela também pode que ele gerou sempre que eu já era um arquivo né Você sabe que vai gerar o arquivo aqui ó então gerou meu arquivo aqui se eu abrir esse arquivo hoje eu vou fazer o download dele Oi e aí aprender esse arquivo eu vou olhar esse arquivo olha só ele vai pegar o atributo por atributo e fazer trazer as informações de descrição que eu tenho muito legal isso aqui tá
muito legal porque porque aqui eu tenho uma porção de referências a respeito dos dados que eu tinha por exemplo todos os dados que eu tiver aqui de um modo geral né como por exemplo surfei esse nome do torneio ele vai tratar individualmente cada uma dessas variáveis quando são variáveis numéricas vai trazer valor máximo ou mínimo e vai fazer um conjunto de informações que são importantes né olha só que começam várias variáveis categóricas por exemplo aquele trás né a informação e name né quem que mais venceu 51 vezes tem o nome do tenista 47 visitam com
dois por cento e aquele traz a lista completa do lado direito outra coisa aqui por exemplo ele vai trazer nas informações Pois é poque Winner Handycam que mais ganhou daqui mais ganhou mão direita mão esquerda E depois de definido ele tem a porcentagem aqui do outro lado né com oitenta e Seis por cento de vezes que a direita treze por cento que coloca a mão esquerda e 11 vezes só menos um por cento que tá aqui era valores indefinidos então percebo que ele vai ter uma live vai ter uma análise aqui né para cada uma
das variáveis é muito legal isso aqui porque vai fazer com qualquer candidato que você tenha vou voltar aqui e agora vou fazer o seguinte eu vou gerar uma matriz de correlação de piercing o que que é isso pessoal percebo que esse conjunto de dados que eu acabei de girar em 1 conjugados com muitos atributos E aí né O que que essa Matriz de correlação de piercing piercing Um criou a matriz de correlação onde ele relaciona variáveis ou seja em criar um coeficiente que vai de menos de 1 a menos um né E quanto mais próximo
do um é uma correlação perfeita direta ou seja duas variáveis que andam do mesmo jeito elas são muito parecidas né quando eu chego perto do zero porque não há correlação nenhuma e quando eu chego perto do menos um aí quando ela tem uma correlação negativa perfeito ter quando um é mais a outra menos né E qual o impacto que ela gera Então isso é a correlação entre parece que você muito importante que a gente vê muitos atributos que muitas vezes você em Manaus atribuição dos atributos que trazem a mesmo tipo de informação Mesmo ele sendo
diferentes São muito parecidos estão correlacionados é pode eliminar um outro dependendo da sua na bom então aqui eu trago é essa essa opção aqui de usar uma ferramenta do próprio é do próprio num pai né que é esse trio aqui para fazer para gerar um dado para gerar uma máscara sobre os dados que eu tenho observando aqui uma correlação que eu faço a partir do Data Frame eu vou gerar que essa máscara e a partir dessa máscara a gente vai girar um Hit me up que é um gráfico de calor né já fazendo com os
dados correlacionados baseado na máscara que eu gerei que o que se 2020 aqui para ficar um tamanho legal para a gente ver então eu vou gerar essa informação e aí eu vou gerar esse Hit net aqui né com todas as informações que eu preciso para poder fazer a referência no ar ele vai gerar o meu gráfico e olha só que interessante esse gráfico pessoal eu tenho toda a relação que eu tenho de Matriz aqui ó uma correlação entre as variáveis e aqui eu tenho ele de gerou uma legenda nenhum de um mais clarinho representa o
menos um e e o mais escuro representa o menos um meu a minha imagem está pequena que eu vou tentar aumentar um pouquinho ainda para vocês verem Olha só eu vou pegar uma correlação simples aqui tá só para tentar explicar para vocês como que isso funciona por exemplo eu tenho essa variável aqui ó tá eu tenho 10 99 será com relação delas é muito forte então eu tenho é e server games que quem perdeu a quantidade de games que sacou yeah Win server games Então essa variável com essa 2099 de correlação o jogo de tênis
um saco depois do outro saca interessa a quem ganhou quem perdeu em um sacar praticamente sempre a mesma quantidade de vista não é o atributo não importa que resultado normalmente nesse o jogo teve Sei lá uma quantidade de sets é muito provável que eles tenham sacado a mesma quantidade de games ou com um de diferença é impossível então a correlação tá explicado aí ou seja uma análise eu não preciso ter esses dois dados que vão E aí a pouco então Esse é um dos exemplos que a gente tem do mapa de calor para fazer a
correlação de variáveis ajudar muito a gente fazer análise exploratória para entender Quais são os meus dados Ok bom vamos voltar agora né pro slide pra gente finalizar aula bom Cadê de pessoal que ainda seguiremos compreendendo nas próximas aulas né e é a de que a análise exploratória são processos fundamentais para que o cientista de dados já capaz de compreender o conjunto de dados que estão disponíveis e principalmente ser capaz de determinar os tipos de análises que são possíveis então por exemplo aquela aquela função que a gente usa o serviço é muito importante naquela biblioteca para
poder gerar para você conseguir olhar atributo por lá tendo esse é o trabalho do cientista de dados entender essas variáveis entender Qual o impacto que elas têm O resultado é por meio da análise exploratória que se compreende o caminho para responder às questões de um projeto de data size e isso é muito importante bom Espero que tenha gostado dessa aula a próxima a E aí E aí [Música]
Copyright © 2024. Made with ♥ in London by YTScribe.com