Introdução à Ciência de Dados - Introdução às Bibliotecas Scikit-Learn, MatPlotLib e Seaborn

7.23k views4689 WordsCopy TextShare
UNIVESP
univesp.br Ciência de Dados - COM350 Univesp - Universidade Virtual do Estado de São Paulo Profess...
Video Transcript:
E aí [Música] o Olá eu sou professora do ar de Santarém nós vamos para mais uma vídeo aula da disciplina de introdução à Ciência de dados a gente vai falar especificamente sobre a introdução as bibliotecas site warn a brother mais pote Neti Pot livre EA biblioteca cerimônia vamos lá então abre o Teca sightline pessoal é um dos principais ferramentas aí do do cientista de dados é o meu tempo de aprendizado de máquina de Mach Lane é de código aberto e que oferece suporte ao aprendizado supervisionado e não-supervisionado ela também fornece várias ferramentas para ajuste de
modelo para processamento de dados seleção e avaliação de modelo e muitos outros utilitários Ou seja vão usar muito essa biblioteca ela é construída sobre um pai né eu sai pai e o médico Hot League e a gente vai ver uma chegou em um pouco mais para frente nessa disciplina né e abriu até acabar base para todas as implementam a gente vai fazer justamente essa aqui tio Nico vão me perguntar mas existe a bibliotecas também que disponíveis também existem outras bibliotecas mas grande parte dos cientistas de dados ao redor do mundo usam essa biblioteca existem outras
inclusive bibliotecas que não são opções que elas são pagas essa se desenvolve muito bem ela vai entregar muito bem o que a gente precisa bom é a Biotec tirar eles vão perceber lá no site né ela já oferece alguns data sets prontos né Para a gente poder realizar até que aprender utilizar ela tá alguns que a gente tem na apresento aí esse eh preços de casa de Boston o outro que é esse de câncer de mama tem outro que ele diabetes de dígitos essa Iris Fall Então são alguns data séries que a própria biblioteca já
disponibiliza para poder trabalhar para poder fazer testes e eu queria dar uma olhada no site lá da biblioteca da biblioteca para mostrar um pouquinho para vocês o funcionamento disso então esse aqui tá na tela é o link né a gente vai dar um pulinho lá no site agora vamos lá então bom agora a gente tá aqui no site então eu sai o site do site Where né então aqui pessoal queria mostrar rapidamente para você só que você ter uma ideia do que é esse site eu vou ver aqui por exemplo que ela fala de classificação
de regressão de câncer que são o que tipos né de algoritmos que a gente pode ter dentro que tem os vários algoritmos que vão fazer esse tipo de análise classificação e regressão classe aqui tem outras coisas pré-processamento seleção de modelo redução de mensalidades redução de dimensionalidade que são tarefas que a gente pode se aproveitar na biblioteca site única poder implementar e a gente vai fazer isso durante a disciplina tá vai te mostrar para vocês rapidamente também aqui aqui quando eu entro por exemplo aqui na classificação a gente vai ver o que ó aprendizado supervisionado e
a gente vai ter os outros algoritmos aqui ó o sexo Outra coisa quando a gente entra por exemplo nos exemplos né então eu tenho um uma quantidade grande de exemplos aí para poder trabalhar eu vou entrar por exemplo nesse daqui ó né que é o reconhecimento de caracteres né conhecimento de dígitos então ele vai dizer aqui que ele vai usar a biblioteca ele tem uma biblioteca já para isso tá aí vai ajudar a implementar entre um pouquinho dificuldade no inglês aí né talvez no Browser pode pegar aqui fazer uma tradução daí a gente vai ter
o texto para ajudar um pouco em português então são as saídas que a gente tem e aqui vai dar para a gente aprender um pouco mais sobre essa biblioteca com certeza vão vir muito para esse site aqui né porque essa biotech vai se atualizando e a gente vai passando estudar para conhecer mais sobre ela então A ideia é que vocês usem muito esse site aqui para aprender mais sobre o Teca todos os recursos que ela tem Enfim então aqui é uma ferramenta importante para um cientista de dados eu voltar para vídeo ao agora para tu
slide né bom voltando aqui para o slide eu queria falar um pouquinho sobre visualização acho que é muito importante é um dos primeiros artifícios da comunicação da grade pessoal uma imagem vale mais do que mil palavras disputados o que você deve ter escutado muitas vezes né a ideia principal de uma visualização de dados por meio de imagens gráficos ou cartografia é o que é simplificar os conteúdos de forma a permitir a compreensão de uma ideia geral ainda você pega um monte de dado tal quando você mostra um gráfico a pessoa entende na hora né então
a visualização envolve a arte de facilitar a percepção do Todo essa ideia principal de uma visualização primeira imagem de gráfico de cartografia a visualização é um recurso que facilita o processo de compreensão e de tomada de decisão em praticamente todas as áreas do conhecimento então a gente usa muitos recursos de visualização e se você sabia né mas é possível o ser humano é processar uma imagem 250 Megapixels e tomar uma decisão a partir de uma imagem né nunca anteriormente Vista em milésimos de segundo tão o ser humano bateu uma imagem até dizer 50 Megapixels e
rapidamente ele vai conseguir compreender essa imagem tomar uma decisão a partir disso que ele não consegue fazer com um texto Pois é por isso que a visualização é através de margem é tão importante bom a visualização né é um dos pontos mais importantes um processo data-size se todos os procedimentos que você faz são bem feitos né Você fez todo o procedimento lá da coleta a gente vai ver todo todo partline de dados tá você faz tudo muito bem né mas a entrega né na visualização você não atende as necessidades de quem quer ver aquela informação
tudo que você fez para trás perde o sentido porque porque a visualização vai matar o bom trabalho que foi feito antes é muito importante né entregar bem a idade para quem vai consumir lá e a melhor maneira de fazer isso é com uma boa visualização é importante também saber explorar todos os recursos possíveis do processo de visualização é importante saber como é que as bibliotecas funções saber o que realmente a gente quer mostrar de forma Demonstrar com clareza né o resultado da análise em pedido que a gente tome decisões equivocadas ou principalmente evitando que quem
vai analisar quem vai ver aquela informação né é tenha uma má interpretação do que tá vendo se toma a decisão errada é porque não conseguiu entender o que você tá querendo mostrar a visualização é um dos pontos importantes para a gente dominar o processo de organização é uma arte né Há muitas estratégias para fazer gente que só estuda é isso isso talvez pode ser um nicho de trabalho na data size é pessoas que se especializam em trabalhar só com a partir de realização entender para que que serve cada tipo de gráfico a melhor forma de
visualizar os dados é parte de um diferencial muito a cruz personagem da Thais um cara que sabe entregar bem em uma pessoa que vai entregar bem um resultado de data size com certeza vai ser muito bem valorizado como cientistas de dados não sei se vocês já conhecem esse site aqui né que eu data vice Project Esse é um ambiente é importante interessante a gente melhorar a maneira da gente compreender como que a gente entrega dados né então a gente vai abordar mais adiante né na disciplina não de sala mas em outras aulas as questões que
podem envolver dados enviesados a questão de falta de ética na visualização que sugerem algo que realmente ela não representa mas já falar de mais para frente agora eu queria mostrar esse site para você então vamos lá no site também para dar uma mensagem que é muito legal vai ajudar vocês a estudar e melhor essa parte idealização vamos lá é bom que a gente tá aqui agora no site a data visuprod Tipo o quê que eu queria mostrar esse site primeiro porque tem um monte de imagem aqui né um monte de gráfico que sugere informações para
gente mas olha que legal que é o mais interessante aqui quando você entra no em uma imagem dessa Essa aqui por exemplo vamos clicar nesse da noite aqui aí vai digitar inglês mas eu posso lugar também aqui fazer uma tradução para português tal né então ele vai dizer aqui né Que tipo de input que eu tenho para um gráfico de se não é para quem que esse gráfico serve né Para que que é para fazer uma comparação a parte de um todo de Que família que ele é mas o mais legal mesmo desse site não
é o um por um dos grandes nomes que vai ajudar a gente também mas eu gosto de mostrar principalmente isso aqui ó por exemplo se eu clicar aqui em cima input Olha só iria me mostrar que tipo de informação que eu tenho então por exemplo quando eu clico numa tabela como essa aqui por exemplo ele vai dizer quais são os tipos de gráfico que serve para aquele tipo de dado que bom então essa parte do input é muito importante porque eu vou ter vários tipos aqui e ele vai me ajudar isso aqui é definitivo não
mas é importante é você tá com dificuldade de observar e tentar receber um conjunto de dados não sabe que como que mostrar isso aqui ele vai te ajudar a fazer isso tem também por função por função olha que legal você fala assim eu quero fazer uma correlação que correu assim vai te mostrar os gráficos de correlação se você vem aqui na função comparação roupa os gráficos de comparação que está caindo aqui o site mas assim ó olha que eu clico em comparação e vai mostrar os os gráficos de comparação quando eu entro e me fazer
uma distribuição ele vai mostrar os gráficos de distribuição então o que que acontece essa é uma maneira de entender a partir da Necessidade que eu tenho que tipo de graça que eu posso mostrar e variar os tipos de gráfico é o mais legal né porque às vezes você sempre mostra no mesmo tipo de gráfico uma vez você vai ter o resultado que mostra no tipo de gráfico mostra o outro mostra o cliente amostra é para quem você tem que mostrar como você gosta mais de ver assim assim então você amplia a variedade de maneiras de
mostrar o seu dados O que é é bem legal é bom e eu tenho aqui também por Shape por exemplo eu quero mostrar em forma de coração pois então tem aqui alguns realizações em forma de coração aí eu tenho aqui é algumas formas de circo como que é então eu tenho algumas imagens aqui em forma de circo Isso aqui vai ajudar a gente a conseguir montar nas famílias né charge diagrama já espacial botagem tabela então maneiras de mostrar como que eu posso mostrar os resultados em grafos ele vai ensinar aqui então vai te ajudar bastante
na visualização vamo voltar lá para o site bom voltando para slide agora quero falar um pouquinho sobre as bibliotecas matplotlib e cyborg são duas bibliotecas e importantes né para quem cientista de dados a biotécnica mais pote e a biblioteca se torna pessoal do pai tu fazem parte de um conjunto de bibliotecas ou pensam esse pra visualização de dados para geração de graça em fingir tem outras brother Finanças que são duas das mais importantes em abril a tecla seeborn ela é baú Oi Neti Pot lhe né Há também outras bibliotecas que também são baseadas na net
pote ele porque talvez é a biblioteca base para a maioria das outras a um conjunto muito grande de ferramentas além dessas então você vai encontrar muitas outras bibliotecas de visualização Ah e por que que eu uso uma uso outra né porque que eu uso o médico o time que ficou se porta por que que eu uso qualquer outra bibliotecas visualização que eu tenho o primeiro por parte cidade né É uma que eu conheço mais ou uma que tem um visual mais bonito ou então a as possibilidades os detalhes que um gráfico pode entregar e termo
de recurso né configurações automáticas o próprio conhecimento que eu tenho que eu estudei manter nada biblioteca Então na hora de escolher vão perceber que alguns momentos da disciplina eu vou usar um ou alguns momento eu vou usar outro Quero mostrar pra vocês mesmo que a gente pode variar na hora de usar essas bibliotecas a biblioteca matplotlib né por isso é a base para grande parte das outras bibliotecas ela é uma das mais completas que a gente tem entretanto muitas das configurações das configurações a opção ser feitas manuais nesse preciso indicá-la colocar informação do parâmetro tal
ela realmente apresenta um gráfico mais cru e você precisa informar os elementos que você quer já vi o borne por exemplo né ela tem um conjunto de parâmetros que se alto configuram mais automaticamente né E ela vai se adaptar um pouco mais ao seu conjunto de dados enfim algumas informações não soltar explícitas então talvez em alguns momentos ela é um pouco mais é tranquilo de configurado condição de pouco menos detalhes né ela vai ajudar você no processo indutivo aí né Fiz uma perceber também que a Biblioteca seeborn ela tem um fez uma um pouquinho mais
de bom gosto aí na hora de montar os gráficos não é um pouquinho mais bem acabado de aprender um pouco da sua escolha como você vai experimentar isso e eu quero fazer uma demonstração agora dessas bibliotecas no Python ver como é que a gente usa isso só demonstrações rápido não vou explorar tudo que tem aí para vocês verem como é que a gente pode fazer como é que a gente pode usar essas bibliotecas é que a gente vai usar mais vezes daqui para frente na disciplina também vamos lá então para demonstração dessas bibliotecas é bom
pessoal vou deixar começar a demonstração das bonecas matplotlib da biblioteca seeborn tá uma coisa importante né a tela passada eu tava digitando os códigos só que tá perdendo as aulas muito é extensa Mas então pra gente conseguir cumprir com o tempo da vídeo aula né eu já trouxe os códigos digitais que a gente não vai conseguir cumprir com o tempo então eu vou seguir né ah ah o processamento aqui a gente vai executando eu vou explicando o código mas eu já trouxe digitado porque senão eu tava perdendo muito tempo a digitar OK vamos lá então
aqui que a gente vai fazer primeiro importados bibliotecas a gente já viu como é que importa Abril até capangas a gente já viu como é que importa é a biblioteca Não pai é que a gente vai importar biblioteca Neti Pot Ele vai cortar uma parte dela tá que é o pai pote e a gente vai finalizar ela como quer o IP e também a gente vai importar biblioteca seeborn como sms é assim que a maioria dos cientistas de dados importam essas bibliotecas usando esses aí a gente vai continuar usando põe para rodar aqui já o
que a gente vai já executou aqui em Porto as bibliotecas bom agora eu quero girar x e y ponto vão ver que são duas listas da essa lista que vai de 1 até 10 1 2 3 4 5 6 7 8 9 10 e a de baixo vai no um dois três quatro lugar dos cinco eu coloquei um dois aqui ó é o meu Y tá então eu tô gerando é pontos de x é de y que eu quero portar um gráfico com isso dessas posições vou mandar executar e ele criou uma variável x uma
variável Y com esses valores aqui para plotar um gráfico é bem simples basta dizer aqui ó o TRT o meu matplotlib aí eu vou ter um sketch aqui é um sequer pode que vai pegar os pontos que eu tenho dxdy tá então uma um gráfico X por y e vai pegar os pontos vai pegar aqui o com o 2 com 2 ou 3 com 3 ou 4 com quatro e vai pegar esses valores vai botar então vou mandar para o outro aqui e depois eu ponho pele deixou que é para ele fazer a postagem mesmo
então vamos executar olha só que aconteceu eu consigo ver aqui a posição 1 hora no X é um Y é um certo depois aqui no X é dois no Y é dois no XR3 no Y é 34 a mesma coisa aí vão perceber aqui que esse aqui o X é cinco certo e o y é dois então aqui ó um X Ele veio no cinco tá aqui e no Y é o ponto dois então eu tô botando esse x e y você pode pegar quaisquer dois é conjunto de pontos e mandar para o bom então
quando você vai cada. Não é formado por x e y que é o valor que representa no eixo X e no esses pro gráfico bidimensional como isso daqui então botei aqui rapidamente esses números que eu gerei eu quero tirar o outro graça para vocês verem agora um pouquinho diferente eu vou gerar um X1 aqui que são números que vão de menos 100 até sem nada até 99 é que a gente faz os números até um número antes então de menos 100 a 100 de unho então laranja aqui olha só uma dica é para você usar
o arranjo de um pai de menos 100 a 100 vamos executar Oh e vamos ver como é que ficou isso aqui em geral esses um aqui ó valores de menos em uma lista né valores de menos 100 até o 99 e agora eu quero botar só que eu não tenho Y aqui que eu vou fazer eu vou botar o x certo e o meu Y vai ser o x ao quadrado é o X1 e o X1 o quadrado eu vou pegar o valor do X a valores fizer um Qual que é o y é uma
quadrado para onde X é dois Quanto que é o y é o 2 ao quadrado da onde então eu vou gerar um gráfico o que como será que vai ser esse gráfico gráfico a gente aprendeu a na 7ª 8ª série né uma equação do segundo quase uma equação do segundo grau Então vai ter o que eu vou ter um gráfico aqui aonde eu tô gerando como esse valor começa do menos 100 daí o valor ao quadrado ele é sempre positivo que que vai acontecer eu tenho aqui menos 100 eu vou gerar um 10 mil e
essa é a posição x Essa é a posição Y percebo que já montou Aqui céu você já organizou para mim os eixos valores que eu tenho de acordo com os valores ele vai gerar um gráfico aí né que é um gráfico tem um arco ou seja uma parábola aí para conseguir demonstrar eu vou fazer a mesma coisa tá só que agora eu quero ver ele cortar o eixo X então quê que a gente vai fazer eu vou gerar a mesma coisa eu vou botar de novo o mesmo X1 aqui como que vai ser o meu
Y vai ser o x 1 ao quadrado é o valor do x ao quadrado menos 2 mil Então quando o valor for um do x ou Y é um menos dois você fazer menos 2 mil e assim ele vai fazer eu consegui cortar o eixo X em baixo não de como é que isso vai acontecer e olha só precisa ficar aqui ó Onde está o meu zero aqui ó ele tá cortando para baixo aquele Tá vindo buscar o valor do Y no - 2000x continua igual e aqui eu voltei do - 268 mil porque foram
os valores que eu gerei então a gente consegue ver esses valores vamos dar uma olhadinha mais com dados fabricados aqui eu quero fazer dado de dias é dias então ele perante de 1 a 31 valores que vão Então de uma 31 que ele vai montar uma uma lista de 1 a 30 olha só e gerou dados de 1 a 30 legal agora eu criei aqui duas variáveis nunca chamei de vacinados como se fossem pessoas vacinadas né e vou gerar valores randômicos que vão de 0 a 1.000 e são trinta valores Ou seja eu vou gerar
para acompanhar os 30 dias eu quero como se tivesse gerando aleatoriamente né pessoas foram vacinadas verem número de 0 a 1.000 né então valores 0 a 1000 por 30 dias e fiz a mesma coisa para contágios porque aqui valores de 0 a 700 por 30 dias então contágios e vacinados são duas variáveis que eu gerei aleatoriamente aqui só para gente conseguir brincar não dá uma olhada nessa variável vacinados como é que ficou e olha só em geral aqui ó como se fosse no primeiro dia 700 pessoas vacinadas no segundo 500 pessoas no terceiro 786 e
assim sucessivamente tá gerou é automaticamente né Eu não tô puxando dado lugar nenhum só para gente poder brincar aqui ver como é que isso aqui funciona E aí vou botar um gráfico né Eu quero vou mandar para outra hora que eu tô usando esse de furo aqui ó tá eu quero mostrar para vocês eu vou gerar o gráfico ele vai gerar um gráfico básico se meu gráfico básico de fofo certo agora olha só que eu posso usar aqui ó eu posso usar outros recursos para mostrar um pouquinho dos recursos que a gente tem nesse pote
livre eu vou colocar um Dark background we use aqui no estilo né Então olha só mandei a rodar de novo olha só que já me colocou um fundo preto e se eu quisesse mudar e usar o clássico aqui ó tô comentando né vou usar o clássico é um pouquinho mais diferente só para mostrar para vocês as possibilidades que a gente tem vou voltar para o de fo a que eu mandei ele fazer né quando eu ponho para mim ter figura aqui o tamanho figura 10 por cinco tamanho da imagem outra coisa eu vou mudar gerar
um gráfico de barras Olha só então e veja fazemos que a trípode que é por ponto eu fazer um gráfico de barras que é dias por vacinados então ele vai me dar aqui embaixo os dias né e quantas pessoas foram vacinadas e ele vai gerar um leigo aqui para mim Y llevo vacinados por dia então quando a gente faz isso manda executar é isso que ele vai me gerar de gráfico aqui ó esse é o gráfico que ele acabou gerando a vocês verem uma coisa interessante eu podia colocar junto aqui né botar aqui ó é
um dias a variável contágio vermelhinha vou fazer um pote aqui ó certo um pote e aqui que a gente vai ter que vai ter uma linha aqui ó tá gente ter um gráfico aqui que seria e os vacinados certo e os contágios que eu tive com a linha vermelha é só para mostrar para vocês possibilidades Então olha isso aqui testa em com outros valores enfim vale a pena aqui eu posso criar um Data Frame com os dados fabricados também não vou criar um Data Frame rapidinho então aqui eu vou criar um Data Frame com a
variável Dias uma coluna dias você vai criar um Data Frame com dias aí eu vou criar mais duas colunas aqui de Contagem com a variável Contagem e vacinados com a variável vacinados E aí olha só a gente vai assim até agora um Data Frame é isso aqui ó direito no automático até lá no começo agora é só coloquei um Data Frame no dia um teve 144 frontais até 19 vacinados no dia dois e assim foi gerou aqui esse data frente beleza Olha que interessante eu posso botar um gráfico a partir do pandas Ok legal o
pano atacar dados. Pote então é um recurso do pano eu posso pegar um card que é o tipo gráfico de base o x vai ser número de dias whips não vai ser número de vacinado peguei os próprios informações que eu tenho do meu Data Frame aqui são essas informações aqui e vou gerar esse gráfico um recurso do próprio panos olha só é legal né não estou mais ou menos parecido né o recurso do plantas que eu consegui aplicar aqui uma coisa interessante pessoal é que percebam que ele tá usando por baixo aqui o mate pote
Ele é bem que foi para vocês que o médico pode pedir a base de tudo tô usando planta não está gerando e Vamos experimentar um teste aqui da biblioteca se borda né pra gente poder fechar aqui eu tô fazendo seeborn um bar pote né gráfico de barras usando os dados que eu tenho que é esse Data Frame que eu acabei de montar onde o x vai ser os dias e o y você os contágios e eu vou fazer um Line pote em cima onde eu vou ter os dias pelos vacinados na cor vermelha Olha só
como é que a gente faz isso aqui para mandar girar e ele vai fazer um gráfico de barras coloridinho como se Born montanha um pouquinho diferente né ele já montou para mim aqui ó os leigos que eu não tinha lá no matplotlib certo que ele monta um gráfico de barras né com os contágios e montou uma Line pote com os vacinados aqui e olha só que a gente pode fazer também se eu quiser em vez de fazer aqui os vacinados em vez de fazer online pote eu quiser fazer a barra também automaticamente vai fazer isso
para mim e Vai juntar e fazer aquele gráfico de barra que ele junta as duas informações Ah tá lá junto ó aqui como eu coloquei para ficar em vermelho aí tá fazendo em vermelhos vacinados e o resto que sobra que né é o são os contatos só pra vocês verem que é uma outra biblioteca que é seeborn ela tem recursos diferentes vale a pena explorar esses recursos aqui assim que a gente vai vai fazer o várias coisas durante a disciplina com essas bibliotecas vamos voltar lá para o slide é uma pessoa botando o slide então
pra gente finalizar aula né então eu queria ressaltar a importância né da visualização para qualquer projeto data-size nem vão saber como apresentar os dados é demanda conseguir compreender os objetivos né as pessoas é algo que vai além da programação é compreender o contexto para você conseguir mostrar o que realmente faz diferença como é que tá nada você tem um grande projeto né funcionar tudo muito bem só que você vai demonstrar o resultado não é legal a pessoa não consegue entender então é importante a gente dedicar uma boa parte do estudo para visualização conhecimento de técnicas
de visualização permite que era possível implementar com programação algo que está desenhado na ideia de um profissional DDS né dia da casais algo que vai impactar e facilitar os dados pelo usuário que vai consumir os dados lembre-se sempre disso quanto mais você conseguirá absorver a ideia do projeto e transformar isso em um gráfico melhor vai ser tomada de decisão porque vai fazer a ação é uma arte a gente tem que se aproveitar disso bom a gente se vê na próxima aula 1 E aí [Música]
Copyright © 2024. Made with ♥ in London by YTScribe.com