Introdução à Ciência de Dados - Biblioteca Pandas

11.24k views5105 WordsCopy TextShare
UNIVESP
univesp.br Ciência de Dados - COM350 Univesp - Universidade Virtual do Estado de São Paulo Profess...
Video Transcript:
o [Música] Olá bem-vindo a mais uma aula da disciplina de introdução à Ciência de dados o usuário de Santarém vai falar hoje sobre a biblioteca pandas bom abrir o Teca Panda né tem o seu nome originado aí de pênis o deita é isso as principais funções estão atrelados ao uso de dados multidimensionais muito parecido com que a gente viu com um pai né é uma das principais ferramentas para limpeza e análise de dados o pandas parecem muito com um pai entretanto pessoal o panda foi projetado para trabalhar com dados tabulares e heterogêneos enquanto num pai é mais adequado a dados homogêneos lá no num Pai a gente trabalha sempre resultados do mesmo tipo e aqui a gente já tava lá com gasolina é com dados multidimensionais só que das eternidades de vários tipos O que é uma das bibliotecas mais utilizadas por cientistas de dados ao redor do mundo assim como não pai as estruturas fundamentais do trabalho no plantação as Íris né e o dataframe a seres são objetos do tipo Array unidimensional né contendo uma sequência de valores e uma Rei associado de rótulos lei busca que a gente não tinha num pai né de dados chamado de índice a representação em stringhi de uma seres mostra índices a esquerda e valores à direita a gente vai ver isso na demonstração vou mostrar para vocês lá a indexação né o índice e diferente do meu pai nas Íris podemos ter rótulos nos rins né ao que a gente não tinha no parte vamos até os rótulos áudio sem são perceber isso aí e já ao Data Frame né que a nossa outra Nossa outra estrutura do pandas que representa uma tabela de dados retangular né e contém uma coleção ordenada de colunas em que cada uma pode ter um tipo de valor diferente eu posso ter uma coluna combo engano pode ter uma coluna com string após ter uma coluna como médico entre outros o dataframe tem esse tanto para a linha conta com a coluna e ele pode ser mais dado como um dicionário é um dia que o dia que tinha um objeto do pai tão mesmo né é entregar um dicionário de siris é um dicionário de séries todo compartilhando o mesmo índice a gente vai ver isso na demonstração a capacidade de trabalhar com vários tipos de dados como se fosse uma tabela de banco de dados favorece muito trabalho de um profissional de DS e datações quando ele vai usar o plano do plano da seguir a muito nossos processos e assim como na biblioteca num Pai a gente vai fazer uma demonstração aqui do pandas né e eu quero deixar importante né quero ressaltar a necessidade de conhecer profundamente os recursos do panda pois ele acelera demais a resolução de problemas do cotidiano pessoal com trabalho com dados né então estude o livro pega o material de apoio vai na biblioteca na internet para consulta no site da biblioteca né uso do panda você tem que conhecer muito pano explorar algumas quanto mais você conhecer melhor o personalizações que você vai ser vamos lá então para nossa demonstração bom pessoal agora a gente já tá aqui na tela é do Google Web né pra gente fazer continuar demonstração do panos aqui é Lembrando que sempre esse material fica disponível para vocês fazerem o download depois aí download aí na disciplina tá só procurar eles vão achar esses notebooks disponíveis bom então quê que eu faço introdução importados bibliotecas então sempre importante né Vou importar que a Biblioteca Pan o SPD e vou importar a biblioteca num pai também e eu vou mandar executar as duas ao mesmo tempo está demorando um pouquinho porque ele tá colocando o espaço da da nossa máquina do Google Web né E já vai continuar aqui tá Daqui a pouco ele vai processar e a Sarinha aí ela tá conectado já vai rodar já rodou já garantiu aqui ó nós já executou essa linha vamos lá Primeiro as Íris então eu quero fazer o seguinte quero fazer uma s uma aqui que minha variados de série né p&d de panda. Seres Oi e aí eu vou abrir aqui ó 1,2, -5,0 criar uma seres aqui criou E aí vamos olhar para essas uma coisa que eu quero que seja Observe é que aqui olha só o índice aqui do lado ó diferente do que a gente vê no num pai agora a gente vê claramente o índice que é 1 0 1 2 e 3 tá para cada um dos valores então isso vai ficar mais claro para gente aqui A gente vai começar a ver algumas propriedades mais interessantes uma das coisas por exemplo é olhar para esse S1 aqui aí chamar o Vélez vez olha mostrar os valores para gente e aqui os valores é que como a gente ia lá no pai outra coisa interessante é chamar o S1 e olhar para os índios nunca vai para vocês que a gente ia ter os índices aqui ó olha só os índices aqui então ele fala que o índice começa no zero vai até o quatro lembrando sempre é só sempre faz valores né o primeiro inclusive o segundo a exclusivo então 01 23. 04 step né facinho de um então esses são os meus rins eu vou criar uma coisa interessante agora que uma outra série Olha só então eu vou pegar p&d né E a gente vai siris e vamos fazer aqui com os valores 1,2, -5,0 por os meses que a gente usou só que agora vamos colocar aqui o índice eu quero estabelecer um índice o índice que eu quiser como que eu vou estabelecer o índice aqui não necessariamente numérico como a gente tinha feito em um pai que sempre numérico a quente vai ter colocar um índice as letras a ah ah ah eb1 e se de agora você vai executar aí vai ter um índice com letras aqui e aí Vou colocar aqui o S2 olha só que legal não vê que agora o índice aqui ó Oi tá com letras Isso quer dizer o quê que para eu acessar os valores né E você está sempre por essas letras uma coisa interessante eu quero mostrar para vocês aqui PS2.
IX é só tá ok interessante ao meu incha e agora aqui ó abcd ele mostrou para mim Quais são os meus índices desses valores se eu quiser fazer uma atribuição de valor por exemplo eu vou pegar um S2 aqui qual a posição posição a que a posição lá do meu índice igual a 1000 por exemplo fiz atribuição vamos ver como é que ficou E olha que legal colocou aqui na posição a e colocou valor 1000 fez atribuição aqui é assim que funciona certo bom vamos dar uma olhada em comparação é como que eu faço isso olha só que legal que eu vou mostrar para vocês aqui ó eu vou pegar essa mesma série certo eu vou fazer uma comparação de posições qual posição que é maior do que zero ele vai correr a minha siris e vai olhar Qual a posição que Marco Zero aqui nesse caso só a primeira EA segunda certo que é o valor 1000 e valor dois assim a outra menos cinco não e 10 também não é maior é igual né então uma mulher aqui eu vou ter aqui vai me down e fez como se ele pegasse um pedaço né dá-se de mostrar olha só essa aqui é uma série resultante do que de quando o valor S2 é maior do que zero ou um pouquinho para a álgebra não tinha trabalhar com as ilhas da álgebra funciona muito parecido com um pai né então e lá pois é parece 2 x 2 mas só que ele vai mostrar pega os valores atribuídos né e Vai Multiplicar Lembrando aqui aqui pessoal quando eu faço a multiplicação eu eu não mexo no meu valor interno é só meu S2 continua valendo como ele variante sumiu dois ou menos 50 não atribui nenhum valor novo para ele outra coisa interessante eu quero saber né se tem algum valor nulo na minha minhas filhas ó e aqui vai mostrar que não tem nenhum valor novo funciona mais ou menos parecido com um pai tá vamos ver agora o Data Frame que é um outro dia a gente vai usar muito que esse objeto realmente a gente vai usar para muitas coisas é bastante importante então vamos criar um Data Frame aqui eu deixei digitado para não ter que digitar junto com você fazer ao vivo aqui né porque é muito texto para digitar mas olha só eu tenho dados aqui olha só eu tenho estado certo que é o Label né da minha da minha primeira Siri onde eu tenho São Paulo Minas Gerais Paraná São Paulo Minas Gerais e Paraná depois eu tenho ano 2019/2019 2019/2020 2020/2020 depois eu tenho população 45. 9 21,2 tá esses valores são de população um dos Estados nesse determina nesse determinado os anos quando eu faço isso que eu só eu tô montando como se fosse um dict isso aqui quem tava tomado com o pai tu sabe que é uma estrutura de um dicionário que eu vou incluir montar um Data Frame E aí né Aqui eu só definir o meu os dados que eu vou usar isso aqui é efetivamente um dict agora eu vou criar mandar pra frente perder ponto Data Frame Oi e aí eu vou usar os dados para criar esse Data Frame e para mostrar para vocês o que que eu como que a estruturado né esses dados aí eu vou mostrar pra vocês como que é esse chefe Olha que legal vocês vão se acostumar muito a ver dataframes tá então aqui eu tenho o estado né que eu tenho inicial de 0 a 5 aqui eu tenho leibo da coluna Então essa estrutura básica de um Data Frame aqui eu tenho os estados terminado os anos é a população em cada um dos anos em uma tabelinha para gente poder brincar um pouco com ela aí né portanto que vocês saibam por exemplo se eu quiser montar aqui ó um dados de F1 o ponto Ride Red na verdade não é envolver os dois primeiros registros que eu tenho aí do meu dataframe eu posso querer ver outras partes também pessoal posso querer outras partes aí do meu Data Frame por exemplo é eu quero ver DF um ponto Tail o que que eu vou ver eu vou ver os últimos dois registros com seu rabo né então deve um ponto Tail dois Eu posso ver também é por exemplo o meu de F1 o ponto Semple os dois ovos vai pegar aleatoriamente dois valores vai colocar aqui e pegou aleatóriamente Trouxe dois valores trouxe aqui dois valores o Paraná por coincidência e eu posso pegar né e eu posto gerar algumas situações aqui um novo Data Frame a partir do anterior Então olha só o que que eu vou fazer aqui eu quero fazer um de F2 certo perder. a Data Frame ó e aqui eu vou ter dados certo aqueles dados anteriores A que já tinha usado e eu vou estipular o nome das colunas certo então eu vou colocar a minha primeira coluna vai chamar ano é a minha segunda coluna vai chamar estado e a minha terceira coluna vai chamar do pop o que acontece aqui eu vou gerar um Data Frame exatamente igual eu tinha gerado antes só que eu do definido certo para esse conjunto de dados aqui a sequência que eu quero que as colunas apareçam uma perceber que era que eu gerar aqui ó e ela vai aparecer numa sequência diferente primeiro ano depois do Estado depois população olha como é que era antes ó antes era assim ó está doando e população ele tinha montado essa forma que era como tava de todos os meus dados aqui o definir a ordem que eu quero tá então são detalhes que muitas vezes vão precisar fazer eu quero agora é que vocês observem é o Data Frame né vamos olhar isso aqui ó de F2 tá e eu quero olhar estado e olha só ele vai me mostrar somente os status eu posso fazer uma outra forma toda vez que eu tô trabalhando com Data Frame ele me possibilita quando ele tem a as colunas né Tem um pouquinho pra fazer isso aqui ó DF: ano por exemplo diferente um pouco daqui de cima ó eu tô fazendo diferente aqui embaixo.
Como se criasse um atributo baseado na coluna olha só ela também de igual eu fiz anteriormente vejo aqui mostrou os estados e aqui eu mostrei só o homem para que eu mostrei uma valores de uma coluna A que você só mais uma uma outra coisa o saco mostrada de forma diferente né e uma outra coisa interessante que eu tenho aqui é o DF: the types vamos dar uma olhada aí né como que são os tipos você vai ver ano é um tipo inteiro estado é do tipo objeto e a população do tipo flaut E lembra que não pai aqui para mostrar um tipo aquele mostra um tipo por coluna porque assim as colunas podem ser tipos diferentes agora vamos olhar um pouquinho como é que agente faz para atribuir valor a Então vou pegar aqui o meu de F2 tá e eu vou criar olha só que fácil que é isso eu vou criar uma coluna nova chamada estimativa cinema Estimativa de população por exemplo eu vou colocar aqui o valor 50 quem vai fazer vai criar uma coluna nova e vai atribuir valor 50 para todas as linhas nessa coluna então e a gente vai ver como é que como é que ficou a garota frente olha só ela tá saindo mudou mesmo que tinha Solano estado e população agora ele tem estimativa porque eu criei esse valor aqui uma outra coisa que eu posso fazer atribuir um valor né e já coloca alguma criada eu posso ir lá e atribuir um valor Olha que interessante isso aqui eu vou fazer a mesma coisa muito parecida né vou pegar a estimativa Oi e aí eu vou fazer fugir a fia Uno um pai já sabe fazer isso né vou criar um gerar aqui seis valores de 0 a 6 anos que a gente viu isso aqui ó ela não tá e ele vai atribuição aquele gera uma lista Olha que legal já era uma lista 11 aces é uma lista de um ano de Array lá do dono pai ele atribui para uma coluna aqui do meu dataframe lembrando o que os alunos têm que ser guarde tamanho então precisa são seis porque eu tenho seis registros entre gerou um NP arranjo aqui com seis para gerar seis vezes era seis para poder caber certinho se a gente fizer a compra ou não vai dar certa tiet17 aqui mais ela não bate né mas um tamanho outra do outro aqui vai dar certo ele fez atribuição e eu quero que vocês vejam como é que ficou porque aqui ele vai mostrar que não Data Frame agora tem os valores aqui de 0 a 0 a 5 né Se ela seis que foi os valores foram gerados aqui é aleatoriamente aleatório menor gerados é especificamente eu vou fazer um de F3 = f 2 que que eu tô fazendo queria no outro Data Frame a partir desse eu crio Data Frame 1 a partir do outro exatamente uma cópia do outro e faz isso sozinho se eu vier no meu Data Frame 3 eu vou criar um outro já tá Frame tu vai esquecer o anterior e eu vou pegar aqui meu de F2 e pegar só o ano é só o ano que vai fazer e vai criar um novo Data Frame fazendo um recorte só uma coluna no Data Frame 2 ele vai esquecer o que fez antes né vai fazer isso aqui eu vou gerar um ver como é que como já tá firme três agora ele pegou só coluna do ano então eu fiz uma uma o recorte aqui tirando da frente a partir de outro outra coisa interessante de fazer olha só isso aqui ó df2 e já uma coluna tá é uma coluna de não Paraná é igual ao de F2. Estado diferente in the Paraná lembra que eu falei para vocês que a gente não vai ficar usando o laço da cintura aqui do do panda é diferente no pai então é diferente isso o que que vai fazer vai pegar meu Data Frame original certo ele vai criar uma coluna nova a uma coluna nova para toda a estrutura chamada não Paraná que que eu vou fazer ele vai pegar lá na coluna estado e vai comparar com Paraná daí vai pegar na coninha Estado Paraná com para compe vai pegar o estado de comparar com PR o que for verdadeiro vai atribuir o que for falsa ele atribuiu a mostrar para vocês o resultado então eu tô gerando uma nova coluna com o resultado de uma comparação de uma coluna com o valor faz isso e vamos ver como é que ficou agora o meu de F2 Qual é só que legal ele pegou o que que ele fez criou uma colônia nova não Paraná que certo e aí ele fez aqui é São Paulo é diferente de Paraná com a Quatro Minas Gerais vende Paraná tro Paraná é diferente Paraná não falso então de criou e foi fazendo minha linha que é só o ácido essa situação ele faz sozinho Lico faz com toda estrutura vamos dar uma olhada agora como é que a gente faz PSOL para excluir uma coluna uma coisa eu posso vir aqui dá um Dell certo TF2 E aí ele vai aparecer aqui eu vou pegar aqui essa aqui por exemplo que a coluna que eu quero apagar vai dar um Dell exclui a coluna muitas outras coisas excluir colunas de Data Frame a loja exclusiva da frente voltou a como estava antes tá eu podia excluir as estimativas por isso que o que eu quisesse e como entender um pouquinho mais do Data Frame porque acho que aqui vai ser bastante importante para a gente é DF: Shape por exemplo tá e me mostra o tamanho né do meu data Freire olha só aqui seis linhas certo quatro colunas entre tá mostrando o tamanho aqui outra coisa vamos olhar aqui acho que eles vão usar muito tá muito DF: Shape eu quero pegar só a primeira parte é só a primeira parte porque isso aqui é uma lista eu quero pegar só o primeiro item na lista deve dois Shape zero que que vai mostrar 63 que eu tenho Data Frame quero contar quantas linhas eu tenho tava Shape zero essa quantidade minhas que eu tenho de registros que eu tenho que mais que a gente tem de interessante aqui deve dois. Index e olha só que legal vai me mostrar o que os índices de 0 a 6 tá então é o índice que a gente já viu aqui ó né De zero a seis tá aqui ó o que mais que a gente tem de interessante aqui de F2 da frente.
Cólons a e vai mostrar as colunas que eu tenho ano estado população estimativa e uma outra coisa interessante por exemplo é usar o DF dois. Counter ele vai contar quantas quantos registros eu tenho aqui interessante que Ele conta a quantidade no seu tiver valor nulo e não vai dar então no ano ele tem seis valores no estado de tensões valores na população são os valores das estimativas 6 valores não tem nenhum valor novo então são detalhes que eu vou precisar muito né usar quando eu tiver trabalhando com o Data Frame se eu quiser entrar informação das colunas posso pegar meu bf2 df2 já existe né. Colos então estou criando um da tá prendendo é o mesmo tá E aí Vou colocar aqui ó um ano, estado, Popular a população, estimativo a gente já viu antes né que eu tava recriando um novo um novo Data Frame eu só inverti peguei as próprias leis que já existem inverti a ordem agora não agora eu tô pegando um leigo um Data Frame que já existe e eu tô recriando o nome das colunas e as colunas que a gente tem aqui em cima que são ano estado pop estimativa eu vou criar ano estado população estimativa eu tô cuidando nomes novos as colunas e aí o molhar ele já passou até esses nomes que eu acabei de colocar Holanda com maiúsculo estado com menos população já criou Total terando o nome certo dessas colunas vamos analisar um pouquinho mais o Data Frame eu acho muito interessante que Sofia é impressionante como a gente vai usar isso aqui de F2 describe essa função muito legal eu vou usar uma é um parâmetro aqui que pouca gente usa mas que eu acho muito legal que é o UOL eu quero mostrar de todas as colunas eu vou pegar todas as colunas olha só tem que vai me mostrar uma descrição completa de uma Data Frame então no ano por exemplo é contar tem seis valores tá não tem aqui como é uma coluna numérica aí vai mostrar aqui ó o valor médio e o padrão o valor mínimo que eu tenho que a 2019 valor máximo que é 2020 aquele vai pegar e fazer os Portes né o valor do primeiro parte do 25 porcento o valor do segundo corte o aqui a metade e os valores que mais Estão próximos terceiro quartil aqui no estado ó ele vai colocar lá também seis valores são três valores o único né porque eu tenho Paraná São Paulo e Minas aqui vai colocar aqui eu tenho top aqui é o mg ele não tem como mostrar os outros também são mas aí pegou esse aqui e ele vai mostrar que a frequência dois aqui não tempo como a numérico não mostra isso aqui olha aqui a população olha só que legal já tem a média aqui da população atende o padrão O que é a quantidade mínima o valor mínimo dentro da minha lista o valor máximo de da minha lista e os partes isso aqui é muito importante pra gente fazer análise dos dados no começo do processo fala muito sobre isso muito vamos continuar alterar valores aqui agora dos dados né Então como que eu faço para alterar os valores então por exemplo eu posso pegar aqui ó DF 2 ano E aí há um ano é igual df2 um ano mais dois eu vou pegar o ano perto e vou somar os dois vamo molhar lembro que o meu usando zero 2019/2020 agora o ano o que é 2009 passou 2021/2022 em frente peguei esse valor que eu tinha na naquela coluna foi atribuições ele automaticamente atribuiu a minha coluna de novo posso fazer também tá uma atribuição de valores eu só fazendo uma comparação Então é só vou pegar aqui de F2 e a gente vai ter TF2 eu vou pegar de novo o campo ano certo e vou verificar seria maior do que 2021 então aqui eu tô comparando quer identificar mostrar só os valores que o ano é maior do que 2021 é para mostrar os três primeiros só os três últimos vão olhar Ah tá mostrou só os que são o ano tá que eu podia ter atribuído isso aqui para o outro lado tá frente se eu quisesse eu podia ter feito aqui por exemplo um de F5 recebi isso aqui por exemplo aí eu já é um outro já tá frente não foi o caso que eu só queria mostrar os resultados agora em algumas situações você vai querer Gerais Então vamos colocar numa linha de baixo aqui o vídeo onde f510uf quatro né para ficar nossa continha certo aqui vou gerar um defe 4 a partir disso MDF 4 olha só fiz a comparação EA que eu gerei um defe quatro só com os valores que o ano a que eu comprei só um ano ter comprado qualquer um fazer outro tipo de comparação da fazer várias coisas desse tipo me excluir colunas como que eu faço excluírem a gente excluiu né ah aquela excluir uma coluna lá vamos continuar excluindo por exemplo aqui meu DF quatro.
Drp E aí eu quero pegar ano e eu vou falar que é no eixo das colunas bom então eu vou excluir né o ano do Eixo das colunas e aqui já apareceu já nem aparece mais um ano certo E tu vai vir aqui ó O Escolhido é Lembrando que se eu for lá no DF 2 o meu ano continua lá certo E aí Olá pessoal quando a gente faz esse tipo de processo é muito importante que a gente Observe o que é execução e o que é atribuição Olha só quando eu faço esse processo do Drp aqui ó ele não me aparece o ano mais aqui quando eu tivesse excluído Mas isso é para eu gerar um resultado percebo que eu não mexi aqui ó no DF quatro ele continua igual continua com um ano só para mostrar que ele mostrou uma uma Exclusão o defe dois também continua igual aqui agora olha só o que eu vou fazer eu que eu pegar esse de F2 aqui ó e vou fazer uma atribuição de um drop aqui o ano certo eu quero excluir essa coluna aqui como a gente fez com defe quatro aqui eu vou dizer que o eixo das colunas Oi e o detalhe in Place igual a true a gente vai usar muito isso aqui é diferente quando eu coloco emprego em Gleisi tro Isso quer dizer o quê que eu vou executar gerar um resultado mais eu vou eu vou mandar excluir mesmo de verdade ele vai eliminar a coluna nesse caso aqui ele fez o processo a hora que eu vou lá no DF 2 tá lá ó ele excluiu mesmo tá a coluna não Ele apagou a coluna ano certo porque in Place tro a gente vai usar esse implícito muitas vezes que você já perceberam daqui quando eu dou um comando ele mostra o resultado mas ele não executa o processo de interno ele só para mostrar E aí quando eu faço uma empresa que está executando o processo em pé interna que ele acabou excluindo aqui a minha coluna como que eu faço para excluir linha importantíssimo também né eu tenho lá no DF 2 eu quero excluir eu vou colocar lá de F2. Drp E aí eu vou excluir as lhe 10 10 até um então eu vou excluir que vai fazer vai mostrar aqui excluído Excluiu a 0 e a um certo a mesma coisa serve aqui da f-2 o canal continua lá ele excluiu para mostrar mas internamente e não alterou certo para alterar o ter que ter colocado empresa que é ele faria a exclusão direta vamos dar uma olhada quando a gente faz com propagação Então eu queria mostrar aqui para vocês que é muito interessante Então por exemplo eu tenho aqui de linhas um defe linhas é igual de F2 Executor cria um defe linhas eu vou fazer DF linhas. Drp E aí gente vai abrir aqui 0,1, in Place igual a true Ou seja eu criei um DF linhas Tá eu vou excluir o 01 de novo defines a partir de F2 e vou excluir ele executou vamos dar uma olhada agora como é que ficou o meu DF linhas olha só ele fez interno certo então apareceu aqui para mim dessa maneira eu vou criar um mais uma linha de código aqui e vou mostrar o defe dois para vocês aqui Eu percebo que aqui ó igual não pai como eu fiz esse defe linhas é uma cópia desse de F2 quando eu mandei apagar internamente defe linhas e apagou no DF 2 também muito importante e eu quero mostrar aqui agora para ver por exemplo dados de uma linha então eu vou pegar o de F2 tá E vou colocar lá.
Copyright © 2024. Made with ♥ in London by YTScribe.com