Mineração de Dados - Introdução à mineração de dados
11.75k views2632 WordsCopy TextShare
UNIVESP
univesp.br
Mineração de Dados
Univesp (Universidade Virtual do Estado de São Paulo)
Professor: Higor...
Video Transcript:
E aí [Música] o Olá sejam bem-vindos a disciplina de mineração de dados Hoje a gente vai ter uma introdução sobre o que que se trata né mineração de dados vamos falar um pouco aí sobre assuntos relacionados e relevantes com mineração de dados Ah tá eu vou começar falando um pouquinho sobre dados né já que é esse é o motivo da disciplina né Essa motivação da disciplina eu vou apresentar alguns dados que justificam a disciplina tá então primeiro é o número de usuários da internet tem crescido aí a gente pode ver através desse gráfico né que na nos últimos dez anos aí o número mais que dobrou né a gente tinha em 2012 ele cerca de Dois Bilhões de pessoas é que eram usuários da internet onde a gente tem quase cinco bilhões dar uma população de 8 milhões de pessoas tá esse mapa que mostra a distribuição né Onde estão os usuários da internet tá então a gente pode ver quem nos países desenvolvidos a gente tem aqui em azul escuro né uma alta concentração de usuários E aí a gente pode ver que ainda no continente africano e parte do continente Asiático um pouquinho aqui também na América do Sul a gente ainda tem regiões que tem poucos usuários na tem um potencial grande ainda de crescimento do uso da internet nesses locais tá e é uma outra informação relevante é a capacidade de processamento e armazenamento de memória dos computadores né que tem crescido muito ao longo das décadas também então esse gráfico aqui por exemplo ele mostra né é a quantidade de transistores o transistores na ao longo aí desde a década de 70 até de 2017 tá a gente pode ver aqui é que a quantidade de transistores chega aí a mais de 10 bilhões por CPU né aqui no ano de 2017 e esse número continua crescendo na então a capacidade de processamento para influenciar diretamente ali a as formas né como a gente pode fazer processamentos de dados nos computadores Oi tá aqui eu tô trazendo alguns dados aqui referente essa algumas aplicações aí como é a quantidade de dados que ela geram dentro de um minuto tá então a gente pode ver aqui vários aplicativos que são muito frequentemente usados por exemplo o WhatsApp o Messenger em um minuto ele já era um 69 milhões de mensagens tá sombreadas 69 milhões de mensagens no YouTube em um minuto São é feito o upload na são os arquivos são enviados para o YouTube é cerca de 500 500 horas de conteúdo né a gente pode ver também tem mais de 700. 000 aproximadamente 700 mil histórias compartilhadas ali no Instagram em um único minuto Ah tá então toda essa explosão de dados né é permite então que a gente consiga utilizar essas informações para fazer análises e extrair informações relevantes Tá mas alguns números aqui é interessante sobre o uso a Ea geração de dados dão conta aí de quem 2021 foram gerados 79 zettabytes de dados tá um cê tá byte é equivale a 10 elevado a 21 by tá ou na 1 milhão de terabytes Então imagina um HD na de portátil ali de 1 terabyte né a gente gera e por ano né no total na internet 79 milhões de agradeço é o que dá em média né com a população mundial de 8 milhões de pessoas da quase 10h bebês por pessoa por ano na gerado é muito dado a uma é a única pessoa medida em 2020 já era por segundo um ponto 7 megabytes de dados né E a gente tem várias outras informações aqui o Google por exemplo tem. .
. 5 bilhões de buscas feitas ali por dia no WhatsApp mais de 100 bilhões de mensagens por dia né tudo isso é dado que vai sendo gerado e armazenado de alguma forma na rede da os gastos né com Big deita em 2022 até agora né tanto estão representando aí 274 Milhões de Dólares Então se investe muito nessa área para armazenar e manipular esses dados Ah tá falando um pouquinho sobre os tipos de estrutura de dados hum é esses dados a gente pode classificar de três formas em a gente tem dados que são estruturados da por exemplo bancos de dados na e planilhas a gente tem dados semiestruturados que possuem ali alguma informação de campo dentro desse Campo normalmente têm informação que não está estruturada contexto né então o e-mail ele tem por exemplo assunto na é um campo fixo mas o assunto mesmo né que é colocado para ele é uma informação de estruturada é um texto e também o campo da própria mensagem na da mesma forma e a gente tem os dados não estruturados que geralmente são texto puro figuras É vídeo não é conteúdo que não tem uma estrutura única na e quanto menos estruturado mais difícil é manipular esses dados tá a gente tem também a previsão também por tipos de atributo que existem nos dados que são armazenados Então a gente tem dados categóricos por exemplo tal dado Binário um tipo de dado categórico que guarda em uma informação de um estado entrou por exemplo é funciona não funciona existe ou não existe né um número binário some aposentado um outro tipo de exemplo né a pessoa ou está aposentado não está aposentada a a gente tem também informações ali nominais né que é uma informação de texto que não tem nenhuma ordem organização então por exemplo estado civil solteiro casado união união estável a gente tenta me dados ordinais né então os ordinais eles geralmente têm ali uma representa uma representação de texto que tem ordem na então por exemplo o nível Educacional né a gente tem ali em cima o ensino médio né a gente tem como classificar essa informação numa de uma forma ordenada né a gente tem os dados numéricos também na entre os numéricos a gente vai ter os dados discretos tão valores inteiros e que podem também obviamente ordenados né são numéricos a gente tem os valores contínuos então peso distância são valores é que prestem uma escala contínua e a gente tem ainda os dados do numéricos o tipo razão que geralmente vão representar em uma diferença entre valores né entre dois valores existentes então por exemplo a distância entre dois objetos pode ser considerado um valor de razão ou então a proporção entre dois valores que estão sendo medidos Ah tá é e os valores razão podem ser tanto discretos quando continuamos também tá ainda justificando um pouco nessa explosão essa quantidade de dados né a gente tem essas informações desse slides que se referem aí é Como as empresas lidam com esses dados tá então das 1000 maiores empresas do mundo 91 por cento lidam ali com investem né Inteligência Artificial e Big Data na então é fundamental para essas empresas trabalhar esses dados que elas coletam o que geram né para para os negócios né é dessas empresas 95% precisam lidar com dados não estruturados tá então isso é bastante importante também é tem que tratar esses dados oitenta por cento dos dados gerados no total da daquela montanha de zettabyte que a gente viu os dados não estruturados tá então são dados desestruturados e há uma previsão aí de que até 2026 o aumento dos empregos na área da decência de dados como um todo é atingir aí 28 por cento tá então é uma é uma área de trabalho no campo que tem muito a crescer ainda Tu tá aonde que estão esses dados né onde os dados estão armazenados hum a gente tem esse gráfico aqui mostrando né a partir daí de 2010 com uma previsão até 2025 tá de que esses dados se a gente observar aqui em 2010 os dados em nuvens públicas eram muito poucos né representava quase zero por cento dois três por cento dos dados EA partir de 2022 eles passaram então a predominar com a tendência de crescimento contrário do que acontece com os dados aqui do que ficar armazenados no consumidor né na casa das pessoas nos computadores pessoais que tem decaído né então a gente pode reparar que houve uma tá vendo uma migração desses dados das casas né dos computadores pessoais as pessoas para não vem tá E os dados armazenados empresas se mantenha estável o tempo nem para as corporações representa cerca de quarenta por cento de todos os dados armazenados são podem estar em nuvens mas são nuvens privadas né de acesso daquela Corporação ou daquelas corporações Ah tá ainda falando um pouco sobre tipos de dados né a gente vai ter os dados do tipo de multimídia né então os dados geralmente não estruturados como texto né que tá em formulário postagens notícias buscas imagens e vídeos a gente tem os dados estruturados principalmente na internet guardados em formulários né que são preenchidos pelas pessoas ali cookies que guardam também as informações do navegador da internet e dados as próprias aplicações aplicações que a gente usa e elas organizam as próprias aplicações tem esses dados organizados dentro do banco de dados da a gente tem ainda os dados gerados por dispositivos de riot o internet das coisas tá então por exemplo celular a gente tem um GPS embutido né na maioria dos smartphones e esse dado é coletado e guardado e pela pelos mais diversos aplicativos também além de outros tipos de sensores de internet das coisas também Ah tá é tem várias domínios que geram esses dados né então na ciência por exemplo é Os experimentos que são feitos aí pelos cientistas no mundo acabou gerando uma quantidade grande de dados né pesquisas por exemplo para relacionados com DNA é experimentos dos mais diversos tipos os dados pessoais também são responsáveis aí por uma boa parte do desses dados gerados né então dados pessoais nos aplicativos é dados que de informações nossas que são armazenadas pelo governo por exemplo e os dados comerciais né então usado comerciais Geralmente se referem a transações compras na internet negociações feitas compras de ações né Então essas são as a divisão da presença desses dados E aí como que eles estão distribuídos aí por tipos tá e bom eu falei sobre várias informações aí relacionadas com dados mas como é que a gente faz então para analisar essa quantidade gigantesca né de dados como que a gente trabalha ele cê consegue extrair informação e conhecimento desse monte de dados gerados tá bom é para falar um pouquinho sobre mineração de dados eu vou falar primeiro sobre mineração né então o que que é mineração né mineração é atividade de você extrair substâncias e valores a partir de um de um certo local tá esse local a gente costuma chamar de mina né Então essa imagem por exemplo mostra uma mina subterrânea poderia ser uma mina aberta também né no campo a mina é o lugar que vai concentrar alguma substância de interesse então aqui por exemplo a gente tem uma mina de ouro tá tem ouro aqui na misturado nessas rochas tá a substância aquilo que a gente vai querer extrair a partir da mina então podem ser materiais diversos ouro diamante Cobalto cobre nesta imagem Então a gente tem aqui Um um pouco de ouro aqui espalhado nas rochas né E esse é o material que a gente vai querer extrair Oi tá aí para fazer extração a gente vai usar diversas ferramentas né Por exemplo as escavadeira aqui não poderia ser uma picareta como essa aqui poderia ser uma peneira mas é a ferramenta que vai permitir a gente extrair ali algum conteúdo que está presente está misturado ali com outros com outras substâncias que não são do nosso interesse tá E aí a gente vai tentam um mineral que é aquele resultado né aquilo que a gente espera obter ali a partir da desse processo de mineração da isso é um material que a gente vai separar para uso tá por fim a gente vai então utilizar aquele material para o fim que a gente tem interesse ali né para seja para por exemplo construir um instrumento de ouro na uma uma joia na paz se você já o cobre por exemplo para fazer equipamentos eletrônicos em coisas desse tipo Então esse é o processo de mineração tá E vamos relacionar isso então com a mineração de dados né então No caso quando a gente traz isso para o domínio né da nossa disciplina a gente vai ver que a mina ela é a nossa base de dados né então é a base é de onde a gente vai pegar informações e vai a partir dali É começar a fazer análises né vai tirar as nossas substâncias tá a substância são os dados propriamente ditos tá então conjunto ali de Campos e atributos que estão naquela base de dados naquela mina tá em seguida a gente vai então fazer o uso de diversos algoritmos para extrair e fazer relações ali a partir daqueles dados tá esses algoritmos são o sentimento é o que a gente vai estudar nessa disciplina e o objetivo desses algoritmos é organizar aqueles dados e trazer informações a Então as informações são equivalentes ali ao mineral é o conteúdo que vai permitir a partir dele a gente obter conhecimento né tirar e os resultados daquela informação que foi gerada tá então esse conhecimento é o diferencial ali ao conteúdo que a gente vai extrair de todo esse processo da mineração de dados Ah tá E aí para relembrar um pouquinho né E falar aqui sobre as diferenças entre dado dados conhecimento dados informação e conhecimento tá então os dados são puramente as informações que estão o conteúdo né melhor dizendo que tá armazenado então por exemplo a gente tem aqui mil milibares 5.