Mineração de Dados - Descoberta de conhecimento em bases de dados (KDD)

7.03k views2516 WordsCopy TextShare
UNIVESP
univesp.br Mineração de Dados Univesp (Universidade Virtual do Estado de São Paulo) Professor: Higor...
Video Transcript:
E aí [Música] e essa aula que vai ser sobre descoberta de conhecimento em base de dados ou cadê Ah tá então Acabei de viu o significado vem aí do inglês é de Noé Discovery inteira bases daí o quê que é esse processo né Ele é um processo de transformação de volume de dados em conhecimento tá então a gente vai pegar ali todo o desde o início né da definição desses lados até a geração do conhecimento final tá é o Cadê ele é composto aí de tapas que são interativas e interativas então a gente pode fazer
modificações a cada parte do processo né então por isso aí a gente chama de imperativo e interativo que a gente pode voltar a qualquer momento em etapas anteriores do processo para refazê-lo Tá então vamos dar uma olhada nesse nesse processo de kdd A então o processo de kdd ele ocorre nessas etapas aqui mostradas nesse gráfico tá aí se você é um processo que ele é imperativo a gente pode fazer modificações entre cada etapa E a gente pode voltar nas etapas sempre que necessário Tá então vamos falar um pouquinho sobre essas etapas é a primeira etapa
é de definição dos objetivos durante a definição dos objetivos é que você vai determinar ali Qual é o domínio né dá aquele que se quer extrair informação tá então pode ser por exemplo que você esteja interessado em entender como é o perfil de consumidores uma empresa então aí você vai começar a pensar Quais são os possíveis conteúdos ali que você pode obter né E aí você vai passar para a etapa seguinte que etapa de seleção né então você a partir do momento que você definiu Qual o problema é que você quer entender melhor né Para
que você quer obter mais conhecimento você vai selecionar as possíveis bases de dados que permitem você extrair ali alguma informação útil nesse processo do kdb Ah tá além disso a gente tem também é a etapa de pré-processamento a gente vai falar detalhadamente sobre pré-processamento na próxima aula e essa etapa onde a gente vai fazer o tratamento dos dados antes de fazer de fato uso da etapa de mineração de dados tá é uma etapa associada a pré-processamento a etapa de transformação tá muitos autores consideram ela mesma etapa outros consideram ela em etapa separadas Mas elas estão
intimamente ligadas e durante a transformação que você vai preparar aqueles dados que foram pré-processados né que foram preenchidos corretamente por exemplo para o uso na etapa seguinte que a etapa de mineração de dados e a etapa de mineração de dados é considerado ali o núcleo do processo de kdd etapa mais importante na qual os dados que foram tão pré processados e transformados vão ser analisados pelos algoritmos de mineração de dados e a partir daí então é que a gente vai conseguir extrair informação relevante ali sejam padrões entre atributos desses dados né ou seja realmente ali
uma classificação daqueles dados que permitam a gente fazer análises né uma vez feito esse processo de mineração de dados a gente parte então para fase em que os especialistas né no assunto ali de interesse vão olhar aquelas informações naquelas relações o padrões e vão analisar e identificar conhecimento a partir daquela análise e aí e esse durante esse processo os resultados podem ainda não ser satisfatórios E aí você pode ter que voltar né na etapa anterior de mineração de dados por exemplo rodar no outro algoritmo Verificar novamente avaliar os resultados E aí fazer isso até que
você consiga obter ali um resultado que pareça interessante lá então e é a partir desta interpretação né é que a gente vai de fato obter o conhecimento que é esperado dentro desse processo né que vai ser realizado por esse processo Ah tá é vamos falar um pouquinho também da terminologia da área né porque a gente ouvi muitas vezes falar hora vamos usar algoritmos de Inteligência Artificial algoritmos de mineração vamos usar aprendizado profundo aprendizado de máquina né então vamos deixar claro que que são cada um desses tópicos aqui tá então vamos falar um pouquinho sobre a
terminologia e diferenciar aqui é o que que é inteligência artificial por exemplo do que é Ciência de dados na é qual a relação que existe entre esses domínios aqui na entre essas disciplinas Então a gente tem aqui que inteligência artificial é uma área que engloba os conhecimentos humanos na é que tenta simular ali o comportamento humano para fazer com que as máquinas consigam é pensar refletir resolver problema tá o aprendizado de máquina é uma sua bom então da Inteligência Artificial são aquelas técnicas que estão mais preocupadas com formas de aprender a partir da própria experiência
ou seja dos resultados que foram obtidos então a gente viu que naquele processo de refazer o a etapa de mineração a gente pode usar aqueles conhecimentos Foram obtidos para realimentar o processo E assim a máquina pode aprender a fazer obter resultados melhores a partir dali tá eu aprendizado profundo é uma sub ar então do aprendizado de máquina aquele dali principalmente com as técnicas de redes neurais Profundas tá a ciência de dados é uma área correlata com a área de Inteligência Artificial e aprendizado de máquina né então ela tem uma intersecção aqui com a área mas
ela além de utilizar essas Tec a inteligência artificial ou de aprendizado de máquina ela contém também todo o conhecimento ali dos especialistas né nos dados e a obtenção desses dados para uso dentro para enfim para você extrair informações úteis ali a partir dos dados tá o processo de kdd então ele tá dentro da área de ciência de dados tá e a etapa de mineração de dados como a gente viu né nos slides anteriores é uma das etapas etapa principal do processo de kdd Ah tá então o kbb é esse processo de fazer a geração ali
do conhecimento né do desde a seleção dos dados definição do domínio até obter de fato conhecimento e a mineração de dados então é a etapa núcleo né ali onde você vai extrair o conhecimento dos dados para gerar informação relevante tá a inteligência artificial ela vai lidar com programas inteligentes A então são programas que podem que permitem você é extrair ali um comportamento humano simular aquele comportamento para resolver um problema geralmente um problema específico né então a gente já era aí sistemas que são chamados sistemas especialistas na eles são focados em resolver um tipo de problema
específico tá e o aprendizado de máquina então é aquele processo no qual você vai é o o time vai aprender a partir dos resultados que ele obtém e vai melhorar nas próximas etapas até conseguir atingir um valor né um resultado que seja satisfatório Oi e aí vamos falar um pouquinho então sobre as tarefas né de mineração de dados essas que a gente vai ver detalhadamente durante essa disciplina tá primeiro falando um pouco sobre a divisão dessas tarefas aqui de acordo com o tipo de informação tá então a gente pode separar Essas atividades dessas tarefas em
descritivas e preditiva se tá as descritivas elas estão preocupadas ele principalmente em extrair ali o conteúdo dos dados não seja as propriedades que os lados tem E permitir que a gente tem um conhecimento melhor sobre os dados que a gente vai usar para trabalhar tá as preditiva se ela já vão fazer previsões a partir dos dados obtidos na então ela vai usar os dados para por exemplo você conseguir fazer classificações de novos dados né você usa um conjunto de dados existentes Você já conhece você treina o algoritmo para que ele reconheça aqueles aquelas características dos
dados e a partir daí você consegue usar novos dados e extrair e selecionar aqueles dados a partir do desse modelo que você criou Então esse conteúdo né permite a gente fazer inferências entre os dados relações entre atributos e e objetos ali que fazem parte de um determinado conjunto de dados tá E essa etapa Então na verdade que você vai possibilitar você gerar novo conhecimento tá durante a fase de análise descritiva você quer entender os dados e durante a fase preditiva você quer gerar conhecimento a partir dos dados Ah tá e as principais tarefas aqui na
a gente tem essa cinco categorias aqui que a gente vai estudar durante as próximas aulas aí eu vou introduzir cada uma delas aqui no restante dessa aula tá é começando pela análise descritiva de dados então é essa é uma fase na qual você quer então entender melhor os dados que você tem para saber as possibilidades que você tem de uso dele por exemplo ou para aprofundar a o detalhamento daqueles dados né então eu trouxe um exemplo aqui né a sobre que tem esse gráfico aqui na de setores aqui falando de eleições aqui a gente tem
3 candidatos tô candidato ABC cada um tem aqui uma uma uma proporção aqui de eleitores que querem votar né foi feito uma pesquisa aí sessenta por cento por eu disse que vai botar o candidato Ah tá então a gente tem os dados assim de uma forma bem resumida né bem sumarizada se a gente quiser saber mais sobre esses dados vamos supor que essa pesquisa ela tem a informações socioeconômicas dos respondentes tá então Pois é tem informações sobre a idade a região do país onde a pessoa mora classe social então se você quiser entender por exemplo
se os eleitores do candidato a né que declaram voto no candidato a se eles têm uma algum perfil de idade específico ou se são de alguma região você pode usar técnicas de análise descritiva para fazer esse detalhamento então você pode olhar por exemplo a média ou desvio padrão dos eleitores do candidato a b ou c O que é por exemplo se o candidato tem mais eleitores jovens mais eleitores idosos Então você consegue detalhando melhor esses dados e é para isso que a gente é usa análise descritiva Ah tá a gente tem a tarefa de predição
também tô na tarefa de predição o que a gente quer é classificar o estimar os dados a partir de outros dados que a gente já conhece então tá então a gente pode utilizar os atributos de um determinado objeto de um conjunto de objetos para separá-los em classes tá E daí vem esse nome classificação da um exemplo poderia ser um processo de análise de sentimentos tá Então essa é uma é uma área né da também da ciência de dados que busca entender a partir dali de conteúdo textual é qual é a sensação na qual tipo de
sentimento que as pessoas estão tendo em relação algum assunto é muito comum a gente fazer esse tipo de análise em informações de redes sociais né então postagens por exemplo né então a gente pode pegar aquele conteúdo é uau que tá nas postagens e dividir em classes é para saber qual o sentimento dos usuários em relação a um determinado assunto Tá então a gente poderia classificar partir do texto em um sentimento positivo neutro ou negativo tá um exemplo de tarefa de classificação Oi tá nas tarefas de agrupamento É ela tem uma semelhança muito grande com as
tarefas e classificação tá só que no agrupamento a gente não tem a informação sobre por exemplo quais classes os dados pertencem na Então a gente vai agrupá-los de acordo com as características dos atributos que eles têm na Então por similaridade de de atributos tá então o exemplo poderia ser o uso para análise de crédito então a gente pode ter um banco de dados com informações ali dos clientes tá renda idade o histórico de pagamento do cliente e a gente pode ir a partir daí a usar essas informações para indicar se o cliente tem um perfil
que merece receber crédito ou não Tá então a gente poderia separar esses clientes em dois grupos né Por exemplo aqueles que tem um bom histórico de pagamento Positivo né que pagam em dia é poderiam ter um mais facilidade de ser classificados aqui é dentro do grupo que pode receber crédito ou Então dependendo da idade né do da pessoa é um crédito prolongado pode ser mais difícil por exemplo para uma pessoa mais idosa Então essas técnicas usam essas informações para predizer aqui quando um objeto pertence a um grupo ou outro grupo e é lógico que dependendo
da do domínio que você for analisar Você pode ter vários grupos diferentes tá não fica limitado a dois grupos E aí e a gente tem as tarefas de associação também estar é fazer associação elas buscam entender as relações entre os objetos ali que estão presentes entre os atributos que estão presentes no mesmo objeto mas muito comum a gente usar em quando a gente está falando de transações comerciais então em transações comerciais a gente tem por exemplo vários itens que podem ser comprados juntos tá E aí você tem que identificar ali na na base né com
milhares ou milhões de registros quais são os produtos que são sempre comprados juntos então a gente pode analisar uma base por exemplo descobrir que a frequência com que se compra tênis e meia na mesma compra é muito alta é isso é esse tipo de informação é muito útil para empresas né comerciais por exemplo para fazer promoções ou sugestões então você pode sugerir um produto e para uma pessoa que tá comprando um outro produto esse exemplo né do tênis e meia para quem tá comprando um pênis você pode oferecer uma meia por exemplo Deixar ela próximas
foi uma loja física ou fazer ela aparecer ali nos itens de sugestão se for um comércio eletrônico aí dessa forma você consegue otimizar a sua vida você é feito dentro das tarefas de associação Ah tá a gente tem também as tarefas de detecção de anomalias E aí o objetivo dentro da detecção de anomalias é achar o valores fora do padrão né você tenta identificar valores que saem do padrão para justificar ali alguma necessidade do negócio então por exemplo você pode utilizar esse tipo de técnica para verificar fraudes em cartão de crédito esse gráfico que mostra
né o histórico de compras aqui de uma pessoa né o padrão de compras as compras dessa pessoa costuma variar entre 0 e 250 reais em algum momento aqui ela vai tentar fazer uma compra aqui de um valor de mil reais quer dizer algo fora do daquele padrão que ela costuma apresentar né Então essa informação outras informações como o local da compra o o histórico anterior da compra pode ser usado para gerar um aviso um bloqueio na nessa tentativa de uso do cartão de crédito tá Então essas são as técnicas na esses grupos de técnicas que
a gente vai estudar daqui por diante nas próximas aulas Tá legal obrigado a [Música] [Música]
Copyright © 2024. Made with ♥ in London by YTScribe.com