Curso Básico de Ciência de Dados - Aula 1 - Introdução a Ciência de Dados

59.47k views5999 WordsCopy TextShare
Hashtag Programação
Quer saber mais sobre o nosso Curso Completo de Ciência de Dados? Clique no link abaixo para garanti...
Video Transcript:
em qual a impressionar dores tudo bem a gente vai fazer uma série de aulas explicando para vocês todos os conceitos por trás um projeto de aprendizado de máquinas então primeiro eu vou conceituar os pontos mais importantes explicar o que que é o aprendizado de máquinas até pro quando vocês começaram projeto tiver chegando em alguma empresa vocês terem aço você tem bagagem para conversar até também quando você tiver fazendo uma entrevista para você conseguir mostrar para regar que você conhece esse assunto e você sabe como abordar esse assunto e que você entende do que você tá
falando depois a gente vai falar do panda as que caem análise exploratória aqui é sim fundamental por qualquer bom projeto de ciências de dados a gente também vai falar de modelo de classificação o modelo de regressão análise Deus e a gente termina todo esse conteúdo falam de como fazer o Deploy do modelo como colocar esse modelo em produção então nessa sala de aula a gente vai acompanhar esse conteúdo vai estar aqui no YouTube toda semana a gente também vai criar uma playlist então espero que isso ajude muito vocês só que antes a gente começava a
pedir para você deixar e curtida seguir aqui se você ainda não e aproveitar para baixar o material que está aqui na descrição desse vídeo e gente curte porque isso ajuda muito a gente saber que vocês estão gostando desse tipo de conteúdo e ajuda a motivar trazer cada vez mais conteúdos como esse Então bora lá ó [Música] bom então para gente conversar fazer ciência de dados mas o que é Ciência de dados e eu gosto muito de conversar com essa definição aqui porque ela é bem completa Ela traz todos os pontos que a gente precisa ter
atenção em um projeto como cientistas de dados e essa definição diz que a ciência de dados vai ser o processo de exploração e manipulação e análise dos dados Então a gente vai explorar os dados que a gente tem vai manipular esses dados e analisar e verificar o que que existe ali nos dados como os dados estão se comportando se existe algum padrão e gente faz isso para descoberta e previsão então anteriormente a gente olhava muitos dados para entender o que aconteceu entendeu passado aqui a gente consegue entender o futuro e não só isso a gente
consegue encontrar padrões que antes estavam escondidos nos dados então Exatamente esse o diferencial de ciência de dado se você tá conversando com alguém do RH e eles e eles pergunta ahmm por que que você usaria sem assustados na empresa exatamente para isso para encontrar coisas que a empresa nem sabe o problema se ela nem sabe que tem a fazer previsões de venda previsão de demanda previsão de várias coisas que vão melhorar realmente o negócio que você está inserido além disso a ciência de dados é feita através de hipótese teste e validação e isso aqui exatamente
o processo científico você vai procurar alguma coisa você vai definir as hipóteses aí você vai testar com seus dados vai validar para verificar se isso que você criou a hipótese respostas que você criou realmente está acontecendo realmente existe nos dados e principalmente se existe no processo que você colocou em produção Então isso é o processo científico é extremamente importante no processo científico também a gente busca hipóteses não só dentro do nosso negócio a gente busca outras pessoas que tiveram o mesmo problema busca-se outros algoritmos de ação fez para solucionar um problema que a gente está
lidando então cientista isso Senti até buscar referências buscar informações testar errar a gente vai errar muito a gente tem que estar ciente a gente vai errar e vai encontrar o melhor modelo a partir desses erros o objetivo disso é responder perguntas o negócio do negócio ou até fazer recomendações como eu tinha falado para vocês e o que que é um processo ele tem uma base em três pilares o primeiro Pilar o embasamento estatístico ou matemático muito forte porque não adianta nada você definir um modelo super ótimo que funciona ali só que eu mandei não tem
validade estatística a sua mostra não é válida então definir um modelo ali para avaliar alunos por exemplo só que você tem 25 alunos e aí você tava olhando o professor como amostra muito pequena de alunos isso é real isso aconteceu lá nos Estados Unidos e gerou muita discussão sobre a ética nos modelos de aprendizado de máquina que eles usaram uma base muito pequena e não existe uma validade estatística tão grande além disso ele tem que ser diretamente ligado a um negócio adianta nada você falar o melhor produto é esse produto x só que fruste foi
descontinuado os produtos x não conseguem ser enviado para as lojas tem que fazer sentido com o negócio que você está e principalmente precisa ter uma base de tecnologia muito forte o que precisa ser feito de forma escalável e replicável não adianta nada você fazer um modelo que demora 5 horas para rodar e você precisa gerar informação uma hora preciso gerar no momento vamos supor que você faz uma análise perfeito ali que o cliente é bom ou ruim só que tu demora 5 horas para rodar na hora que você coloca o modelo em produção você acha
que o gerente de banco vai ter 5 horas por ficar esperando rodar na frente do cliente isso não é Instalado não é replicado então a gente não pode usar esse modelo que a gente criou por mais que seja um modelo ótimo porque ele não funciona no dia a dia da empresa então esses três pilares que a estatística negócio de tecnologia tem que andar muito juntos para gente ter um bom para jato de ciência de dados e falando em ciência de dado Exatamente isso a gente pode levar por definição essas duas palavras primeiro a parte de
ciência diz que existe um método científico Então a gente vai fazer observação hipótese teste validação analisar monitorar depois que ele já tiverem produção e dados é que a gente precisa os dados Então se alguém chegar para você falar eu quero que você faça um projeto de senso de dados e não existem dados não adianta a gente pode fazer outros projetos pode fazer outras coisas mas sem dados a gente não consegue fazer o nosso projeto e agora uma coisa que pode parecer muito simples mas que é uma ser uma peça chave de sucesso de projetos at
lado é ter muito claro o que eu quero responder e para fazer uma brincadeira eu gosto muito de utilizar esse livro aqui que alguém do Mochileiro das Galáxias onde eles criam uma super máquina para poder conseguir responder à pergunta qual a resposta da vida do universo e tudo mais e máquina responde 42 tem algumas discussões porque 42 mais basicamente a máquina de spray ele que se você não sabe a pergunta qual que é a resposta serve então se você pergunta uma coisa muito mapa você responder qualquer coisa é válido então tomem esse cuidado entendeu com
o negócio que vocês querem responder a linha expectativas que vamos supor que você faz um projeto excelente seu projeto que 98 por cento de acurácia e ou seja em novo e os carros ele é certo só que o seu cliente esperava sem por cento e se você não ligou com ele com aquela accuracy aquele espera não é real que a gente não vai conseguir essa coração de 100 porcento ele vai ficar decepcionado porque por mais que o seu resultado ou seja muito bom ainda é inferior ao que ele esperava então não só para definir bem
um projeto e para conseguir gerar os dados que fazem sentido de que o negócio que você precisa fazer saneamento mas também que poder entregar o meu projeto entregar o que o seu cliente espera e aí quando a gente fala mesmo de sinceridade a gente tá falando exatamente desses três pilares que a tecnologia e automação negócios e matemática estatística e a ciência de dados é atualizado a mente interseção Entre esses três e se pode me perguntar mas Lucas não existe ali uma relação que tecnologia negócios entre tecnologia e matemática existe existe bastante internacional esses Pilares por
exemplo entre tecnologia negócio a gente tem um sofre as tradicionais como Excel sass entre negócio de matemática desde sempre desde do passado que as pessoas USA a soma uma média entre a média de venda e também que tecnologia matemática a gente tem uma shimmy só que a ciência de dados não é só Mach Lane é aplicar Mas isso não há coisas que fazem sentido dentro do negócio e por isso que a gente tem que tomar cuidado porque se a gente olha por exemplo 2 A Dori seus Pilares a gente pode termos muito Absurdos Como por
exemplo o banho da base pode não ser viável a gente quer fazer uma análise aqui a gente tem bastante informação a gente tem toda a parte de negócio tem toda a parte matemático só que a base é tão grande tem gente não consegue processar eu tenho que fazer um modelo Excel tenta fazer um modelo em outro programa só que a base é muito grande então a gente precisa Tech tecnologia para conseguir processar ainda mais que atualmente tem cada vez mais dados com dados de Twitter dados do Instagram dados Tik Tok então a gente precisa ter
a tecnologia para conseguir processar todos esses dados ou por exemplo se eu tenho a relação entre tecnologia negócio que eu sofre usar o sofre tradicionais eu posso chegar com já estão corretas só que estatisticamente ela tem pouca validade Então vamos supor eu tenho duas cidades eu quero escolher qual o melhor destino então quero sugerir destinos para alguma pessoa ou sugerir destinos um site que eu tenho a sua cidade aqui que tem a primeira cidade tem uma média de temperaturas de 30. 5 a segunda cidade pelo médio temperatura de 31.3 seu surgiram para essa pessoa a
vai para Cidade dois Porque como você tá indo para uma cidade melhor vamos supor que ela tá indo em abril ou em maio Olha isso daqui ela vai pegar uma temperatura muito fria Então essa sugestão que você deu para ela foi horrível porque você errou então você errou porque você não entende isso conceito estatístico da Média porque só com a média a gente não consegue dizer qual a melhor cidade para ir visitar uma praia a gente tem que entender como que essa temperatura está distribuída se tem um desvio muito grande ali de meus dados se
eles estão muito dispersos então só a média não vai nos dizer muita coisa então tem que tomar esse cuidado tem que entender estatística por trás o que a gente e para fazer sentido e fazer sentido principalmente estatisticamente você já tem uma validade nos dados que a gente está gerando esse olho por exemplo somente a parte de tecnologia e de matemática eu posso gerar resultados com validade estatística mas sem nenhuma significância para o negócio então vamos supor que eu tonalizando ele quatro formas de fazer publicidade e uma delas é o Orkut o Orkut na época que
a empresa fez a cinco anos atrás geravam retorno muito grande e se eu falo assim a empresa investe no Orkut que é melhor solução a empresa eu vou chegar para mim e falar como assim não faz sentido no que hoje a gente dá um tem mais Orkut eu tô dando um exemplo muito Pizarro para vocês conseguirem se localizar mas a gente vai falar assim a aumenta a venda de tal produto coloca um produto do lado do outro só que quando eu falo coloca um produto lá do outro e se for por exemplo uma roda de
carro e um biscoito não faz muito sentido eu vou atrapalhar a circulação da loja então você tem que entender com o negócio se aquilo que você está gerando tá fazendo sentido Então por o centro de dados da exatamente nesses três pilares é fazer coisas como a capacidade tecnológica muito forte que tenham validade estatística então a gente não pode fazer algo simplesmente por fazer porque senão é muito mais fácil usar média usado e um número aleatório uma distribuição aleatória porque se não tem validade estatística o que eu tô gerando não é muito confiável e principalmente que
façam sentido com o negócio então tenho que responder as perguntas do negócio então eu chego com um negócio e fala ah à venda de carro elétrico tá bombando você deveria produzir carro elétrico e o negócio em uma fábrica para isso não tem condição de vir a produção para casa elétrica agora não vai adiantar nada projeto que você tá fazendo tudo bem pode ser um projeto daqui a 10 15 anos mas agora ele quer resolver um problema e você tem que entender esse problema que ele quer resolver por isso é tão importante você saber o que
eu quero responder tem também outros exemplos Esse é o que a gente poder por exemplo o gato da Alice a quando você não sabe o que o caminho que você quer qualquer caminho serve então saibam se você quer responder Oi gente do com negócio garanto que existe uma validade estatística e garanto que isso vai ser feito de forma escalável então uma base tecnológica muito forte e aí se você tá pensando Nossa mas não ciência de dados está muito longe de mim eu nunca vou usar isso eu não sei nem como que ela não interfere e
uma coisa que tá sendo extremamente discutido atualmente exatamente o algoritmo do Instagram as pessoas ao nosso algoritmo está me boicotando o algoritmo funciona o algoritmo tá horrível e tudo isso é aprendizado de máquina o que que será que o algoritmo tá assim será que não é o Instagram que está querendo direcionar o seu conteúdo que dessa forma porque o que acontece o Instagram tem uma forma de determinar como algoritmo funciona e essa forma que determina que o algoritmo funciona consequentemente determina o conteúdo que os criadores produzem porque são goritmo entrega mais Rios os criadores vão
produzir mais Rios porque entendem que essa é uma forma de conteúdo que funciona melhor na plataforma o algoritmo começa a reduzir entrega de rios começa a entregar mais históricos os influenciadores vão começar é mais história O que é todos eles querem aumentar o engajamento então Instagram consegue controlar até o que as pessoas estão produzindo para plataforma neste ano nessas informações do algoritmo Então tudo isso que você ganha no seu feed O Rios no explorar é o algoritmo do Instagram está te indicando e ele funciona o tempo real no momento que alguém faz com a publicação
Ele termina será relevante ou não para você Em qual posição ela vai aparecer no seu feed não tão instagram' Netflix também faz isso para poder indicar qual vai ser melhor filme A melhor o melhor série para você e todos eles querem te manter mais tempo na plataforma porque o Instagram quando você fica mais tempo ele consegue te vender mais produtos consegue ter mais dados sobre você até para vender por exemplo a sua formação para outra empresa que querem mais KB dados do cliente ou que queira colocar uma propaganda no Instagram o Netflix já é um
pouco diferente ele quer manter você na plataforma porque ele é um serviço de assinatura quanto mais você fica na plataforma Mas você sente que tá fazendo sentido aquele dinheiro e a menor chance de você sair aonde há outros exemplos muito maiores do uso de aprendizado de máquinas como por exemplo carros autônomos quando um carro autônomo começa a dirigir sozinho ele tá fazendo isso utilizando aprendizado de máquinas inclusive você tá ajudando o carros autônomos como por exemplo você marca a isso aqui é um sinal de trânsito Isso aqui é uma placa Isso é uma faixa de
pedestre você tá ajudando carros autônomos aprender e Essa não é a primeira vez que você tá ajudando algoritmo de aprendizado de máquina aprenderem quando você tava escrevendo lá a qual palavra essa daqui a essa palavra que a banana essa palavra que era maçã isso o Google tava usando você para ajudar a traduzir textos traduzir livros antigos e que a palavra não tava de forma tão legível Então tudo isso é aprendizado de máquinas e a gente está inserido nele mais que a gente imagina e agora só pra gente realmente consolidar essa informação mostrar para vocês as
principais fases eu vou te mostrar um passo a passo que a gente sempre pode seguir como boa prática projeto de aprendizado de máquinas e ciência de dados e a gente vai ver um exemplo prático de como organizar de máquina foi usado ou enorme empresa americana de venda de varejo Então vamos apresentar agora os principais passos que a gente deve seguir em um projeto de ciências de dados e só para dar base teórica que a gente usou para poder criar esse porque a gente vai apresentar para vocês a gente começou utilizando crisp DM que é o
cross indústria estão nos próximos por data-main e que bastante gente utiliza esse de tapo também o processo de ciência de dados e e diz que basicamente um pros um projeto de data baile deve ter seis etapas fundamentais a primeira delas é o entendimento do negócio depois o entendimento dos dados a preparação dos dados análise e modelagem validação e a preparação e visualização da apresentação do que a gente vai entregar para o nosso cliente eu gosto de adicionar algumas etapas por mais que esse processo seja muito completo eu gosto de deixar muito claro algumas etapas Como
por exemplo o entendimento do negócio separar em definir o problema então qual o problema você quer resolver e depois e as expectativas porque eu gosto de separar essas duas formas porque quando você tá definindo o problema é uma coisa muito mais interna que você tá entendendo o que tá acontecendo você tá entendendo o negócio depois que você entendeu sabe o problema que você tem sábado e como que funciona as coisas aí você vai alinhar expectativas Então você volta com o cliente fala óleo para esse problema eu espero um tempo de duas semanas de um mês
de três meses 5 meses e aí a gente consegue aqui tem uma acurácia já estou tendo o centro uma curasse os 90 ou qual é o curasse que você espera essa cor acho que você espera a gente não consegue atingir então a quero uma coragem de 100 porcento Olha a gente não consegue atingir o meu coração que tem por cento mas Em contrapartida a gente pode chegar no meu coração de 89 95 96 só que para essa curar 196 eu vou ter que ter um tempo um pouco maior Então em vez de três meses você
quatro você tá disposto Então você é a linha ali com o cliente o que você vai entregar o que você pretende entregar e deixaram muito Claro não vai ser o único O que você vai fazer esse alinhamento mas é sempre importante que o cliente esteja ciente do que está acontecendo Eu até gosto de superior para mostrar para ele aí eu tô nessa etapa depois eu vou fazer isso depois eu espero fazer isso pode ser que eu volte Então até como forma de começar um projeto de centro de dados esse afirmou que eu tô mostrando aqui
para vocês é bem útil então depois que você é linda ou expectativa aí sim você vai entender os seus dados quais dados você tem como esses dados estão e muitas vezes na parte definição do problema e já vai entender esse existem dados a uma desses dados estão como eles funcionam como que está estruturado mas agora que você animou expectativa e definir o problema aí sim você vai mergulhar no dado para verificar baixo vai verificar com qual frequência de atualização como esses dados estão lá esse dado aqui não tá atualizado cidade aqui tem muitos valores nulos
E aí se necessário eu gosto de deixar você tava aqui de engenharia de dado que não necessariamente a gente que vai fazer isso mas muitas vezes a gente vai ter que ter as interface com o engenheiro de dados de falar é preciso demais dados eu preciso uma frequência atualização melhor eu preciso que esse tratamento seja feito então a gente vai ter essa interface EA muito importante a gente está ciente disso E aí depois que a gente fez isso aí sim a gente vai preparar os dados e o que que é preparar os dados é tornar
os dados prontos para a gente colocar o nosso jupyter nosso arquivo que a gente está analisando Nossa arquivo que a gente vai começar ali a fazer o nosso projeto de ciência de dados E aí depois que a gente coloca esses dados importa coloca tudo aonde deve estar aí sim a gente passa a tratar de análise modelagem e Aqui começa uma das principais etapas do projeto que análises exploratórios agora você vai entender os seus dados seus dados estão jantar ficamos seu arquivo Júpiter Ane você vai começar a tratar ele começar a visualizar o que tem vai
conversar com quem tem a correlação entre os dados como que funciona os dados 2 a 2 3 a 3 e tem dados vazios se tem dado informações faltantes se tem informações a gente tá discrepante demais que a gente chama de Out Live e você vai começar a entender agora até para você conseguir preparar também o tratamento que vai ser necessário então a por exemplo acho que nesse dado aqui eu vou ter que tirar os valores vazios e trocar aquela média nesses dados aqui faz mais sentido eu só eliminar todos os colonos que tem valor vazio
porque a média não faz sentido Então você precisa entender os dados que são na sua base para conseguir garantir que vai ser um bom projeto de ciência de dados e depois que você entendeu Aí sim você vai tratar Então vamos supor a eu tenho que uma informação que não está fazendo muito sentido essa coluna aqui tá me atrapalhando eu posso tirar essa coluna ou a eu tenho uma coluna que é um valor diferente para cada para cada um já que faz sentido a manter porque isso não me ajuda em nada a fazer previsão tão tudo
isso vocês tem que entender tem que estar muito bem claro na cabeça de vocês porque Somente depois de entender e tratar os dados a gente vai colocar as informações do modelo e Tem um ditado que eu gosto muito que é lixo entra lixo sai se você coloca na descrição sou modelo de nada mas é fazendo o quê entregar dados ruins para vocês então tomem cuidado e gasto muito tempo em geral a gente vai gastar setenta por cento do tempo nosso projeto nessas etapas aqui porque a parte de modelo a parte de depois apresentar não é
tão demorada mas a parte de tratar o dado é muito demorada porque ela é muito importante e aí quando a gente fala dessa sequência de etapas como se fosse uma coisa linear Às vezes a gente vai precisar voltar com o por exemplar eu olhei na análise exploratória que eu achava que tinham dado mas eu não tenho então você pode entender melhor esse dado pode voltar a levar nossa Na verdade eu preciso de outro dado porque eu achei que essa coluna que era uma coisa e na verdade a outra Nossa Na verdade agora o que eu
preciso não essa coluna é a coluna X é a coluna Y Então essa etapa aqui pode ser que você volte depois você vai de novo fazer análise exploratória depois você perceba que precisa de mais alguma coisa e isso também é muito importante alinhado com o cliente o que ele tem que entender que no tratamento de dados Pode ser que surja alguma coisa que você precisa e voltar um pouco e ah tá oi oi mas tudo bem não vai demorar o tempo que demorou essa primeira vez que você fez Então esse vai ser um pouco mais
rápido mas isso acontece isso é normal no projeto de ciência de dados e se você não vai ganhar isso com cliente também ele pode achar que Nossa você tá perdendo tempo tá fazendo coisas necessário ou a você não sabia o que estava acontecendo Então deixa isso muito claro a linha expectativas porque agora você não teria problema nenhum se expectativas tivessem bem alinhadas e aí beleza garantiu que o tratamento Tá feito garantiu que tá tudo certo aí sim você vai colocar o dado no modelo e definir o melhor modelo quando a gente fala de destino melhor
modelo não é só ficar colocando vários modelos é colocar os modelos que visem é analisar o erro é verificar se o erro tá acontecendo mesmo não só nos dados de treino mas não dados de teste verificasse os meus o meu modelo não só de cor ou aqueles dados meu modelo está sendo generalizado Ou seja que ele funciona os meus dados de tem mais funciona para qualquer outro dado porque basicamente a gente quer fazer é prever com os novos dados que vão entrar só que a gente com esses novos dados ir para garantir que vai funcionar
nesse novidade a gente separa os dados para gente treinar o modelo os dados para gente testar e esse dado de teste é como se fosse novos dados entraram e ele e o modelo precisa funcionar também nesses dados Então beleza garante que o modelo funciona então tem os dados de treino quando nos dados de teste e aí sim eu faço essa validação o meu modelo funciona tá funcionando os áudio teste tá funcionando saúde teste não tem problema nenhum beleza aí a gente validou o modelo e o modelo tá pronto para ir para produção e antes de
ir para produção claramente a gente vai apresentar esse modelo ele não sabe o nosso chefe de a a gente conseguiu gerar isso daqui esse aqui foi o resultado gerado Esse aqui foi a melhor em relação à Média a melhor em relação ao modelo que existe atualmente a empresa isso tá ok para vocês e aí nesse momento pode acontecer duas coisas ou ele fala que tá beleza perfeito funcionou então a gente pode implementar ou ele não tem algum problema eu preciso que você revise na ver e o Eric você conseguiu escrever a venda mas consegui escrever
Qual o melhor item para enviar para loja e por isso o entendimento do negócio é tão importante que imagina você fazer todo esse processo chegar aqui no final de ver que não era aquilo que o cliente queria saber ou ver que o que ele te falou não era exatamente o que ele tinha na cabeça então deixa muito claro o que tá na cabeça do cliente no papel e de confirme com ele é isso aqui olha o meu modelo vai gerar isso daqui formalize isso nosso isso para ele porque depois você evita muito problemas com preservar
mas eu perguntei isso mas na verdade eu queria saber outra coisa a você não gerou que eu tava esperando então deixe tudo muito alinhado porque esse final aqui você garante que beleza Vai dar tudo certo e você vai direto para a implementação e claro Aline durante o projeto olha outra gerando isso daqui é isso o que que você espera Olha lá na área exploratória eu consegui encontrar isso isso isso tá fazendo sentido com o negócio ou não pode ser algum problema no dado que se tiver problema não dá aí você vai precisar voltar lá né
tapa de engenharia fazer os os pássaros E aí sim tratar com os dados corretos então garanto que você tava torcendo muito bem feita e depois que a gente implementou a gente vai fazer etapa de melhoria contínua e monitoramento e ajuste então nosso modelo ele pode funcionar perfeitamente caracterizado Mas vamos supor que a gente criou o modelo antes da anemia quando chega a pandemia os dados mudam completamente toda a situação Muda então você precisa continuar melhorando seu modelo e fazer essa melhoria contínua garante ficar agora com os dados a poder isso aqui muda isso aqui muda
eu não posso mais vai dar uma base de cinco anos eu tenho que fazer a vontade de três meses porque o perfil da LTDA ME empresa mudou muito então garanto um sempre que o seu modelo está sendo melhorado tá sendo ajustado quando necessário e se for preciso se vocês estão fazendo as melhorias que vocês precisam fazer um modelo e eu gosto muito exatamente de mostrar esses Passos O que são passos que a gente pode seguir junto com o cliente olha agora eu vou definir um problema a gente vai passar por essas etapas aqui hora essa
etapa e os dados e de engenharia talvez a gente precisa voltar quando eu tiver aqui fazendo tratamento E aí Vocês conseguem até mostrar para levar agora eu tenho preparação dos dados hora que eu tô encontrando Nossa eu terminei minha análise exploratória é um Marco aqui do projeto então quando eu terminar eu vou te apresentar o que eu encontrei porque muitas vezes as informações que a gente acha Na hora do Oratório tem um cliente sabia então aqui a gente já pode começar a Gerar valor para a empresa então a minha com ele mostra em tudo e
usem essas etapas aqui até preguear em vocês também ah eu tô esquecendo de fazer alguma coisa a Será que eu deveria ter feito isso olha essa etapa aqui são máquina etapas que vão ser extremamente útil nos projetos de ciência de dados de vocês é isso só para a gente fechar de forma bem rápida eu vou dar um exemplo prático de como a ciência de dados foi usado e é um exemplo é exatamente do Walmart que ele tava vendo ali que tinha um furacão e ele queria prever o que que seria o melhor item para ele
mandar para as lojas e um outro furacão que também estava se aproximando e como e é isso o Walmart já tinha dados guardados ele já tinha essa cultura de ciência de dados E aí com isso ele começou a pesquisar ali nos dados históricos dele em relação à último furacão que aconteceu qual seria o melhor item para mandar para loja e realmente itens de primeiros socorros claramente estavam sendo mais vendidos então isso ele já sabia porque não queria procurar nos dados é se tinha algum padrão que ele não conseguia perceber algum padrão escondido nos dados e
ele encontrou exatamente uma sugestão de aumentar o estoque desse tem que desse pop-tarts o que que esse pop tá é basicamente um biscoitinho que você consegue colocar na torradeira consegue congelar consegue comer de várias formas e ele percebeu que no último furacão a procura por esse tipo aumentou muito então a sugestão dele foi a aumento estoque desse item e o que eles fizeram foi exatamente enviar caminhões para as lojas de se ele tem aqui que é o pop tart e qual foi o resultado um aumento de venda desses e Esse aumento não seria possível se
eles não tivessem feito envios Exatamente porque não ter estoque E aí na verdade eles poderiam perceber que é um item de alta demanda com a ciência de dados e encontraram padrões que tava meio ocultos nos dados apontavam de forma tão Clara então Eles aceitaram esses padrões aceitaram a sugestão cientistas de dados fizeram Esse aumento de estoque e verificaram que realmente aconteceu que a ciência de dados prever e poderia não ter acontecido poderia ter aumentado em duas vezes a venda ou poderia nem ter aumentado só que a cultura de uma empresa que a data vivem que
é muito voltada dados permite essa sugestões permite esse acertos e até novos erros e isso aqui é exatamente um ótimo exemplo de um projeto de ciência de dados e só para explicar para vocês isso foi feito em 2004 então Walmart já tá usando essa cultura do centro de dados há muitos anos a 20 anos atrás praticamente E é isso que está crescendo cada vez mais só que na verdade com empresas grandes empresas que estão tomando a liderança já usou isso é como um Marco Netflix Instagram e várias outras empresas que hoje a gente olha assim
admira muito inclusive a Amazon em só para a gente fechar Olha como todas essas etapas de ciência de dados estão aqui a primeira entendimento do problema do negócio o que que ele queria entender ele queria saber de como aumentavam as vendas em relação a períodos pré furacão ele tinha um histórico de dados então existem dados que ele poder analisar Ele criou uma hipótese com os dados ali ele colocou a hipótese de que provavelmente esses em Pop tá não aumentar as vendas no próximo furacão e ele fez o teste então não foi só a isso aqui
vai aumentar isso é um review mas eu não sei se isso realmente acontecer mas ele testou ele enviou esse tem para as lojas aumentou o estoque e ele validou isso então Teve um aumento real tiverem 7 por cento e a validação não quer dizer apenas que funcionou pode ser uma validação de cá essa hipótese é que deve ser descartada porque ela não funciona mas isso é testar isso o processo científico Eu não me importo de baseada nos seus dados você testou isso se realmente acontecer na prática e você é válida e pode ser humano para
validação positiva que realmente aconteceu uma validação negativa e aí se for localização negativo Você vai procurando outros itens esse aqui é um exemplo que deu certo mas pode ser qual Marcos tentou outros itens entre outras situações e não deu certo esse aqui é só exemplo muito conhecido e a um exemplo Muito bom até para vocês conversarem com vocês tiverem fazer uma entrevista DH quando estiverem conversando com alguém ou quando entrar em uma empresa e ele pensou que não da nossa mas aonde foi usado ciência de dados Nossa tem um caso muito famoso então caso do
mar porque é um caso também muito conhecido Inclusive eu comprei o pop está se estudar para ver para provar Exatamente isso daqui é um biscoitinho que vem no saquinho assim e aí você abre você pode comer tanto ele puro ponto colocar na geladeira Exatamente isso aqui o pop star para quem tem curiosidade você está dando para ver mas era isso então eu queria mostrar isso tudo para vocês para nós a importância da ciência de dados que como ela está extremamente presente o nosso dia a dia e também dá um pontapé inicial nesse processo de cientistas
de dados de vocês Espero muito que tenha ajudado na próxima aula a gente vai falar sobre o pandas e a gente vai realmente começar a colocar a mão na massa Espero muito que vocês tenham gostado desse vídeo se você ainda não deixou a curtida deixa curtida segue a gente aqui se você ainda não segue compartilha esse vídeo com os amigos também e eu vou deixar aqui na tela algumas outras sugestões de vídeos sobre Ciência de dados e na próxima semana a gente traz mais conteúdos dessa playlist Beleza Espero muito que vocês tenham gostado tchau
Copyright © 2024. Made with ♥ in London by YTScribe.com