Introdução à Ciência de Dados - Ciência de Dados e a Indústria 4.0
19.13k views3890 WordsCopy TextShare
UNIVESP
univesp.br
Ciência de Dados - COM350
Univesp - Universidade Virtual do Estado de São Paulo
Profess...
Video Transcript:
E aí [Música] E lá vamos para a nossa segunda aula da disciplina de introdução à Ciência de dados a gente vai falar um pouquinho sobre Ciência de dados e Indústria 4. 0 seja qual que é o nosso cenário aí que que tá acontecendo porque a gente tá tendo tanto os movimento tão grande em relação a ciência de dados primeira coisa queria falar para vocês sobre dado informação e conhecimento é um dado né é o menor e mais simples elemento de um sistema é uma unidade indivisível extremamente objetiva geralmente abundante e que tem o papel de registrar um fato um evento considerado um elemento de fácil manipulação e transporte Então quando você quando as coisas vão acontecendo você vai gravando informações em banco de dados normalmente essas informações ou gravando sendo gravado A separado por exemplo um valor lá r$ 30 aí tem muita informação que é o endereço aí tem outra informação lá que é um horário outra informação O que é uma quantidade Esses são Dados dados que estão soltos nos mais variados contextos agora basicamente A informação é um conjunto de dados dentro de um contexto por exemplo eu fiz uma compra que custou r$ 30 entre uma determinada data né que eu comprei um chamado produto então quando eu junto todos os meus dados eu tenho uma informação o que que aconteceu naquele momento então eu consigo registrar o fato todo né eu sei o que aconteceu e o conhecimento é uma informação que devidamente tratada muda o comportamento do sistema ou seja quanto que essa informação dessa compra né pode me ajudar a tomar decisões pode me ajudar como prender um contexto seja ele qual for apartamento que essa informação me ajuda a entender um processo nela passa ser conhecimento bom eu queria falar para vocês sobre o cenário nacional que a gente vive né é a evidência daí Porque não efervescência de a indústria 4. 0 que fala um pouco da quarta Revolução Industrial né Dub direita Não tem como negar que a gente a gente produz dados absurdamente né e e esses dados estão sendo cada vez mais utilizados é do ighoot né que a internet das coisas Muitas coisas hoje em dia né Elas eram dado o tempo todo internet das coisas é o que é esse conjunto de elementos que a gente tem em qualquer lugar é de ferramentas que ficam gerando dados vou coletando dados conectado na internet gerando gerando informação o tempo todo A Gente Tem a certeza né do uso de dados por grande parte das grandes empresas e uma outra coisa que a gente tem também é a questão da lgpd ou seja lei geral de proteção de dados dos dados estudar dados né e manipular da dura uma coisa tão importante que até uma lei foi criada para isso é importante que a gente se preocupe com isso né analisar dados estudar dado não é simples a gente vai falar disso mais para frente é importante que você saiba que a gente tem uma lei relacionada essa questão de análise de dados a indústria 4.
0 é o que que é isso efetivamente né blusa 4. 70 relacionada a quarta Revolução Industrial então a gente fala da primeira revolução industrial a né que é a que aconteceu lá em 1780 que é quando a gente começou a mecanizar a produção a primeira mecanização da produção é quando a gente começa a ter as coisas rodando né quando alegando que começa a as engrenagens começam a se conectar coisas bem arcaicas lá de praticamente 150 anos atrás depois né já e fazemos três anos atrás depois já e870 a gente tem o que até que nos como eletricidade então trouxeram o que a segunda revolução industrial a eletricidade mudou a vida das pessoas mudou e ela continuou transforma nossa vida até hoje depois né veio a ter a produção industrial que aconteceu mais ou menos lá no sino 70 mais ou menos quando a gente passou até a automação né você já quando máquinas começaram a fazer coisas deixaram de ser manuais e a indústria começou a fazer com máquinas né veio Ford SMU esse tipo de coisa então a gente começou a fazer uma esteira de processo e agora a gente chega na quarta Revolução Industrial O que é a quarta Revolução Industrial é uma revolução que vem amparada pela Inteligência Artificial pelo Big deita pela computação em nuvem pela realidade aumentada pela internet das coisas pela robótica autônoma ou seja todas as novidades que fazem parte do nosso dia a dia é que fazem parte agora do nosso cotidiano e que Eles mudaram a maneira de fazer as coisas Então essa é considerada a quarta Revolução dos cartão indústria 4. 0 é a indústria que vem se faltando né pelo uso deles artificial de robótica de Big Data que é o que a gente está estudando aqui eu queria mostrar ensinar para você é muito interessante muito interessante mesmo essa imagem do lado esquerdo né mostra cinco maiores companhias mundiais em 2010 na época a 5:00 companhias era o ex o móbil petrochina a Apple se você quer banco enfim era uma empresa não é baseadas em petróleo pessoalmente as suas primeiras ali banco tal e a gente tinha Apple e Microsoft ali empresa que mais valia na época valia 343 biliões de Dólares passados 10 anos essa aqui é um cenário de 1º de julho de dois mil e vinte né passados 10 anos a Apple passou a ser mora empresa do mundo passando a valer 1,5 trilhão de Dólares Então a gente tem ali na lista das melhores das maiores agora em 2020 Apple Microsoft Amazon alfabética é o Google e Facebook ou seja empresas de tecnologia trabalho é o quê com dados com a sua informação ah ah mas o apesar de ser uma empresa de varejo ela trabalha muito baseada em dados ela tem dado como seu ativo principal diferente daquelas empresas 2010 que elas melhores do mundo que tinha o que no petróleo na versão então assim base mudou-se a maneira que se enxerga as coisas agora em 2020 a gente passou até o grupo A né das empresas que passaram de 1 trilhão de Dólares Então essas empresas daqui são essas que acabei de citar a Apple é a Google a mas o Microsoft enfim elas passarão elas cresceram muito baseado no que baseado em no seu insumo principal que são os dados Esse é o cenário que a gente tem hoje em dia mostrando um pouco do cenário ver como é que essas empresas cresceram né então aqui eu tenho Microsoft é Apple Amazon alfabética é o Google e o Facebook é uma comparação demais há 14 com maio de 2019 olha como é que tá as empresas crescerão em cinco anos algumas delas mais do que quadruplicaram de valor ou seja essas empresas passaram a usar os dados para poder tomar decisões melhores e para poder gerenciar e baseado nisso que é o seu insumo principal elas cresceram muito esse é o nosso celular não tem como negar isso daí então não tem como diz assim a Será que os dados ou analisar dados da lado vai dar certo né Será que é isso mesmo que eu tenho que fazer eu tenho certeza que sim mostrar para vocês um pouco aqui de como que o Google né como que a Alfa é o Google é gera sua receita né então que então é análise aquele 2020 62 Bilhões de Dólares de receita e aí e já receitas ó tá é E aí a gente tem lá que setenta por cento dessa receita é gerada por propaganda propaganda no YouTube a propaganda do próprio nos nossas ferramentas do Google é como que ele nos seus dos seus bom e depois tem a também o Google Apps que aquela propaganda que você contrata também tem ali com treze por cento mas principalmente né o Google trabalha com quê com dados e se a gente for olhar a empresa por empresa como que ela gera né as suas vocês vão perceber que basicamente é em cima de dados então quê que acontece a ideia é transformar dados em ativos todo esse contexto apresentado tem como premissa o que algo em comum grande parte das empresas transformou os dados e Seu principal ativo essas empresas elas atrapalham o dado faz parte do contexto é isso esse é um insumo dela é isso que ela trabalha durante todo dia então a gente não fala mais com tanto entusiasmo né das empresas de petróleo dos bancos da limpeza de bebida comida porque porque as grandes empresas hoje em dia ela se baseia nas suas tomadas de decisão nos Estados mesmo as empresas que têm Grande PA e o seu negócio baseado em coisas que não são Dados elas estão usando os dados também para tomar decisões bom que tá falando pouquinho sobre Big deita Porque é importante para a gente é muitas definições sobre o Big Day Mas entre elas né o que eu quis dizer pra vocês é um termo utilizado para nomear um paradigma caracterizado por grandes conjuntos de dados que aplicativos tradicionais não são capazes de lidar então rapidamente o que é big deita quando você pega um conjunto de dados não botaram uma planilha do Excel ele não rola não dá certo trava planilhas são muitas linhas muitas colunas enfim é porque eu tenho um conjunto de dados O que é parte de direita ou então quando você tem algum algum elemento que gera dado o tempo todo streaming alguma coisa assim gerando dados nutriline que não para que você não consegue coletar esses dados nos nossos ferramentas tradicionais dos seus o seu computador é porque a gente tá falando de Big deita Então isso é que caracteriza realmente quando você perceber que está lidando com corrigido e saiba que você tá lidando com Big até maneira mais fácil de compreender realmente me deitar é identificado por três vezes né volume ou seja muito dados variedades dados diferentes de vários formatos de vários tipos e velocidade dado chegando o tempo todo e não para de chegar esses dados alguns nós vamos encontrar papers aí artigos infini estudos que falam até dos dez vezes né ele tem muitos favor Vale enfim ver a cidade tem muitos outros vezes aí né que colocaram para categorizar o Big de mas esses três são os mais importantes todo o processo de manipulação e análise da Di fica mais complicado em grande parte muitas vezes mais caro quando a gente vai trabalhar com Big Data Então isso é importante que vocês saibam a partir do momento que você faz uma análise de dados né E nem sempre mandar de dados precisa ser no Big deita mas quando você faz Kombi deita o custo do processo fica muito mais alto porque só precisa de mais equipamentos vai passar de estrutura Você vai precisar de com o processamento Então você vai precisar de mais recurso mais dinheiro para poder gerar um pai Pilar de dados quando se Analisa dados de deita agora esses dados pessoal né eles podem vir em forma de estruturada em forma semi estruturada o informado não estruturada então o Big deita caracteriza tudo isso né agora uma coisa muito importante do vídeo deita é que ele realmente existe tá aí e a gente vai ter que lidar com ele em todos nossos processos de análise de dados bom sobre deita essência de dados né Aí dá uma confusão é dificuldade de compreensão sobre a relação existente entre DS e deita PS pode usar qualquer conjunto de dados né fazer datasigh você pode fazer com um conjunto pequeno de dados né Mesmo que não for me direita agora Entretanto é importante a gente saber disso que a evolução da tá size né ela foi ela aconteceu né A partir do momento que a gente começou a estudar grandes conjuntos de dados ou seja a partir do momento que a gente em volumes muito grandes e aí aplicada estás a gente começou a ter resultados muito melhores Isso é fato quanto mais dados você tiver para analisar seus resultados você muito mais preciso a gente vai ver isso aqui né então é o Big deitar ele veio fazer ele ele veio como um processo que alavancou os estudos de data-size Então os termos são é diretamente conectados e relacionados a pena ser coisas diferentes Então vai passar esse cresceu muito por conta do bbid dentro Eu queria mostrar para vocês isso aqui é muito legal porque os dados Não Param né então se a gente olhar aqui 2020/2021 e daqui para frente vai ser muito maior Olha só né quanto que agente assistia né de Netflix Quanto que é cresceu né a as conexões de LinkedIn é quanto quanto que a gente tem é de compartilhamento de informação no Instagram quanto que a gente tem de compras quanto que a é isso aqui são números do que acontece em 60 segundos na internet muito legal esse gráfico porque a gente vai perceber como que a gente gera cada vez mais dados E aí eu tenho outro gráfico aqui ó que mostra aqui nesse primeiro exemplo né ah o tráfico de dados tráfico de dados de celular a em hexabits por mês então a gente jogar aqui ó em 2022 aqui era Projeção de 77 é que sabe dispor beijo da tirado só com celular tem de olhar para esse gráfico aqui a gente Corta aqui em 2021 a gente vai perceber que em 2022 da projeção é igual a essa projeção aqui mas olha só como esse gráfico cresce né e aqui a gente entra esse laranjadinho aqui por exemplo é o 5g e esse fw aqui é substituição neta do dado físico né Tá da internet física fibra ótica tal por dados a 5 G também vai perceber que aqui entram coisas novas mas as anteriores Não Param aqui ó continua Você já está crescendo muito né a quantidade de dados é trafegando na internet deputados estão sendo produzidos ou seja É um cenário que não tem mais volta é E aí alguns exemplos né GPS por exemplo né a pessoa do que a gente sai com o celular no bolso né Ele registrou todo lugar que a gente vai acredita o tempo todo informação então a está gerando informação o tempo gerando dados o tempo todo a gente tem sensor nos mais variados né você pega vai assistir o jogo de futebol por exemplo né o jogador tá com aquele topzinho por baixo da camisa do time porque tem que vai estar coletando dados você vai numa fazenda vai vergado usando sensores com brinco colar em fio usando sensores para captar informação é toda a navegação em e-comerce né Ela é monitorada a cada vez que você entra no e-comerce lá e sabe exatamente o caminho que você procedeu né Isso é feito análise lá do blog e quer saber qual é o caminho que os clientes fazem dentro de um processo de um e-comerce cada compra pessoal gera uma infinidade de dados Onde você tá valor que você pagou é enfim quantos ingressos você comprou Como que você pagou onde você tava que bandeira de cartão usou Então você vai você vai para um Show por exemplo né sabe aí quanto que você conseguiu essa comprou sabe de cartão que você usou que valor que você pagou onde você vai ficar aonde você Onde você tava hora que você comprou Imagina você monta um perfil exato de quem é aquela pessoa que tá fazendo aquela conta imagina a quantidade de informações estão sendo geradas ali o tempo todo eu vou subir esse site para vocês nessa já usou você vai dados de voos Onde estão os aviões dá para ver o tempo todos entra nesse site aí né que é o flightradar24 então aqui para vocês verem e vocês vão se assustar com a quantidade de informação que tem ali então cada curtida cada comentário cada foto que é feita são Dados que não são gerados perfis estão sendo criados e para que para que você possa estudar que parece que possa tomar decisão é para fazer é para que as empresas possam tomar as melhores decisões fazer coisas para jogo diante das pessoas enfim para as coisas evoluírem Queria falar um pouquinho sobre dados estruturados né que são os dados estruturados são aqueles que possuem formato e comprimento definido é como exemplo números datas grupos de palavras e ele consiste em um conjunto de dados devido a partir de um esquema formal então normalmente pessoal os exemplos é são usados armazenados em bancos de dados relacionais ou então os dados XML regida por um documento xsd daquele tem uma formalização dados de planilha com uma clareza estrutural nome das colunas bonitinho então dados oriundos de sensores de equipamentos não teve bem estruturado dados e desde que com uma estrutura de metadados bem definida Então esse é um conjunto de exemplos né de dados estruturados que são os dados não estruturados é isso que não tem estrutura definida ou seja em razão de não haver uma estrutura formal a extração de informação nesse candidatos para se complexa do ponto de vista computacional compreender o tipo de dado que tá ali e aí os exemplos são áudios vídeos que você pega um áudio vídeo como é que você sabe o conteúdo que tá ali dentro Esse é um dado não estruturado documentos em formato texto muitas vezes é o conteúdo do blog fazer um texto escrito né e bagagens fotos dados de mídia social entre outros muitas vezes é muito difícil de você manipular esta cidade não estruturados e tem os dados semiestruturados aqueles que têm é uma estrutura implícita é flexível geralmente o meio termo aí entre estruturados e não estruturados mesmo isso tudo não sendo rígida né a existência de uma mínima estrutura implícita facilita um pouco nossa gestão dos dados aí então os exemplos são arquivos com as planilhas por exemplo os formatos csv csv arquivos XML né sem a estrutura formal conteúdos web acompanhado detalhes enfim a gente tem alguns com e são considerados não-estruturais cada item importante a gente começar a coletar os dados bom e o que que a internet das coisas a gente já falou um pouquinho aí eu tenho utilizado para caracterizar a ideia de que a internet pode estar presente em praticamente todas as coisas tem como conceito fundamental a fusão do mundo real é com o mundo digital fazendo com que os indivíduos estejam em constante comunicação e interação com pessoas e objetos a iate possui funções reconhecimento inteligente localização rastreamento e gerenciamento dos diversos dispositivos trocando informação o tempo todo então o tempo todo o pessoal de pessoal usa né é o smartwatch você tem equipamentos nos carros tem que tomar esse vários lugar até Os eletrodomésticos tem hoje sensores e comunicação entre só um pouco do que a gente tem aí diário a ti a solução Jardim São sempre é são implementadas com redes de identificação por rádio frequência sensores tecnologias inteligentes O que é nanotecnologia possibilitando uma grande variedade de serviço tá então cada vez mais área médica apresenta em coisas muito legais baseadas em ótimo e oi oi eu queria falar um pouquinho também nessa abertura nós nesse começo disciplina soube ai E aí uma coisa que confunde muito com data size então muita gente não consegue distinguir a diferença entre biai e data-size e é fato pessoal que o mundo corporativo por exemplo né Isso é uma grande diferença né É é dada uma grande semelhança né porque os dois trabalham com conversão de dados né pessoalmente análise de dados brutos para poder tomar decisão basicamente o princípio do biai preza não é pela possibilidade de visualização dos dados de coisas que já aconteceram né Tem coisas que a gente a Analisa o processo de alguma coisa que já aconteceu para poder tomar decisão quando ao contrário o datas a gente vai fazer um processo um pouquinho mais à frente Então na verdade quando a estátua abihaya está lendo o que pega um comunidade Analisa Olha aí dentro de um cubo ver exatamente o que aconteceu procura comparar a situação e é observar desempenho os históricos atuais objetivando que gerar insights né para servir como tomada de decisão Então você olha para trás já quando ele tiver falar de biya e data Science muda passar esse por sua vez também transforma dados brutos em cenários é como via wi-fi Entretanto a gente olha no datasciense A ideia é o que é projetar situações ou seja o que a gente pode entender como olhar para o futuro é pegar na área de dados e projetar coisas que vão acontecer como que eu imagino é fazer uma predição de certa forma né é muito comum né a ideia de vi ai e DS Se misturarem é e as tecnologias que nascer exclusivamente para cada um deles tornam-se ainda mais poderosas Quando elas passam a fazer parte de um grande arsenal para ser usado com os dois propósitos seja tecnologia nascer da passagem tecnologia nasceu biai a gente começa a juntar essas a gente faz projeto muito legais exemplo uma empresa investe dinheiro em marketing digital né é o Bial informa se tá dando retorno você joga para trás de Será que eu tô investindo em marketing digital tá dando o retorno né e o datasigh você faz o que ele projeto que vai acontecer daqui para frente então é isso aí dentro a gente acaba misturando as duas coisas aí já é muito legal eu tenho um exemplo aqui para mostrar um pouquinho né que a ciência de dados na verdade data-size pela análise preditiva na lhe disse que você seja né porque o que que vai acontecer o que que vai fazer e o bi ai né olha para uma análise descritiva relatórios padrões seja o que já aconteceu mas dentro de um contexto Imagino que no futuro breve de acabar misturando estudo de uma coisa só na eles aos dados olhar o passado para tomar decisão no futuro e predizer as coisas que vão acontecer ou para finalizar nessa aula é a gente viu dado informação e conhecimento de falar um pouquinho sobre indústria 4.