fala impressionadores tudo bem na aula de hoje a gente vai falar sobre o que é Ciência de dados a gente vai explicar esse tema que está sendo muito falado e que tem várias oportunidades de emprego abertas então nessa aula eu vou te explicar passo a passo o que é Ciência de dados e a gente vai responder as principais perguntas feitas no Google sobre esse tema Mas antes a gente seguir eu vou pedir para vocês deixarem uma curtida nesse vídeo porque a curtida motiva muito a gente trazer mais conteúdos como esse e também comentar aqui embaixo Quais são as suas dúvidas porque depois a gente vai trazer um vídeo só respondendo as principais dúvidas de vocês então beleza Deixou sua curtida já comentou aqui embaixo Bora lá [Música] quando a gente digita ciência de dados no Google uma das primeiras coisas que aparece é o que faz a ciência de dados e para começar explicando isso a ciência de dados ela está presente em praticamente tudo na sua vida desde quando você faz uma compra e passa ali o cartão na maquininha é a ciência de dados que decide se a sua transação vai ser aprovado ou não também está presente quando você tenta aumentar o seu limite do nubank e nubank fala não não vou deixar aumentar o seu limite porque a ciência de dados faz o nubank entender que você provavelmente não vai conseguir pagar também é a ciência de dados que consegue decidir Quais produtos ela vai te oferecer quais mensagens ela vai te mandar e quando ela vai fazer isso E no momento que você tá assistindo esse vídeo no YouTube no momento que você tá navegando no Instagram a ciência de dados também está presente na hora de escolher qual o conteúdo ela vai te mostrar Às vezes a gente fala o algoritmo do Instagram e o algoritmo é exatamente a aplicação da ciência de dados para poder rankear para colocar postagens uma em cima da outra e escolher qual vai ser a ordem que ele vai te apresentar e não só no Instagram qualquer lugar que a gente consome conteúdo hoje utiliza a ciência de dados para escolher qual o melhor conteúdo para você a ciência de dados permite que cada produto seja o mais personalizável possível para cada cliente como por exemplo também as sugestões de filmes que vocês assistem no Netflix e não só isso e a ciência de dados está até mesmo em carros autônomos porque quando eu consigo transformar em dados a distância do carro da frente qual rua eu preciso virar existência ou não de pedestres e até o caminho eu consigo utilizar ciência de dados para dirigir um carro para conseguir chegar mais rápido levar passageiro sem motoristas e até mesmo para conseguir evitar acidentes então a ciência de dados está desde uma transação até a possibilidade de carros autônomos que dirigem sem motorista tá bom Lucas mas o que faz a ciência de dados e só para explicar o que a ciência de dados faz é importante a gente trazer conceitualmente a sua definição ciência de dados é encontrar soluções para o negócio utilizando as tecnologias disponíveis e as técnicas estatísticas necessárias Então ela tá exatamente nessa interseção desses três pilares no Pilar de negócios do Pilar de tecnologia e do Pilar de matemática do Pilar de estatística só que principalmente ciência de dados é sobre encontrar soluções para o negócio a tecnologia e a estatística são ferramentas que a gente vai utilizar para fazer isso mas elas nunca podem estar acima do Pilar de negócio e só para ficar muito claro que é Ciência de dados ela não é sobre gráficos bonitos Não é sobre algoritmo de aprendizado e muito menos sobre esse monte de nome que a gente tem como Inteligência Artificial Big Data ela é especificamente sobre você conseguir resolver os problemas da empresa encontrar soluções para o negócio utilizando dados você pode fazer isso com apresentações bonitas com o algoritmo de aprendizado condiplano Big Data tudo isso sim mas são ferramentas o seu grande objetivo é resolver problemas de negócio então ciência de dados é basicamente sobre o impacto que você consegue gerar na empresa e diariamente a gente já tá tomando decisões baseadas em dados não é uma coisa que a gente só faz quando a gente está na empresa em projetos super complexo a gente toma decisões baseadas em dados por exemplo quando a gente vai escolher a nossa comida no iFood e a gente pensa a loja está ou não aberta isso é um dado sim ou não baseado nesse dado se não tiver aberto a gente não escolhe a loja se tiver aberto a gente pode olhar por exemplo Qual a avaliação da loja se for menor que 4. 5 eu não escolho agora é um critério meu que eu estou definindo se for maior eu vou ver o preço da comida e eu posso ver várias outras coisas e utilizar esses dados de forma inconsciente para poder tomar decisões e nessa decisão aqui a gente basicamente teria uma tabelinha assim loja aberta avaliação da loja e preço da comida a única diferença é que quando a gente fala em ciência de dados a gente vai fazer isso com muito mais dados com muito mais informações e claro de uma forma escalável e replicável porque a gente precisa trazer muito mais dado e por isso a gente precisa de tecnologia e estatística E aí quando eu falo de estatística eu tô falando por exemplo em utilizar a média eu tô falando em analisar confiança dessa nota e aí quando a gente fala de estatística eu tô utilizando média eu tô falando de avaliar confiança dessa nota ou seja mais vale uma nota cinco com duas avaliações ou uma nota 4. 9 com 592 avaliações o que que faz mais sentido Então tudo isso é ciência de dados e para a gente falar muito rápido dos Passos de um projeto de ciência de dados do que a gente vai fazer como cientista do nosso dia a dia ali como cientista de dados a gente começa sempre fazendo perguntas para o negócio a gente precisa entender o que o negócio está fazendo para só então começar a partir para a parte de dados e como eu falei ciência de dados É principalmente sobre resolver problemas de negócio utilizando dados então o principal em qualquer projeto de ciência de dados é entender o que negócio precisa e muitas vezes nem o próprio cliente precisa e por isso nosso papel científico é fazer essa investigação depois de feito isso entendido estando muito claro Aí sim a gente vai começar a analisar Quais são os dados disponíveis e pensar como a gente vai fazer a aquisição desses dados que podem estar em bancos de dados pode estar no Excel no computador de uma pessoa pode estar numa penha pode a gente precisar fazer um web scrap ou seja tirar dados pode estar em redes sociais tudo isso a gente precisa planejar e pensar melhor forma de fazer isso feito isso a gente vai fazer a preparação dos dados ou seja vai retirar valor vazio tratava valores errados eliminar informações necessárias e isso é uma parte fundamental para um bom projeto de ciência de dados porque lembra se lixo entra lixo sai se você dá dados ruins para o seu modelo para o seu projeto de ciência de dados o seu projeto vai ser um projeto ruim e aí feito isso tratado esses dados a gente começa a pensar na parte de modelagem a gente vai fazer uma análise dos dados vai fazer o que a gente chama de análise exploratória dos dados quer ver o que tem naqueles dados ver como a gente pode melhorar aquela informação como a gente pode organizar tudo que a gente tem então criar modelos de aprendizado aí sim a gente fala de algoritmo fala de machine learning de aprendizado de máquinas mas observa que não é sobre isso é sobre resolver o problema e agora sim a gente encontra melhor forma de resolver o problema problema e depois a gente escolhe parâmetros e avalia a qualidade do que a gente está gerando feito isso a última e talvez mais importante etapa do processo é a comunicação dos resultados a gente gerou um modelo a gente gerou algo consciência de dados a gente precisa apresentar para o negócio ou para o nosso cliente ou para o nosso chefe para qualquer tomador de decisão E aí apresentado a gente vai colocar o modelo em produção que é disponibilizar o modelo colocar o modelo para outras pessoas utilizarem e aí a gente vai acompanhar para ver se tá tudo certinho e melhorando sempre que necessário só que aqui eu tô dizendo para vocês que tudo ok a gente coloca esse modelo em produção a gente disponibiliza o modelo o modelo tá finalizado mas Lucas e se não tiver tudo ok se a gente tiver com qualquer problema a gente vai ter que voltar lá pra primeira pergunta entender de novo os problemas do negócio entendeu que o negócio precisa E aí fazer todo esse processo de novo por isso que eu falei que a parte de entendimento do negócio é tão importante Porque se ela não for bem feita a gente vai fazer todo esse processo demorar três quatro cinco meses e depois a gente vai ver que não era aquilo que o nosso cliente pediu e vai precisar refazer tudo de novo então entendam que ciências de dados é você resolver os problemas do negócio então o seu foco principal está no negócio está em conseguir gerar resultados para empresa e você vai utilizar a tecnologia estatística como forma de te auxiliar a fazer isso então é exatamente isso que a ciência de dados faz e agora passando para a próxima pergunta ciência de dados e Big deita sei que é um termo muito comum um termo que a gente vê muito por aí mas Lucas O que que é Big Data Big Data basicamente são Dados em alto volume gerados em alta velocidade e de grande variedade que é o que a gente chama de três vezes no Big Data não vou ficar entrando muito aqui mas basicamente antigamente a gente só tinha dado ali de venda tinha dado ali Ah uma transação um produto vendeu ou não hoje a gente tá gerando dado com cada vez mais velocidade a gente tem sensores que conseguem captar coisas a cada segundo a gente consegue captar o tempo que uma pessoa tá olhando uma postagem no Instagram e tudo isso é gerado de forma muito rápida com grande volume e dados de mais diferentes fontes de mais diferentes origens antes do Big Data a gente não tinha nem tanto a necessidade de ciências de dados porque muitas empresas achavam que conseguiam fazer em casa toda essa análise utilizando Excel utilizando outras ferramentas o Big Data foi realmente um diferencial para popularização de ciência de dados porque mostrou que empresas que conseguiam utilizar a ciência de dados que conseguiam consumir todos esses dados que estavam chegando em volume cada vez maior estavam tendo diferenciais enormes como por exemplo empresas que analisavam os comentários do Twitter pra ver se uma campanha estava indo bem ou não já conseguiam agir de forma muito rápida empresas que tentavam descobrir quais foram os motivos do cliente abandonar o carrinho e reverter para uma compra olha vi que você sugeriu isso que você queria isso Será que se eu te dar um cupom de desconto você não compra Olha que agora a gente está falando em dado sendo gerado de tempo real analisando cada um dos consumidores analisando o tempo que eles ficaram no site Inclusive a gente pode analisar realmente até onde o usuário mais clica para otimizar o nosso site a gente pode acompanhar o tempo que cada pessoa fica olhando cada uma das postagens do Instagram para poder determinar qual o conteúdo dela gosta e até mesmo relacionar a localização atual da pessoa com as preferências do usuário para poder enviar promoções personalizadas Então vamos supor que você passou em frente uma academia e você recebeu um anúncio daquela academia e você fala Nossa como ele sabe que eu tô aqui como ele sabe que eu acabei de passar isso tudo ele recebendo esse monte de informação ele juntando informações de diferentes origens como velocidade muito rápida é o que a gente chama de Big Data não vou aprofundar tanto nessa aula Vou deixar um link aqui embaixo Mas se vocês quiserem comenta aqui que a gente pode fazer uma aula só sobre isso e aqui quando a gente fala que ciência de dados é fazer isso de forma escalável com Big Data realmente é mais escalável ainda e agora a ciência de dados vira um diferencial de negócio quem não tem ciência de dados para tratar essa infinidade de dados acaba ficando para trás e sem ela seria Impossível a gente analisar essa quantidade e por isso as empresas podem acabar perdendo venda podem acabar perdendo engajamento em redes sociais podem acabar perdendo oportunidades e por isso a gente diz também que o Big Data foi um grande diferencial na adoção de ciências de dados pela empresa Então tem um momento antes que as pessoas às vezes tinham um certo receio E depois onde as pessoas começaram a entender a importância de conseguir tratar essa grande quantidade de dados que muitas vezes e são de desestruturada diferente daquelas tabelas de SQL que a gente conhece às vezes é um comentário às vezes é um post no Twitter tão dados de diferentes formas que a gente acaba recebendo na empresa e que a gente precisa utilizar a ciência de dados para utilizá-los de forma gerar diferenciais de negócio outra pergunta também que foi feita é o que estuda a ciência de dados e como eu falei para vocês lá no início a ciência de dados a gente olha o negócio a tecnologia e também estatística então é claro que a gente vai estudar tecnologia negócios e estatística e quando eu falo de tecnologia a gente tá falando das linguagens de programação mesmo e as mais usadas atualmente são Python e r já quando a gente fala de negócios a gente fala desde ali da parte de entendimento do negócio como a gente consegue alinhar Uma expectativa como a gente consegue deixar muito claro como a gente consegue deixar muito claro que é possível que não é possível fazer a consciência de dados ah quero um modelo que sempre não é possível quer um modelo em uma semana como a gente garante que o negócio vai estar de acordo com o que a gente está fazendo isso através de alinhamento e análise de expectativas Além disso visualização e apresentação de dados a gente vai precisar comunicar os resultados para pessoas que não entendem do que a gente está falando que não entendam de Python que não entendem de R não entendem nada disso como é a melhor forma de mostrar esses dados para as pessoas e claro criando uma história com seus dados fazendo Stories com seus dados para que a pessoa realmente consiga engajar no que você tá querendo vender a gente também fala distribuição dos dados assimetria cultose e principalmente sobre validade estatística do que a gente está falando será que eu analisar duas avaliações e ver que a nota é cinco eu posso dizer que aquela loja que do iFood é uma loja Boa Muito provavelmente não mas ele tem 570 avaliações uma média 4.
9 e um desvio padrão tão grande é uma probabilidade muito maior da loja me atender bem a Lucas não sei o que é desvio padrão Fica tranquilo aqui é só para mostrar para vocês que quanto mais dados a gente tem maior confiança a gente consegue ter daquilo que a gente está analisando E aí só para a gente fechar agora uma última pergunta depois se vocês quiserem eu posso trazer outro vídeo respondendo as demais perguntas Quanto ganha um cientista de dados qual é o salário e aqui eu quero fazer com vocês um processo científico de analisar dados e vamos analisar os dados do salários do cargo de cientistas de dados dentro do Brasil em média o cientista de dados ganha 8. 710 por mês isso aqui foi atualizado em 26 de Março alguns dias antes de eu gravar essa aula aqui e essa aqui é a distribuição do salários mas Lucas O que que significa dizer que existe uma média salarial de 8. 710 o conceito de média é a gente dizer basicamente que se eu pegar o salário de todo o cientistas de dados e dividir pela quantidade de cientistas de dados em média ali as pessoas vão ganhar 8.
710 tem gente que ganha mais tem gente que ganha menos mas ali numa balança entre Quem ganha mais quem ganha menos o meio é exatamente 8. 710 Ah Lucas e qual é a confiança nesses dados Será que faz sentido o próprio glassdor diz que é uma confiança muito alta e isso quer dizer que muita gente já colocou o salário eles têm muitos dados para poder afirmar isso Ah Lucas mas quer dizer que eu vou começar Ganhando esse valor não não é esse o conceito da Média mas aqui pelas faixas salariais a gente consegue ter uma noção que por exemplo as pessoas que menos recebem trabalhando como cientista de dados que colocaram a informação no site ou seja uma pessoa que não colocou informação no site a gente não consegue saber mas de quem falou o salário quem essa informação o mínimo ali tava na faixa de r$ 4. 000 e o máximo tava na faixa de 15 mil Ou seja a pessoa que ganha menos tá ali mais ou menos em 4 mil reais e a pessoa que ganha mais tá em 15 mil aqui eu tenho uma distribuição dos dados bem mais próximos a 4000 ou seja tem mais pessoas ganhando 4.
6. 8000 que seria mais ou menos aqui no meio do que ganhando 15 mil mas se a gente até comparar com um salário mínimo é um salário relativamente alto em relação a outros cargos que a gente conhece que a gente pode ver no Glass door outra coisa que também é importante da gente analisar outras remunerações o que que quer dizer isso outras remunerações ele fala bônus comissão gorjeta participação nos lucros Então vamos supor você tem um salário fixo e se você resolver um problema se você conseguir mandar bem naquele semestre você ganha um bônus é exatamente isso que está incluído outras remunerações E aí considerando essas outras remunerações a média vai para 15 mil e vai de 5. 400 a pessoa que menos ganha até 74 mil a pessoa que mais ganha Então essa é a informação disponível para salários de cientista de dados no Brasil é bom até vocês terem essa informação porque se uma vaga está propondo para vocês menos de 4.
000 você já podem pensar olha na média Esse é um valor menor então eu gostaria de conversar gostaria de negociar o meu salário se tá um pouco a mais para um cientista de dados que está começando Talvez seja um bom emprego e aí Cabe a você entender ah qual o salário quando a pessoa vira sênio quando vira pleno como que funciona também o plano de carreira tudo isso essa aqui é uma forma de te ajudar a ter uma noção de como está o mercado de cientista de dados atualmente no Brasil e aí se você quiser falar até de empresas por exemplo eu quero trabalhar muito na IBM quero trabalhar no Itaú você também consegue ver nesse mesmo site no Glass door só editar lá no Google e pesquisar por cientista de dados no Brasil e quando a gente olha o Itaú a média do Itaú um pouco maior 10.