Guia de Carreira: Engenharia de Dados

9.03k views11599 WordsCopy TextShare
Alura
📊💻 Explore o melhor da Engenharia de Dados para impulsionar sua carreira com nossas trilhas com cu...
Video Transcript:
Olá eu sou Fabrício Carraro e bem-vindos e bem-vindas a mais um episódio do guia de carreira o Tech guide e hoje a gente vai falar sobre engenharia de dados e o Tech guide você conhece né É aquele guia que a gente desenvolveu aqui na alura para te ajudar desde o começo né desde o nível um e focando no conceito da carreira do Dev T né Então você vai ter uma área mais profunda que você vai até o final nela para ser realmente um especialista dessa área nessa carreira e tem as áreas ortogonais que são coisas
que talvez não sejam focadas naquela área mas que vão ajudar muito um profissional dessa carreira e você você pode baixar o nosso Tech guide de engenharia de dados ele tá lá tem um botão exportar embaixo do guia que você vai poder subir no seu Google Docs no Google sheets no trelo no notion para ir marcando as coisas que você já fez né então você quer começar a brincar ou a trabalhar com engenharia de dados você vai poder ir marcando a sua evolução usando o nosso Tech guide lá e para esse papo aqui eu trouxe três
especialistas dessa área para bater um papo e explicar o que é essa carreira e quais são esses conceitos principais que a gente aborda no Tech guide que você vai ter que conhecer para ser um profissional para ser um especialista como eles e a gente tá aqui com Anselmo Borges que é especialista de engenharia de dados na Porto como é que você tá Ancelmo E aí tudo bem Tudo ótimo prazer tá aqui e a gente também tá com o Tiago Silva que é engenheiro de dados Sênior no Itaú como é que você tá Tiago Fabrício estou
bem obrigado pela oportunidade Boa tarde pessoal é um prazer e a gente também tem a Paola Brito que é especialista em machine learning nunbank como é que você tá muito bem Fabrício muito obrigada E pra gente começar esse papo aqui a gente vai entrar no nível um de profundidade do nosso guia né do Tech guide que vai est aparecendo aqui na sua tela nesse nível um um card que a gente vê lá lá no começo esse engenharia de dados fundamentos né e antes de buscar os fundamentos da engenharia de dados eu quero que vocês expliquem
por cima assim o que é a engenharia de dados ela é data Science ela é a mesma coisa que o cientista de dados ela é uma análise de dados qual é a diferença e qual que é o problema que ela quer resolver bacana Fabrício e acho que a engenharia é importante falar que a engenharia de dados ela existe né a acho que as ações ali de engenharia de dados ela existe desde que o computador é computador então as ações que é coleta armazenamento e processamento elas existem desde 1960 esse termo ele começou a ficar popular
ali em meados de 1990 quando veio a internet né que aí o volume de dados começou a aumentar muito e aí esse personagem né Essa pessoa no caso eh começou a se tornar ter um papel fundamental ali né tanto na coleta quanto no armazenamento e no processamento então assim eh acho que isso é engenharia de dados né resumindo são esses três pontos ali e começou a ficar muito forte ali com Advento do Big Data né e a internet é Inclusive a gente tem um card aqui que se chama Big Data fundamental né que a pessoa
que quer mexer com realmente né é uma coisa que você vai ter que aprender nesse nível um a mexer com grandes conjuntos de dados né E qual é a necessidade das empresas hoje em dia né a gente falou aqui vocês três trabalham em empresas enormes né Que deve ter realmente um grande número de dados Qual que é o trabalho no dia dia assim de uma maneira muito básica se a gente pensar que toda empresa vai gerar diferentes dados que vão estar disponibilizados ali dentro do banco a gente em algum momento precisa trabalhar esses dados pra
gente conseguir tirar valor então se eu pego e reúno dados de diversas Fontes vou agrupar vou conseguir sumarizar por área de negócio vou sumarizar de acordo com a necessidade do das pessoas que que estão tomando decisões a gente consegue extrair mais valor então nosso dia a dia basicamente p pegar esses dados manipulá-los transformá-los até gerar algo que seja mais rico pra empresa e imagina que tem o número de origens que que existem de dados assim dentro de uma companhia né Por exemplo você vai ter desde planilha de excel banco Oracle banco SQL um se Force
um api uma determinada ferramenta a engenharia nasceu no conceito de você reunir essas diversas fontes e você criar meio mais ou menos que uma base única ali centralizada que é a ideia do lei e outros conceitos e você disponibilizar isso de uma forma centralizada porque uma não fala com a outra então A ideia é você juntar tudo ali no mesmo Hub e disponibilizar PR os caras tirarem as análises melhores possíveis e tem dois cards técnicos aqui que eu queria abordar também que um é o de Python fundamentos e um é o de Linux fundamentos então
isso quer dizer basicamente que uma pessoa analista engenheiro ou engenheira de dados tem que saber programar é um pré requisito basicamente Olha eu eu eu sou já sou meio que de outra vertente né Eu vim mais da infraestrutura mexo mais com data platform e fui dba por muito tempo então hoje o meu Core de de linguagem de programação assim teóricamente é SQL e Python Mas é bem mais SQL o Python eu vim aprendendo no meio do caminho eh se você falar que o cara ele precisa programar [ __ ] é muito bom ele programar se
ele for trabalhar com machine learning se ele for fazer análise de dado e tal e mas o o o por exemplo se eu for falar as principais assim que eu diria seria Python e SQL hoje com python e SQL o cara sai do zero é que eu tô tentando pensar aqui no Linux também né Hum porque o porque Qual foi o ponto ali né então a gente tem duas linguagens a gente tem duas formas ali o Python e o Linux o Python É acho que hoje pro engenheiro de dados né é uma uma acho que
é uma linguagem Core Por que uma linguagem Core né porque a gente tá falando aqui com integração de plataformas é uma linguagem rápida de programar né você consegue fazer quick INSS ali uhum e habilita acho que a noção de Python ali te habilita por exemplo para mexer com outros frameworks como o Spark né então você saber o Python você consegue programar em P Park por exemplo né e é isso a o Linux o Linux meio que ele foi meio que um visor de águas assim para mim né primeiro quando eu quando eu comecei na na
tecnologia era muito Windows e pô faz tempo né Eu já sou velho já e era sei lá Windows 95 na época Windows 98 então era bem e para ter o diferencial na área assim eh eu tive que aprender Linux na época que ninguém sabia Linux então isso me trouxe um diferencial na época e eu acabo usando até hoje porque se você for pegar para ver manipulação de arquivos hoje falar de Big Data assim mas por exemplo rup ele usa uma linguagem Bash que é LS mkdir esse tipo de coisa e tal então você tem uma
base de Linux para você trabalhar ela é muito boa e vamos supor para você subir ferramentas em docker kubernets e tal pô nada é feito no Windows hoje você vai fazer no ambiente Linux então é sim um diferencial ele é um não vou falar que ele é um diferencial pra manipulação do dado mas para montar sua estrutura para manipular o dado isso eu acho a diferença do Linux pro pras outras duas linguagens comentadas inclusive você mencionou o banco de dados né Ele é um card também aqui nesse nível um ainda né então a gente falar
de SQL e tudo mais faz todo sentido queria fazer só uma adenda sobre o Python eu eu não sou programadora de Formação então sempre tive muito medo de entrar nesse mundo justamente por essa pressão que a gente tem Ah eu não sei programar eu vou aprender a programar como é que vai ser mas foi uma linguagem que me permiti um acesso muito fácil área de tecnologia e é gostoso na hora que você vai aprender desenrolando né então se alguém tiver medo Vai fundo no Python que eu acho que é a melhor forma de começar possível
é possível Qual é a sua área de Formação eu sou engenheira química engenheira química veio brincar com dados contas é entendi ex e a gente tem aqui um card também de pipelines e etl né pipelines eu penso em canos em tubos Mas provavelmente não é isso eu vou fazer a conexão com a engenharia química em que a gente pensa ali nos tubos quando falo de engenharia química eu t falando engenharia de processos eu tô pegando coisas brutas e trans montando todos os processos para gerar ali um produto no final e a gente tem os canos
tem todos os reatores todo o Arsenal para para fazer isso acho que na engenharia engenharia de dados a gente também tem os nossos pipelines que são as formas de conduzir o dado de um Estado até o outro estado Então a gente vai fazendo essas transformações até chegar ao que a gente espera no final o que esse conceito de etl ele o etl é a extração transformação e a carga né então a gente então imagina aí pegando o que a Paula comentou do tubo Então imagina que a gente vai montar um dat Lake né ali que
é o dat Lake bacana ele é um conceito que foi gerada PR o assunto que eu toquei agora a pouco da centralização dos seus dados né anteriormente foi feito usando rup que eram máquinas físicas para fazer isso você juntava basicamente teus arquivos as pessoas acham que é o arquivo de qualquer jeito mas é o arquivo já meio tratado lá e com uma possibilidade de leitura e aí depois você cria um Hub dentro dele então é a centralização do seu dado numa camada de armazenamento que anteriormente era feito no rup e hoje pode ser feito em
Cloud como a WS aurey gcp dentro de Storage accounts no caso Bacana Então por que o dat Lake né porque imagina que o cientista de dados ou qualquer outra pessoa que quer extrair valor do dado precisa ter o acesso ao dado de uma forma rápida Então eu tenho um baita de um ecosistem tema aqui com diversas Fontes E aí imagina o qu o quão difícil seria a vida ali do cientista eh ou da pessoa que quer do analista que quer tirar valor do Dado quanto seria difícil ele ter que ir no sistema buscar essa informação
então o data Lake ele centraliza né e como Ancelmo comentou aqui antigamente utilizava o rup Por que o rup né justamente por conta da flexibilidade de esima então a quando a gente fala de um data Lake aqui a gente tá falando de armazenar dados de diversas origens e de diversos formatos né então é importante eu ter uma plataforma que comporte isso então o rup era uma dessas ferramentas né hoje hoje dizem que morreu né com a lance da da da Cloud agora e eu acredito também mesmo que não tem muito uso é muito mais barato
você fazer uma ferramenta escalável na Cloud do que você comprar máquina para criar mais um node de rup né perfeito acho que aí provavelmente a gente vai fazer um gancho com o Card que tá lá embaixo que é Cloud né mas eh acho que isso influencia na arquitetura totalmente né porque é o é o que oo falou e você deixa de olhar e você deixa de ter um um cluster ali e ter que comprar máquinas e tal para montar E aí você passa a olhar a Cloud que cara você não precisa se preocupar com servidores
você só precisa montar uma arquitetura ali você tem um S a que é o service level agreement fechado com o cara o cara vai te dar disponibilidade naquele dado de 99,9 no ano assim então ele não vai cair agora por exemplo dentro da tua empresa e pode ser que que eh quebra um disco ou que caia a rede ou que aconteça alguma coisa então a comparação assim é meio desleal até do un premis com a Cloud E aí a gente entra até numa numa outra quebra de paradigma né a eu tô abrindo um parêntese aqui
provavelmente eu tô falando de cards que estão lá embaixo né não tem problema Exatamente isso é bom porque a gente pode ter essa conversa aqui nessa discussão de esse Card talvez deveria estar mais em cima tá mais embaixo ou não Ou faz sentido mesmo ele está nesse lugar e você que tá em casa pode colaborar com isso e pode comentar aqui se você concorda discorda com a posição traz para cima bot para baixo Bacana Então assim nessa quebra né de que nem o falou que a gente para de olhar aqui para um premis e deixa
e passa olhar pra Cloud a gente também tem uma quebra de paradigma de deixar de olhar pro dat Lake para passar olhar pro datam aí fal assim pô onde é que casa né quando a gente fala de datamesh o dat Lake então a gente passa a centralizar todos os dados aqui PR pro consumo o datam ele quebra essa centralização então eu passo a ter um sistema eu passo ter a origem dos dados aqui e os dados são interligados eu não preciso centralizar mais a informação então eu passo a olhar o dado aqui de uma forma
federada só que eu estou na minha conta aqui estou no meu ambiente eu consigo acessar os dados de diversas formas porque eu tenho essa Federação eu tenho essa visão separada e isso é algo né quando a gente fala de Federação é algo que a Cloud possibilita então devido a ao ecossistema as ferramentas né a a a a própria possibilidade ali de você arquitetar de uma forma desacoplada te possibilita você ter uma arquitetura descentralizada que é como o datam Né que atende o mesmo princípio do dat Lake que é o quê disponibilizar o dado de uma
forma fácil a única diferença é que descentralizado né comparado com e ainda nesse nível um de profundidade eu queria perguntar especificamente pra Paula que ela vem de uma outra área né da engenharia química e entrou na área de dados de engenharia de dados tem muitos conceitos que a gente mencionou aqui né de pipeline de Python Big Data Linux Cloud um pouquinho de tudo tem github aqui né Git github também conceitos de repositório e isso pode assustar uma pessoa que tá assistindo aí em casa que tá vendo puts no nível um vou ter que aprender tudo
isso e qual é a sua recomendação como uma pessoa que veio de uma outra área para essa área para começar né então por onde eu começo e por onde eu vou continuando ainda nesse nível um Eu gostei muito do guia eu acho que essa parte central dele de fato direciona as pessoas para aquilo que que seria o que eu começaria que é Python e SQL então começa ali aprende o básico do Python e do SQL depois na já num segundo momento começa a manipular tabelas começa do simples pega uma tabela CS um arquivo csv uma
tabela do Excel depois você pode ir um pouquinho ali pro lado do do nosso t e tentar pegar dados de uma API mas é um um nível um pouquinho mais de complexidade tenta juntar toda essa parte horizontal um pouquinho de cada e depois ir subindo gradativamente acho que às vezes é um erro muito comum que eu tive foi tentar abraçar de fato tudo ao mesmo tempo pular passo é exato então às vezes a gente tenta abraçar sem sem ter a base do do do conhecimento Então vamos vamos entender como surgiu a internet como surgiu uma
linguagem de programação O que é uma linguagem de alto nível que é uma linguagem de baixo nível tenta paralelizar isso com seus estudos misturar um pouquinho do que a prática e aprofundar o conhecimento teórico também eu eu dei um exemplo pro esses dias né ô eu eu faço eu faço jits há 16 anos e se você é também aí se você chega e pega uma posição uma técnica aqui na no no no no celular você vê o vídeo e tal não sei o que isso pô beleza vi entendi e tal mas na hora da luta
mesmo você não vai conseguir aplicar então a a analogia que eu tô fazendo disso com com treino é você o mesmo exemplo da Paula Pô você fez eh estudou Python estudou um pouco de SQL mano começa a fazer prática começa a praticar porque se você não praticar você não vai gravar e você numa situação real você nunca vai conseguir aplicar é o mesmo lance da técnica se eu chegar lá numa situação de luta lá eu não vou conseguir aplicar a técnica que eu vi no YouTube né então é pratiquem bastante é minha dica e isso
vai dar um diferencial lá na frente para quando você for trabalhar com uma ferramenta Teoricamente mais difícil você já vai ter uma base dessa ferramenta mais fácil e aproveite a viagem Não tenha pressa legal e essa essa ideia da Essa visão da Paula é sensacional porque por exemplo eu vim da engenharia elétrica então não era ti né E quando eu entrei na carreira Eu já entrei estudando rup justamente por conta de Um Desafio na época né e assim senti muita falta ali de aprender um SQL um pyon antes que hoje eu aprendi isso depois de
aprender o ecossistema ali né Então realmente talvez se eu tivesse aprendido isso lá no começo a caminhada ali com outras ferramentas aqui da da da carreira acho que teria sido de uma forma muito mais leve e mais fluída né A A mentoria Dada nessa nessa lista aqui ela é já é incrível para você ter um foco do do que estudar e você não gastar sua energia em algo que não não vai dar retorno então acredito que é você ter uma orientação dessa Ela te dá um diferencial bacana e a gente tem o Card aqui de
Big Data né que a gente já citou anteriormente mas tem uma ferramenta que ela é citada lá dentro do card que é o apach Spark vocês mexeram mechem com Big Data nesse nesse nível e vocês usam essa ferramenta ela é importante realmente ainda nesse nível um ele é um game changer né Ele é uma ferramenta que veio para mudar do lado do do de Analytics né então por exemplo vou falar da agora vou falar da minha velice antes por exemplo os bancos de dados eles eram transacionais então por exemplo quando você faz uma compra no
Mercado Livre ou algum algum outro site usando de exemplo eh a tua compra teu estoque essas informações elas são todas armazenadas em bases bases transacionais que é o chamado oltp E aí você tinha que fazer extrair relatórios dessas bases mensais saber quando você vendeu Qual que é o teu consumo como é que tá o teu estoque e tal isso eram passados para bases de da de data Analytics que os caras chamavam antigamente bi eh E essas outras bases elas trabalhavam com uma volumetria de dado considerável e d-1 né que é tipo o dado do dia
anterior isso daí não gerava um um Insight tão bom porque você além de estar trabalhando com o dia do dado anterior só empresas absurdamente grandes tinham acesso a esses tipos de servidores por exemplo se pegar um exadata só para fazer Analytics ou alguma outra coisa a entrada do do Spark ele veio até na mesma época que o rup então a ideia de você trabalhar de forma paralela de você ter várias máquinas para fazer o serviço de uma só que o chamado cluster ele deu a facilidade de por exemplo eu tenho 10 máquinas pequenas trabalhando em
trabalhando em paralelo que entrega uma informação muito mais rápida e do que o um banco normal indo do lado do Spark agora a mudança de jogo o Spark não faz isso em disco o Spark faz isso em memória então é absurdamente rápido o que ele faz e eu não tô falando em escala de giga e de tera eu tô falando de PETA tô falando de de informações absurdamente grandes que ele processa de uma forma e tranquila desde que bem configurada e ele tem uma curva alta de aprendizado nesse começo ou não muito o Python acredita
que você já comece a iniciar ali com P Spark você já começa a mexer legal já acho que quando você fala hoje de pipeline Big Data você tá praticamente falando aqui de Spark né como comentou ali essencial ali na questão da da programação para do processamento paralelo né então é isso E aí sobre a o quanto é simples foi que o também comentou né aqui o tem algumas formas de de usar o Spark né algumas linguagens então quando criaram a o Spark eles criaram justamente com esse viés de tirar a limitação de outras ferramentas então
por exemplo se eu quisesse fazer uma Se eu quisesse fazer um map reduce lá no lá no rup Então eu tinha que saber de Java e pô Java é muito difícil né tanto é que não se nem programar a gente até botou o Java aqui inclusive como opcional né ele tem um coisinha de opcional é realmente às vezes você vai fazer um Word count lá no Java é cara é muito são muitas linhas ali de programação então quando criaram o Spark qual era a ideia falou gente ó vamos ter outras linguagens de programação dentro do
do Spark então por exemplo hoje sabendo programar escala você pode usar o Spark sabendo o SQL tem o Spark pic você consegue usar também o o o Spark sabendo o Python você também consegue programar o Spark chamado usando o p Spark então assim existe alguns frontes ali alguma alguns prompts que te habilita a a fazer a a codar em codar para o Spark né então e entrando no nível dois aqui do nosso Tech guide de engenharia de dados a gente começa a ver alguns tópicos que já foram mencionados inclusive lá no nível um né então
você vê como essas coisas elas são mistas elas são híbridas Às vezes você precisa aprender uma uma coisa antes Dependendo do que você tá fazendo na sua empresa né mas a gente vê aqui Cloud fundamentos né então ali como mexer com uma WS Talvez né outros provedores de cloud tem também o Data lakes que foi mencionado anteriormente também e aqui um dado interessante esse de contêineres como ele é usado eh começou basicamente com docker eh basicamente se for voltar num pouco no tempo mais com máquinas virtuais né que eles usavam o conceito de você pegar
máquina virtual a tua máquina com Windows com disco e tal e virtualiza depois eles evoluíram esse conceito com o lance de de contêiner que é você tirar a camada abstrair ali uma uma camada de so entre um e outro e ela ficar mais enxuta isso ficou muito mais rápido agora vamos falar basicamente do rup ali que a gente falou agora a pouco o rup ele é composto por vários servidores trabalhando de forma paralela então isso voltado pro Spark que é outro assunto que que a gente falou agora eu consigo subir um cluster kubernets e colocar
os contêiners no caso por exemplo nodes do do Spark por exemplo Ed node os nodes de executors e separá-los e você fazer isso de uma forma 100% virtualizada e enres Code por exemplo eu posso desmontar montar de novo botar usar quando for necessário E isso também é uma mudança absurda porque Teoricamente para você fazer a habilidade da sua aplicação você teria comprar máquina agora não você pode usar de acordo com a sua demanda e tal A Cloud vem fazendo isso absurdamente debaixo dos pandos né tipo a caixa preta de da maioria das dos data plataforms
que a gente vê por baixo tem alguma coisa de conteinerização e [ __ ] mas é isso o básico de contêiner é são máquinas não vou dizer virtual porque não é mais virtual eh trabalhando de uma forma paralela assim para atingir um objetivo acho que isso apoia bastante quando a gente fala do processamento né do pipeline ali eu tenho uma parte de processamento então ter essa configuração ela apoia bastante na questão do processamento né então eu não não preciso necessariamente movimentar todo o dado da da origem ali então eu subo essa camada para fazer o
processamento né e falando até um pouco mais o contêiner ele não é um divisor de águas de você trabalhar com dados ou trabalhar com com infra por exemplo o geralmente a pessoa que vai te fornecer os contêiners para você trabalhar com dados ele é um cara muito mais voltado pra infraestrutura do que um cara com dado Então você saber o que ele faz é ideal saber basicamente por exemplo você falar ó anelo você conhece kubernets cara não conheço e também não uso diariamente mas eu tenho um conhecimento básico como é que ele funciona isso é
o que eu recomendo para quem tá fazendo a trilha não não se aprofunde muito porque esse daí é um mundo também não tente abraçar o mundo cara e enganchando nessa ideia de não tentar abraçar o mundo quando forem explorar as clouds seja Google azuri ou aws tentem focar um pouco na focar um pouco não né focar tentem focar naquilo que faz sentido pro caminho que você quer seguir então não vai se aprofundar tanto em kubernets em containers se o que você quer seguir é mais a parte de transformação final lá ação do dado que você
quer só gerar as features que vão ser entrada pro modelo então e se foque nas ferramentas da sua área e qual você recomendaria para quem tá escutando a gente né falar eu tenho que escolher uma para começar qual e porquê a ou importa eu sou apaixonada com Google adoro o o gcp acho que é deve ser da WS eu sou da AZ mas é é uma pergunta antes né tipo o o que que você quer não o que que você quer fazer dá para fazer nas três mas é muito orientada a necessidade então por exemplo
eu tenho eu trabalho com a WS então obviamente eu vou ter uma Skill mais forte pra WS né provavelmente Nossa amiga aqui trabalha com o gcp gcp Então mas a gente também tem uma tendência das empresas a tentar ser multicloud e também a deixar independente do que De qual Cloud Você tá trabalhando Então vou usar os servidores da WS da Google ou da azu mas vou construir a minha própria plataforma acredito que você faz um pco disso Tô com as três na porto eu tô por exemplo com vamos falar de dados eu tenho Big query
no gcp aí eu tenho a Tina na WS e eu tenho sei lá o um data Factory e um dat Bricks dentro da azu então tem acaba tendo as três e você extraiu um pouco do melhor de cada uma das clouds isso é muito bom você não fica ali mente fechada Mas você for parar para ver também também não se preocupe porque o que uma faz a outra faz também ela só faz de um jeito diferente se um dia você precisar por exemplo eu comecei com a WS em 2017 aí eu tirei o Solution architect
e tal trabalhei um tempo com ela e Mano eu entrei no Santander era azúa eu não sabia nada aí o o meu antigo superintendente lá o Minato ele falou cara não você aprende você tira de leito aí eu foquei e Pô hoje eu tô pô foquei no estudo de de de Azur e me apaixonei por Azur e tô com ela por um tempo já seria uma coisa meio que uma linguagem de programação que você aprende Java fica mais fácil de aprender Python porque você sabe o que é um te ajuda te ajuda eu acho vocês
não acham totalmente até porque acho que elas são concorrentes e tem que ter as duas ferramentas né cara por exemplo você pegar um S3 na WS ele é um hisor account no no na azuri e ele é um GCS na sim na no no gcp então é a mesma ferramenta com nomes distintos fazendo a mesma coisa talvez com uma feature a mais ou a menos mas é a mesma coisa no final talvez o layout Mude mas é a carinha o ui ali da tela Mas é isso e você mencionou o Big query né quando tem
que fazer big query a gente tem um card aqui nesse nível dois que é sobre data warehouses ou data warehouses né que fala sobre Big query falar sobre head shift snowflake nessas ferramentas o que que é esse data Warehouse como você usa qual é esse conceito quando a gente fala de Warehouse vou traduzir um armazém dos dados e o Thiago falou agora a pouco sobre o dat Lake o dat Lake tá lá me idade tudo quanto é canto julguei no no lugar é o meu dat Lake só que agora eu preciso transformar esses dados para
algo que seja útil pras minhas áreas de negócio na minha parte dos do tempo então aí que entram vários Engenheiros de dado fazendo esse trabalhinho de lá vai no datalake pega o dado manipula E cria algo que vai ser dispon izado pra empresa para ser usado de forma mais fluida então as áreas conseguem e acessar esses dados que vão estar guardados por exemplo no Big query bigquery é uma ferramenta do do Google mas tem as outras como a gente já conversou da das outras clouds em que a gente consegue escrever queries com SQL que é
uma linguagem super simples é um SQL do Big query ali por exemplo mas é um esql então não tem uma barreira muito grande de entrada Você só tem que entender que não é um uma tabela nem sempre vai ser uma tabela convencional com linhas e colunas pode ter dados ali que não são necessariamente estruturados isso já conecta um pouco que a gente falou lá no início mas é basicamente conhecendo essa linguagem que te dá acesso à manipulação dos dados você consegue trabalhar com com essas com os dat me perdi um pouquinho mas sensacional acho pegando
até o gancho da paa né então assim a gente falou de dat Lake dat Lake Qual é o consumo é um consumo é analítico então eu quero rodar modelos eu quero fazer um um um treinamento aqui eu vou usar um dat Lake Beleza cara não tem um viés analítico aqui eu quero gerar um informacional é um Dash é uma é algo que já tá trabalhado né como a Paula comentou é um data Warehouse Então pode acontecer de eu extrair uma visão ali do dat Lake por exemplo e popular um data Warehouse exatamente com a visão
que eu quero né E ali eu eu plugo um Dash consigo extrair relatórios de uma visão já consolidada daquilo que eu tô buscando né então é o conceito que eu falei há pouco ali do do dat Warehouse da tem a base transacional a base que você pegava para você fazer suas análises E aí a gente falou de Spark também e tal se você for pegar hoje uma ferramenta que é uma das minhas preferidas que é o databricks databricks ele usa Spark debaixo dos panos ali e eu tô fazendo queries eu tô pegando dados do Lake
transformando em tabela fazendo consultas fazendo machine learning fazendo uma porrada de coisa legal para extrair informação e pro cliente final então eu posso trabalhar com dados de streaming posso trabalhar com uma porrada de coisa ali que que me me auxiliaria o grande processamento a possibilidade do grande processamento de dados que ela tem é o poder de dat Warehouse a transformado já para uma ferramenta já de tecnologia recente como como essa e aproveitando que a gente tá falando de dados e bancos de dados aqui a gente tem dois cards que são interessantes né que a gente
falou um pouquinho de SQL né que também traz a coisa do MySQL para quem é programador já conhece aqui a gente tem dois cards que é um é de bancos de dados relacionais e o outro de bancos de dados não relacionais e afinal qual que é a diferença o que é um dado relacional que que é um dado não relacional e a ferramenta que você vai usar para um você vai poder usar pro outro ou não pô de de banco relacional sou meio suspeito para falar porque eu trabalhei minha vida inteira com isso né então
eu fui dba Oracle por uns 10 anos quase e o orac com El é considerado um banco relacional o que que Teoricamente é um banco relacional Você tem uma tabela que ela tem um campo por exemplo vai ID com seu nome endereço e tal e você tem uma outra tabela que você não quer replicar essas informações para esse lado e você só quer levar o ID do cara para se um dia você precisar fazer o join chamado entre as du as tabelas você exibi o resultado final você não precisa ter duplicidade de dado então é
esse relacionamento entre as tabelas cria essa tabela relacional o o banco de dados não relacional eu vou dar alguns exemplos por exemplo o mongo DB o Cassandra o elastic search e algumas outras bases eles são bancos considerados não relacionais por vamos supor e vou dar um exemplo de elastic search eu faço uma base eu trabalhei no SPC e aí a gente a gente fazia uma base do do do cara lá para pegar a capivara dele que que ele tinha de informação e aí a gente cruzava todas as informações desse cara lá se eu fosse pegar
em tabelas eu ia ter várias tabelas eu ia ter a tabela que vinha de telefonia eu ia ter uma tabela que vinha de banco tinha outra que viria de outra fonte e a gente centralizava tudo isso num único documento Jon um documento Jon de chave e valor com tudo lá e qual que é a vantagem do elastic Search para fazer essa busca de uma forma mais rápida Ele trabalha com índice reverse na hora que que eu cheguei fizer a busca do CPF ele é muito mais fácil do que eu fazer de em várias tabelas e
trazer uma informação só então o cenário para você usar relacional e usar não relacional vai muito da tua necessidade de momento de de da da sua necessidade de aplicação por exemplo eu não conseguiria fazer a mesma coisa rodar numa forma tão performática num Oracle e para esse cenário no elastic search a funcionou muito mais rápido então você saber qual o o o banco usar nas no com a sua necessidade ele é uma um diferencial bem bacana para você trabalhar na área eu posso d d até o exemplo imagina lá você tem uma aplicação que ela
tem um alto nível de consulta Então imagina lá o Netflix ela vai bater ali na no filme que você quer assistir e tal agora imagina toda vez que ele tivesse que fazer essa consulta ele tivesse que fazer relacionamento entre as tabelas cara ia ser um tempo absurdo então é muito mais joso eu tenho uma arquitetura ali que eu use um banco orientado à consulta né um banco colunar como o s falou aqui do Cassandra então é muito mais vantajoso usar o Cassandra guarda a minha consulta aqui toda vez que o usuário vai utilizar dado de
sensor também né por exemplo você pegar a máquina en Viana vamos dar exemplo do próprio Uber ali o Uber ele tá passando sempre localização geolocalização da Longitude a latitude a placa do carro quantos quilômetros vai andando quanto tempo ele vai demorar no Cara essas as informações elas são mandadas com uma determinada frequência se eu fosse jogar numa tabela pô funcionaria funcionaria mas e o a grande escala desses dados não não daria conta então a base não relacional ela para esse cenário ela seria mais viável tanto é que a base do Uber do do tinder e
de todos os outros serviços que usam esse lance de geolocalização elas são bases não relacionais e geralmente são o elastic search e fechando esse nível dois aqui a gente tem um card que é o de redes de computadores né que é uma coisa que pode assustar né essa coisa de tcpip de Switch de wireless e tudo mais é quanto que um engenheiro uma engenheira de dados tem que saber para trabalhar aqui no nível dois de redes o conceito do kubernets lá né se você for entrar a fundo na área de redes você cai num num
posto sem fundo porque é muita coisa são muitas informações e tal mas você precisa pelo menos saber o básico para viver que que é um host que que é um DNS que que é um ip O que é uma classe de IP que que é um fal para bloquear o acesso desse IP ou não saber de portas que Quais são as portas de cada serviço que você se conecta isso é o básico então eu acredito que isso faria parte e é totalmente interessante tá você for pegar no mercado pouquíssimas pessoas de dados T um conhecimento
de rede como eu vim de infra para mim fica fácil agora pegar um cara de programação ou veio de Outra área talvez aí sinta um pouco de dificuldade mas ajuda muito você saber disso porque imagina assim né E quando a gente fala de pipeline pipeline como a nossa amiga comentou aqui é um tubo né ele vai conectar muitas vezes em Ambientes diferentes a minha origem é um ambiente x que eu tô trazendo o dado para um ambiente Y né então tem essa visão aqui de conectividade né entre ambientes é sensacional até para você em caso
de erro conseguir fazer um trouble shooting ali entender que Às vezes você tá com problema de comunicação n às vezes seu Pipe não tá rolando e você fala pô Será que eu fiz o código errado e tal mas a configuração entre um ponto e outro o link caiu ou a rede caiu ou fizeram uma regra de Fire que proibia a conexão entre um ponto e outro e então isso vai te ajudar bastante cara não não entre no absurdo ali de querer aprender tudo né mas te ajuda às vezes meu pipeline tá demorando muito aí quando
você vai ver você tá usando um uma placa de rede uma uma configuração de rede ali que a quantidade de a taxa está abaixo daquilo que você precisaria Então você falar cara faz sentido meu pipeline tá demorando porque não tô usando a melhor configuração que é a melhor rede posso dar até mais Um cenário real assim por exemplo e a Microsoft Ela usa uma ferramenta que chama integration e que é o data Factory mas eu tô buscando dados Z prems então por exemplo eu tenho um data center da porto e eu tenho várias máquinas lá
dentro eu coloco uma máquina Windows lá com serviço chama integration runtime Então o que ele faz ele se conecta nessa máquina transforma em capsula num formato dele e manda para dentro do data Factor pro data Factory tratar e jogar no Lake Só que essa comunicação ela tá em dois pontos totalmente distintos o seu data Factor tá na Cloud e o teu integration runtime ele tá no premise essa conectividade entre um ponto e outro e fazer esse é o básico de rede que você precisa fazer por exemplo ó eu vou trabalhar na porta 443 da data
Factory Ah o endp é esse daqui eu tô trabalhando numa rede pública ou privada aí por exemplo é é para internet ou uma rede só da tua empresa eh Pô eu eu consigo resolver o nome pelo IP do cara por exemplo quando você entra em www.all.com é um nome mas por trás dele tem o IP Então essa resolução dentro da tua empresa você vai ter que saber fazer também que é bem interessante e agora a gente vai entrar no nível três do nosso guide de engenharia de dados né Começando aqui com um tema um conceito
que vocês já mencionaram lá em cima que é o tal do datam né Por que que vocês mencionaram lá em cima e ele tá aqui no nível três ele é para uma pessoa que vai tá mais para baixo mesmo no nosso mais profundamente né no t é um ponto mais avançado da carreira ou não necessariamente você pode começar com ele antes uma boa pergunta assim não necessariamente e você precisaria ele demanda aqui um um nível mais avançado tá é claro que acho que tem informações aqui importantes que você tendo uma base antes você vai conseguir
entender melhor por exemplo no módulo dois a gente falou sobre Cloud então quando a gente fala ali sobre e o datamesh vai falar muito sobre a questão de Federação né então pensando na Cloud fica mais fácil você entender esse contexto a gente comentou lá atrás sobre datam porque um um dos percursores aqui da forma que a gente armazenava o dado e centralizava era o dat Lake né então acho que foi por isso que a gente fez o link aqui com datam mas acho que aqui no nível TR falando de datam dá para ter uma profundidade
aqui legal dado o conhecimento aqui das fases anteriores D das fases anteriores também eu acredito que o datam d para você ter um entendimento melhor é um um conceito amplo assim mas as os tópicos anteriores eles te ajudam a entender melhor eu queria fazer um comentário sobre o nível três como um todo quando a gente a o nível um a gente tá olhando ali a base do conhecimento nível dois você já consegue ter autonomia para executar as atividades ali dentro num num contexto de um de engenheiro de dados o nível três eu vejo como uma
pessoa que tem uma senioridade um conhecimento maior do funcionamento da empresa como um todo então entra ali por exemplo governança é um tópico que você precisa de ter uma um conhecimento ali uma maturidade eh um pouco maior para se preocupar com esses aspect aspectos gerais e não tão pontuais do dia a dia de cada Engenheiro com isso o negócio né o por trás do negócio não só o por trás do negócio mas deixa eu tentar organizar isso na minha cabeça que tá meio confuso tem tem um engenheiro de dados que ele vai olhar para transformar
é dado é dado é dado o dia inteiro e tem outro que ele vai olhar para que os outros Engenheiros de dados estão fazendo para Como é que os dados que Tô preparando vão estar se conectando com as demais áreas como é que eu vou disponibilizar isso da melhor forma qual a documentação que vai garantir que o dado vai ser usado da maneira correta então isso é um P um pouco mais abstrato do que a a sua individualidade enquanto Engenheiro por isso que eu vejo a necessidade de ser um um terceiro momento perfeito e aí
Acho que até aproveitando o gancho da Paula aqui acho que a gente em governança a gente ainda fala de data Quality né a gente fala de qualidade de dado então lembrando lá do 5 vs a gente só vai extrair valor se aquele se tiver veracidade como é que a gente garante a veracidade tendo qualidade naquela informação porque às vezes ali no nosso pipeline a gente disponibiliza um dado que tá errado né é uma informação fake ali E aí muitas vezes um dado errado é pior do que a ausência do dado né então é um pilar
ali da da governança de dados pegando o gancho da Paula talvez nesse momento aqui você já entendendo toda a cadeia entendendo as ferramentas eu acho que você tá Mais maduro para olhar faltaram três vezes aí thgo você explicou dois Faltam três Ah mas é aí fazendo um gancho com os eh as os níveis anteriores né Então pegando os Ganchos os os três vezes né então volume eh velocidade e variedade volume a gente fala muito de armazenamento de dados né então fazendo um gancho ali com os bancos relacionais não relacionais variedade cara tô falando diversas Fontes
diversas Fontes então desde a captura ali os meus pipelines capturando diversas Fontes até armazenando em bancos cicos e não e no cicos né E aí quando a gente fala da velocidade a gente falou ali do P Spark a gente falou do Spark que é processar esse volume né de numa velocidade muito rápida aí o quarto valor aqui o o quarto Pilar aqui do Big Rita é a veracidade né que aí vem o data Quality aqui então assim o engenheiro de dados ele acaba olhando ele tem uma responsabilidade muito forte nos quatro pilares aqui para só
assim ter a garantia do valor ali no final da da cadeia né E você falou de velocidade tem um card aqui no nível três que é streaming que eu imagino que seja uma coisa né o streaming Talvez seja os dados que eles vem a todo momento né eles não param de vir basicamente é isso mesmo é uma das Ferramentas mais legais que eu gosto de trabalhar tipo atualmente eu tô trabalhando mais com dado Bet que é o dado do de um dia anterior ou tal mas o streaming é muito legal de trabalhar e imagina vou
dar o exemplo do Netflix né e eu vou tentar transformar isso para dado de uma maneira lúdica o o dado do Netflix o filme que você tem fo o trás dele ele é um arquivo binário esse binário ele é composto por linhas e imagina que você tem um producer e um consumer o producer é o cara que vai gerar o dado e o consumer é o cara que vai consumir no final consumer a tua televisão produ ser a Netflix então ele vai pegar essa informação essa linha vai mandar nesse fio de comunicação entre um um
ponto e outro vai chegar na tua TV e você já tem a primeira linha do binário eisso Ele vai te mandar outra e te mandar outra e te mandar outra com base naquelas linhas que elas vão sendo atualizadas o seu filme vai sendo exibido e isso é legal para caramba você pegar e falando em dado isso eu falando um dado binário mas por exemplo vai Spotify faz isso e tal mas eu vou dar um outro exemplo e você vou dar um exemplo de uma empresa de leite assim uma Piracanjuba da vida assim e ela tá
lá com a linha de montagem dela rodando de montar as leite e colocar a parada tal todos os sensores da da Piracanjuba Elas têm e para ver se o óleo tá certo das máquinas e tal todas essas informações desses sensores aí são mandados para um Hub Central em tempo real vamos supor que vai parar uma máquina ou você vai ter que trocar uma peça ou alguma outra coisa você tem uma possibilidade de ser preventivo e já ter essa peça porque às vezes é uma Peça importada ou alguma outra coisa e tal e esse essa é
a maravilha do streaming é você ter um Insight em tempo real de alguma coisa que pode vir acontecer ou que está acontecendo e você agir porque imagina a parar a linha da Piracanjuba pode ser qualquer uma outra de exemplo de Piracanjuba mas a parar por algumas horas isso é um prejuízo enorme em grana então é o o o que eu acho bacana no stream é você transformar o dado que sai de diversas origens em um Insight para você agir em tempo real e a gente tem duas ferramentas que a gente tá citando aqui que são
o kafica e o Spark streaming eles são realmente o elas são as principais do mercado hoje em dia sim sim o cafca o Kafka é a ferramenta que trabalha com isso antes existia um lance de streaming que nem era chamado de streaming que era filas MQ né que era o MQ e tal da minha época o Rabbit MQ e tal só que eles trabalhavam com blocos de 4K e o e o o o Kafka Ele trabalha com blocos de 1 mega né então ele já tá bem mais robusto eh hoje tem várias empresas que em
capsula o o Kafka é open você pode ir lá na página da pas baixar instalar dentro da tua do da da tua máquina ali para fazer testes mas por exemplo para empresas Tem empresas que encapsulam isso como a confluent né a clauda fazia um um um trampo de de de encapsular o funcionamento do Kafka também e você tinha comentado também sobre Spark streaming né que é a possibilidade de você ler o dado de um tópico do Kafka e processá-lo da mesma forma que o Spark processa tabelas de um de um Lake ou de alguma outra
fonte e a gente tem mais uns cards aqui que são infraestrutura como código I AC O que é isso falando de falando num cenário assim vou usar uma Cloud específica que é que eu mexo que é a azu e você pode criar servidores na página Web deles clicando nas paradinhas lá e tal e gerei a máquina ou o disco do jeito que eu quero beleza isso daí leva um tempo e pode ter erro humano então por exemplo você pode clicar numa configuração que não é a correta e tal ou por exemplo eu sempre vou criar
aquela máquina Daquele mesmo jeito mas pode ser que na primeira vez eu faça de um jeito na segunda eu faço de outro e na terceira de outro completamente diferente a infraestrutura cod ela é uma possibilidade de você sempre rodar a mesma coisa do mesmo jeito sem um erro humano então Existem várias linguagens que elas te permitem fazer isso né Por exemplo tem o ansible tem o terraform tem o puppet tem uma série de outras linguagens eh não não recomendo você aprender todas elas também Eh mas você criar um código para subir sua sua infraestrutura vou
vou dar um exemplo tá a gente criou um stack de dados na Porto Seguro que ela é composta por três ou quatro ferramentas ali que é o databricks o Storage account e um data Factory se eu fosse criar isso na mão dentro da página da da porto ali colocando todas as informações da da do Portal da Microsoft e levando uns 10 minutos 10 15 minutos o time lá a gente conseguiu fazer um um um playbook que a gente chama sei lá e ele cria toda essa infra sem você precisar logar na página nem nada em
sei lá 3 minutos Então imagina uma área precisa de uma demanda de criar um stack de dados para ela processar eu posso rolar e criar para ela em 3 minutos ela rodar e eu posso simplesmente apagar esse stack e pagar pelo uso Então e e sem o o risco de eu ter alguma interação errada bacana e a gente tem também a parte de Deploy né de implementação de um pipeline de dados e também essa parte de entrega e integração com tinas né o cicd né que eu imagino que seja o carro final né chega ali
você tem que ter certeza que o pessoal vai est que esse o sistema vai tá bom tá implantado e as pessoas vão estar recebendo esses dados né como que isso é usado hoje em dia é eu ia comentar que essa daí é a é a forma que a gente entrega o o projeto em em produção né então como garantir que aquilo que a gente tá fazendo vai se integrar o ambiente produtivo da melhor forma né então a gente acaba utilizando CCD aí faz um um um um um gancho com que a Paula tinha comentado lá
do Git lá no começo então é uma é a melhor forma de entregar o o nosso pipeline al em produ posso usar um exemplo lá nossa também por exemplo vou dar um exemplo de carreira existe um padrão Cada um faz de um jeito por exemplo você vai fazer de um jeito ela vai fazer de um jeito você vai fazer de outro e tal e isso gera um problema lá na frente que por exemplo você pode sair da empresa ela pode sair da empresa eu posso sair da empresa e a gente não saber como Cada um
fez as suas coisas ali O O cicd ele cria também um padrão muito parecido ali com o da infr code de você padronizar o seu pipeline de dados então por exemplo eh ele vai chegar em homologação ele vai vai fazer os ó vai chegar em desenvolvimento vai fazer os testes vai rolar [ __ ] passou por uma aprovação o cara chegou lá e aprovou beleza passou desse Pipe ele vai pra homologação com as evidências coletadas e tal eu vou dar um exemplo até da Porto Seguro mesmo tipo era ruim mas vai mudar que a gente
tá fazendo um negócio legal lá eh para você aplicar uma um Deploy em em produção até ele chegar em produção ele demorava semanas então por exemplo você implantava ele em desenvolve acredito que tá a mesma coisa no no b a mesma coisa eh no bem não tanto né porque uma empresa já nasceu de Cláudio eu acredito que ela Deva ser mais automática mas eh ele passava em desenvolvimento ele fazia os testes depois que ele passava dos Testes ele ia para um comitê para as pessoas aprovarem ou não e com base em algumas evidências e tal
e falou ó Beleza então a gente vai rodar na janela da quarta-feira aí o cara rodava na quarta-feira em homologação passava mais uma semana testando em homologação para que Ele pudesse rodar em produção finalmente existe um negócio no mercado chama time Market é o tempo que você tem para ganhar dinheiro com aquela sua solução se você tiver três semanas para implantar um cara às vezes seu concorrente fez em uma então o CCD nesse modelo ele te dá uma agilidade Para você ganhar dinheiro mais rápido e com uma certa segurança e essa aprovação Nossa lá da
porto a gente alterou Inclusive a gente tá tá implantando essa semana ali uma migração ali a gente conseguiu fazer as três aprovações de desenvolvimento homologação e produção no mesmo dia então ficou incrível perto do que era a gente quer de reduzir isso para horas eh Quando ganhar um a sua maturidade confiança porque csd é um processo contínuo né você vê ali aonde teve os erros você já corrige pra próxima vez que executar pegou mais erros até ele ficar fino e executar de uma forma bacana saindo aqui da parte mais profunda do nosso noss T de
engenharia de dados a gente vai pra parte ortogonal que ele apresenta coisas que eles não necessariamente vão ser úteis logo no começo mas elas podem ser úteis no começo e elas não são necessariamente da área de engenharia de dados mas vão ser muito úteis para uma pessoa que quer seguir nessa carreira e que quer se especializar n chegar no nível pleno no nível Senior e começar realmente a ser um profissional dessa área né então a gente tem do lado esquerdo aqui superior do nosso T essa parte mais de tetura de software né que a gente
falou um pouco de Python lá no nível 1 chegou a falar até de Java no nível um então aqui a gente tem alguns cards que são como teste design pattern instrutores que são bem focados na verdade na parte de programação mas a gente tem dois que são interessantes que são o de api né de como conectar Criar e manipular dados de apis E também o de Analytics by design vocês podem falar um pouco sobre esses cards bacana E aí apesar de tá em engenharia de software Mas a gente não deixa de falar de de dados
né e o analytic by design ele traz Justamente esse chapéu ali esse Pilar de dados no momento da Concepção do software então o que que é o Analytics by design é quando eu eu concedo ali um produto um software que ele já cresce ele já surge com Analytics embutido então eu já disponibilizo os dados para poder analisar aquela analisar conseguir retirar insights ali de o quanto o meu software Tá performando quanto Ele atende aqui aquilo que era previsto então assim eu disponibilizo eu faço o desenho do meu software pensando já Em disponibilizar os dados para
fazer um analítico daquilo que eu tô me propondo né daquilo que o o software ele busca atender e api no caso é uma uma das possíveis fontes de dados que você vai ter dentro de engenharia eu vou dar um exemplo durante a pandemia eu fiz um projeto lá tem até no canal e que era sobre a integração de dados do covid Então tinha um portal que chamava brasil.ao E aí tinha todos os dados do covid atualizados ali que os caras faziam crawlers na nos sites das prefeituras e traziam essas informações centralizadas assim por quê eu
comecei a notar que os gráficos plotados assim eles eram muito por região fechada por exemplo são Estado de São Paulo e estado do Rio e tal e eu queria pegar uma coisa muito mais enxuta ali de de por exemp região porque se eu tivesse dentro por exemplo vai sei lá Prefeitura de Louveira quantos casos tiveram ali em Louveira e quantas unidades de saúde eu tivesse dentro dessa área para eu saber se tem leito se não tem leito e tal a minha ideia final era essa e se vocês olharem lá e entrarem por exemplo nesse Portal
brasil.io ele é uma API aonde você se conecta E baixa o dado E aí lembra que a gente falou de dado estruturado e não estruturado né ele vem o dado num formato Jon com essas informações e aí você trata ele e transforma ele em um formato de tabela caso você queira ou plota Ele diretamente no Eu usei o elastic search e o nai são duas ferramentas distintas eu batia no api do cara trazia pro nai jogava pro elastic search montava a minha base de dados no elástico e plava as informações então api é uma coisa
que você vai ver o dia inteiro com engenharia de dados eu vou dar exemplo de seos Force vou dar exemplo de sites do governo no que você vai precisar pegar informação eh Serasa um SPC ou algum lugar geralmente você vai usar pi por exemplo eu vou bater uma requisição htp lá jogar um CPF ele vai trazer Teoricamente as informações do CPF para cá e assim vai e a gente tem o lado direito também superior aqui do T que ele é um pouco diferente né não tem a ver tanto com código Apesar que pode ter também
né que é dados e machine learning né a gente tá vivendo uma um grande Hype atualmente sobre eh Inteligência Artificial e machine learning né então isso aqui também tá relacionado com dados afinal de contas né então Quais são esses fundamentos de machine learning de estatística de tratamento de dados extração que uma pessoa um profissional de engenharia de dados poderia saber para avançar na carreira vou falar como a gente começaria Então sou uma pessoa hoje seio básico de Python de skl quero come quero ir um pouquinho mais pro lado de machine learning O que que é
machine learning aprendizado de máquina a máquina vai aprender alguma coisa sozinha tá mas ela vai aprender como eu preciso dar um insumo pra máquina aprender Esses insumos são os nossos dados Então a partir do momento que eu sou um engenheira de dados e eu quero eh e eu tô servindo uma área de negócio uma área que vai trabalhar Vai criar modelos de Machine learn eu preciso entender como é que esses dados vão ser utilizados para eu poder de fato gerar o dado mais propício para aquela área então a gente pode e card por Card se
for necessário falando de estatística eu posso como engenheira de dados entender que eu vou tirar estatísticas básicas do dos meus dos meus dados eu posso entender como esses dados estão dispersos olha será que esse dado tem tem qualidade eu posso usar estatística para poder avaliar isso fundamentos de matemática e toda essa base de cálculo Isso é se você quiser se adentrar mesmo para criar modelos de machine learning entender como eles funcionam Porque não você até consegue só criar um modelo com duas três linhas de código hoje mas você não sabe se aquele modelo Tá certo
tá fazendo algo que é condizente com que você espera ou não então para fazer essa avaliação a gente precisa de fato entender a matemática por trás da coisa a álgebra linear o cálculo as equações tudo ali envolvido vamos falar um pouquinho de bi se eu tenho eu tenho diversas áreas que tomam decisões no dia a dia mas elas não sabem programar elas não sab a maior parte das pessoas ali Essa não é especialidade delas Então a gente tem várias ferramentas de Bi por exemplo o Power bi o o ler agora né mudou de nome o
tablô que também é é bem famoso no mercado que permitem extrair um pouco de valor dos dados sem ter um um conhecimento muito grande de programação são coisas meio arrasta e solta e ainda assim você consegue tirar valor e gerar relatórios e falando um pouquinho de emops que que é mops Mach machine learning Ops tô focada em criar toda ação necessária para que os cientistas de dados consigam atuar no dia a dia criando os modelos Então olha eu não vou ter que me preocupar em subir um com kubernetes com docker com toda a parte de
infraestrutura ali como conectar as caixinhas eu preciso me enfocar no meu modelo porque tem alguém cuidando de toda a parte operacional ali por trás se você quiser especializar nisso também dá uma investigada mas o ideal é que você tenha ideia do contexto de como funciona O que é machine learning operations e pode F posso só apar ess E aí ô Fabrício essa questão do mlops Eu acho que cabe uma trilha só para ela tá porque é muita coisa e aí a gente falando de ML Ops muitas vezes acaba sobrando pro engenheiro de dados essa missão
porque assim imagina que a gente fala um pouco lá na na parte do engenheiro de dados né lá no módulo TR a gente falou da esteira CCD então a estr csd ela ele leva o seu pipeline para o ambiente de produção Agora imagina que eu sou um cientista né como a Paola aqui fiz o meu modelo e eu preciso colocar ele em produção só que eu não tenho uma esteira eu não tenho ml ops na minha na minha empresa aqui como é que eu vou colocar esse modelo né feito aqui em Python em produção uma
galera faz isso na mão hoje né para entregar sim muito é o acho que tem um paper do Google que ele dá os níveis né se eu não me engano nível zero é esse nível manual aqui que muitas empresas T né Tipo o cientista foi lá desenvolve na mão e falou cara tá tá aqui o meu modelo como é que paper tá aqui na descrição do vídeo eh como é que eu coloco isso em produção aí acaba sobrando pro engenheiro de dados pegar esse cara aqui e ir lá codar e implantar isso num p e
até para acabar um pouco com essa briga do cientista Fala pô você não tá me trazendo o dado correto e não sei o qu Man eu não sei qual o dado que você quer cara aí vocês entram num padrão montam uma esteira e vai todo mundo vive feliz toma cerveja depois já era no final das contas o que a empresa quer com algoritmos de aprendizado é o quê gerar valor de alguma forma e se você faz o seu modelo o seu modelo tá ali na sua máquina e ninguém tá usando não tá gerando não tá
fazendo predições não tá servindo para nada então a maior parte das vezes a gente precisa de fato garantir que o modelo vai entrar em produção com todos esses cuidados e com qualidade e assim eh hoje né com advento aqui do do chat GPT por exemplo que é o llm Né larger language Model eh a gente já fala na carreira de engenheiro de dados de disponibilizar o dado e já pré-processuais [Música] Precisa converter esse texto em tokens e tensores né que é a forma que o computador entende PR a partir daí o cientista poder gerar o
modelo dele ali tirar insites Então hoje a gente já fala por exemplo aí voltando lá na trilha de engenheiro de dados a gente já fala de banco de dados de tensor de vetores né então a gente já tem banc de dados vetores que é o qu P engenheiro de dados foi lá fez toda captura da informação pré-processual e já armazenou ali o dado pré-processada pro cientista então assim Acho que só para ilustrar aqui o quanto a carreira de engenharia de dados e de cientista é muito casada assim a expectativa com o que a gente tá
vendo aí no mercado até lembrando da trilha até desculpa te cortar cara eh do Lance da trilha a gente tá falando de engenharia de dados né pô o o o cientista é o cientista o engenheiro é o engenheiro a gente tem geralmente não é o engenheiro que monta esteira mops uhum tá ele pode é um lance casado eu até acho a quatro irmãos ali é pro o cientista ajuda o engenheiro a montar a palar Porque se o cara só fizer de um lado ele não vai entregar o que o cientista quer e vice-versa então tem
que ser eu acho uma Bola Dividida é por isso que tem o engenheiro deops né é uma outra que é o cara meio calabresa meio mel e como eu disse eu espero seu comentário aqui se você concorda com a gente se você discorda se você acha que alguma coisa deveria est no nível diferente né a gente teve algumas conversa sobre isso durante a gravação aqui do episódio ficou bem interessante e como eu falei Esse é um projeto open source então você pode ir lá no nosso repositório no github fazer lá o seu P request a
gente vai aprovar se fizer sentido e claro compartilhar isso com a comunidade porque esse é um projeto que a gente desenvolveu aqui dentro da alura mas ele é aberto para todo mundo tanto para para criar novos guias né E também para adicionar coisas e guias que já existem ou mudar a ordem enfim é uma coisa que a gente pode discutir e fazer tudo isso junto que fica mais gostoso e os links que Eu mencionei aqui vão estar todos na descrição desse Episódio e a gente se vê aqui no próximo Tech guide tchau [Música] tchau
Copyright © 2024. Made with ♥ in London by YTScribe.com