contextualizando data wear House data Lake e data lakehouse são os termos moderninhos relacionados ao mundo de Big Data que descrevem a forma como os dados são armazenados e gerenciados apesar dos nomes parecidos eles são bem diferentes entre si e isso faz toda a diferença em um mundo onde Praticamente tudo são Dados que precisam ser armazenados que por sua vez vir a informação que vir a estratégia que vira negócio os deita lags são vitais para os projetos se você desenvolvedor cientista de dados um gestor de projetos esse vídeo vai elucidar esses termos mostrar suas diferenças e
principalmente suas aplicações em um cenário no mundo real bora ver [Música] o dicionário do programador é um espaço onde desvendamos um termo uma palavrinha uma tecnologia desse Incrível Mundo da programação se você está sempre aprendendo coisas novas Então se inscreva no canal para não perder os nossos vídeos semanais para nos ajudar a desvendar essas três tecnologias nós trouxemos HP uma empresa conhecida por todos nós e que passou por uma grande transformação nos últimos anos trazendo diversas soluções como o HP esmeron uma plataforma com diversas ferramentas de análise e imagine laning e disponibiliza justamente uma solução
unificada de análise e data Lake temos que vamos abordar aqui nesse dicionário do programador o HP Esmael tem como um dos seus pilares do HP Esmeralda criados para serem abertos e híbridos esse serviços de análise e nuvem de dados do HPS ajudam a unificar modernizar e analisar dados onde quer que eles estejam seja na borda em um servidor local em um deita lei que em nuvem ou em outras pla problemas de nuvem o HP exmeldeira febre que nos garante o acesso Global aos dados e ainda verifica se os dados estão sincronizados independentemente da localização isso
simplifica Deveras a conexão de usuários e de ferramentas para que as equipes de dados e análise foque na criação de valor através dos dados e não percam tempo com a infraestrutura de dados subjacentes para conhecer como ecossistema da HP pode ajudar no desenvolvimento dos seus projetos e como você pode realizar treinamentos gratuitos nessas ferramentas é só acessar o link que tá aqui na descrição desse vídeo apesar de ser em tecnologias com diferentes abordagens decidimos mostrar elas em um vídeo só pois elas também trabalham de certa forma junto para começar Que tal então uma definição de
cada uma começando então pelo pomposo tem o celular House que nada mais é que um repositório de dados Unificado para armazenar grandes quantidades de informações de várias Fontes dentro de uma organização Olha as palavras chaves aqui grandes quantidades e várias Fontes guarde isso um Daily House representa uma única fonte de verdade de dados e uma organização e serve como um componente central de relatórios e análise de negócios o que chamamos de Business imagine uma empresa gigante onde rodam vários sistemas sejam internos ou externos as informações geradas por esse sistemas podem e devem alimentar o dayhouse
que pulsa uma vez armazena esses dados de forma estruturada e relacional com dados históricos o trabalho dos dedos é extrair esses dados de várias fontes e o transformar e limpar antes de carregar um sistema de armazenamento Aí sim ele passa a servir como uma única fonte de idade verdadeira as organizações investem ou é House devido a sua capacidade de fornecer rapidamente em sites de negócios de toda organização tranquilo até aqui né então dá uma olhadinha nisso Essa é a representação do que acabamos de explicar dentro da organização temos várias fontes de dados diferentes cada uma
dessas Fontes precisam ter seu próprio processo para extração transformação limpeza filtragem e carregamento dos dados de forma estruturada e já pré-definida tudo isso vai para o house que se virar como repositório de dados para geração de relatórios em site e visualização desses dados de forma agrupada nós temos em deyton Winehouse que chamamos de etl ou strect transforme em load que no português é extração transformação e carregamento na prática para implementar House é preciso planejamento e muito código para que a conversa e adaptação dos dados seja feita de forma mais suave possível ter um dele ou
é House dentro das companhias É vantajoso demais os principais benefícios são melhorar a padronização qualidade e consistência dos dados como as organizações geram dados de várias Fontes incluindo vendas usuários e dados transacionais o armazenamento de dados consolidam os dados corporativos e um formato consistente e padronizado que pode servir como uma única fonte de dados verdadeiros dando a organização confiança necessária para confiar nos dados para as necessidades de negócios a consequência disso é o fornecer inteligência de negócios aprimorada armazenamento de dados preenche a lacuna entre dados brutos volumosos geralmente coletados automaticamente como uma questão de prática
e os dados selecionados que oferecem sites estratégicos ele serve como um backbone de armazenamento de dados para as organizações permitindo que respondam a perguntas complexas sobre seus dados e usem as respostas para tomar decisões de negócios informadas aumentar o poder e a velocidade das cargas de trabalho de análise de dados inteligência de negócios e isso acelera o tempo necessário para preparar e analisar dados como os dados do data são consistentes e precisos eles podem se conectar sem esforço a ferramenta de análise de dados reduz o tempo necessário para coletar os dados e dão as equipes
o poder de aproveitar os dados para relatórios painéis e outras necessidades de análise melhorar o processo Geral de tomar de decisão o armazenamento de dados melhor a tomada de decisão fornecendo um único repositório de dados atualizados e históricos os tomadores de decisão podem avaliar riscos entenderem as necessidades dos clientes e melhorar produtos e serviços transformando dados para obter em sites preciosos tudo muito lindo mas ainda assim Existem algumas desvantagens embora os deitaurehouse funciona e bem como estruturas de dados eles podem ter problemas com formatos de dados sempre estruturados e não estruturados como análise de log
streaming e dados de mídias sociais e Isso dificulta a recomendação de deitar housen para casos de uso de aprendizado de máquina Inteligência Artificial e os altos cursos de implementação e manutenção dentro House podem ser caros para implementar e manter normalmente não é estático desatualizado e requer manutenção regular já deita lakes apesar de também serem um ponto de armazenamento de dados apresenta características bem diferentes dos datewarts ele também funciona como um repositório de armazenamento Centralizado mas altamente flexível que armazena uma quantidade de dados muito grandes que podem ser estruturados ou não outro diferencial é que os
dados são armazenados de forma bruta original sem nenhum formar chamamos isso de armazenamento utilizando uma arquitetura plana na sua forma mais bruta sem filtros ou limpezas os datalei que são flexíveis duráveis e mais econômicos e permitem que as organizações obtém informações avançadas de dados não estruturados ao contrário dos dayhouse só para deixar mais claro Essas são as principais diferenças entre o datawearhouse e o data Lake nessa tabela fica claro que as diferenças se dão em relação a estrutura de dados finalidade dos dados principais usuários e acessibilidade enquanto desde a lei que tem uma estrutura de
dados cruas os dados processados que também chamamos de sanitizados isso porque o seu uso já está determinado para alguma finalidade por isso é direcionado para os cientistas de dados que saberão melhor tratar as informações para extrair o melhor dela em modelos de machine learning e inteligência artificial enquanto do outro lado os dados são direcionados aos gestores e Profissionais que são responsáveis por criar as estratégias de negócios olha só essa imagem para consolidar o que acabamos de explicar o esquema os dados não são definidos quando os dados são capturados pelas fontes de dados lembra do etl
do dayrehouse aqui nós teremos o LT ou strexford no português extração carregamento e depois a transformação para fim de análise permitem aprendizado de máquina e análise preditiva usando ferramentas para vários tipos de dados de dispositivos e desvantagens como tudo na vida né os maiores benefícios estão na consolidação de dados o usdera lakes podem armazenar dados e estruturados e não estruturados para eliminar a necessidade de armazenar os dois formatos de dados e Ambientes diferentes eles fornecem um repositório Central para armazenar todos os tipos de dados organizacionais isso gera uma má flexibilidade de dados é possível armazenar
dados em qualquer formato ou meio sem a necessidade de ter um esquema pré-definido deixar que os dados permaneçam no seu formato nativo permite mais dados para análise e atende a casos de uso de dados futuros uma tremenda vantagem não podemos deixar de falar na economia de custos Sem dúvida que eles são mais baratos que os deram errados tradicionais pois são projetados para serem armazenados em hardware comum de baixo custo como armazenamento de objetos geralmente otimizado por um custo menor por Gigabyte armazenado de casos de uso de ciência de dados e machine learning os dados em
deita a lei que são armazenados Em um formato aberto e bruto facilitando aplicações de vários algoritmos de aprendizado profundo e de máquina para processar os dados e produzirem sites significativos mas as desvantagens existem Pois é são poucas mais existem alguns dos desafios são em relação ao desempenho insatisfatório para casos de uso de Business intelligence e análise de dados Se não forem gerenciados adequadamente os dedos podem ficar desorganizados dificultando a conexão com ferramentas de Business e inteligentes E analíticas além disso a falta de estrutura de dados consistente e suporte transacional a acide que significa atunicidade consistência
isolamento e durabilidade pode resultar em um desempenho de consulta abaixo do ideal quando necessário para caso de uso de relatórios e análises e a consequência lógica é a falta de confiabilidade e segurança de dados a falta de consistência de dados dificulta a aplicação da confiabilidade e segurança dos dados podem acomodar todos os formatos de dados pode ser um desafio implementar políticas de governança e segurança de dados adequados para atender a tipo de dados confidenciais por exemplo já o novíssimo deita Lake House é a junção dessas duas arquiteturas de gerenciamento de dados combinando a economia e
a flexibilidade de um deita Lake com os recursos de gerenciamento de dados a confiabilidade e consistência de um data porém apesar das vantagens o Lake House pode ser complexo de construir do zero de qualquer forma todas as vantagens dos dois mundos conseguem ser exploradas nos Lake House então de forma geral vale um investimento pois os benefícios são muito é possível ter dados não estruturados ou sem estruturados em um Lake House mas que possa ser consultados de forma mais simples utilizando ferramentas de machine learning Inteligência Artificial as principais características desse modelo híbrido são camadas de armazenamento
para armazenar dados em formatos abertos por exemplo Market essa camada pode ser chamada de deira Lake e é separada da camada de computação camada de computação que fornece recurso de warrehouse da organização se o portão de gerenciamento de metadados indexação imposição de esquemas e transações A C e D camada de processar os dados e finalmente camada de serviço para dar suporte a várias cargas de trabalho de relatórios a biai ciência de idade ou aprendizado de máquina só para não sairmos daqui sem um exemplo vamos ver como essas arquiteturas são utilizadas em alguns setores assim você
vai conseguir ter uma visão melhor na área da saúde de educação e Transportes os delay que são muito utilizados como a tendência ao uso dos lakehouse na saúde especificamente Há muitos casos de uso também de deirare house porém nunca foram muito bem sucedidos justamente por conta da natureza não estruturada de grande parte dos dados nesse setor notas de médicos dados clínicos etc e a necessidade de insights em tempo real os daire houses geralmente não são um modelo ideal nessa abordagem Por isso os deita-leites permitem uma combinação de dados estruturados e não estruturados o que tende
a ser mais adequado para empresas de saúde já na educação vimos uma invasão do uso de Big da Ira na reforma Educacional dados sobre notas de alunos frequência e muito mais podem não apenas ajudar os alunos reprovados a voltarem aos Trilhos mas também podem ajudar a prever possíveis problemas antes que eles ocorra as soluções flexíveis de Big direita também ajudaram As instituições educacionais a otimizar o faturamento melhorar a captação de recursos E por aí vai muito desses dados são vastos e muitos brutos por isso muitas vezes as instituições na Esfera da educação se beneficiam o
melhor da flexibilidade dos direitos já no caso das Finanças utilizar House parece ser mais adequado justamente por ser completamente estruturado e ter um fácil acesso de toda a empresa ao invés de ficar somente nas mãos das equipes especializadas em dados e para finalizar na área de transporte logística mais uma vez ou mesmo os lakehou se beneficiam pela capacidade de fazer previsões com mais assertividade especialmente no gerenciamento da cadeia de suprimentos a capacidade de previsão que vem de dados flexíveis e um deleira Lake Podem trazer enormes benefícios como da redução de custos todas essas arquiteturas são
suportadas pela grande maioria dos players Caldos atualmente o Esmeralda febre que dá HP é uma das melhores soluções Não deixe de conferir mais informações sobre essa solução no link aqui na descrição do vídeo Espero que tenhamos conseguido mostrar para vocês as principais diferenças usos e conceitos por trás desses termos que estão cada vez mais presentes nos negócios e no nosso dia a dia Como programadores deixa aí aquele tapa no like em um comentário sobre esse outros temas que você gostaria de ver por aqui no dicionário do programador um beijo no coração de vocês e até
o próximo vídeo tchau se você curtiu esse tema considere então ir direto para Esse outro vídeo aqui que tem tudo a ver estamos falando de bigreira conheça aqui as principais tecnologias por trás dela e como esse vídeo aqui tem tudo a ver com bigueira machine learning e também Inteligência Artificial que inclusive já tem todos eles já tem vídeos aqui no dicionário do programador Então a gente vai parar de falar vamos até sair do cenário para você clicar aí tchau tchau