Data Lakehouse: Arquitetura de uma Nova Era
Nos tempos atuais, as empresas têm gerado um grande volume e variedade de dados, e para obterem informações estratégicas, cada vez mais as organizações buscam utilizar repostórios que atendam suas necessidades de negócio, como: monitoramento real time, ciência de dados, machine learning, análise por SQL, dentre outras.
E para responder a essa demanada, várias empresas recorrem à armazéns, como Data Lakes e Data Warehouses. Entretando, lidar com mais de uma plataforma, introduz uma complexidade, uma vez que o profissional precisará mover e copiar dados entre repositórios e isso pode impactar no tempo, visto que cada um possui suas peculiaridades.
Mas hoje já existe uma terceira arquitetura no mercado, que pode sanar esse desafio, o Data Lakehouse – que é basicamente uma mistura de conceitos, que une o melhor que há no Data Lake e no Data Warehouse. A plataforma tem como objetivo simplificar a arquitetura de dados, centralizando as informações, reduzindo custos operacionais, melhorando a governança e acabando de vez com a redundância de dados.
Essa fusão impacta tecnicamente os times, visto que podem se mover mais rapidamente, pois utilizam apenas um único repositório. A seguir, vamos entender as arquiteturas com o intuito de compreender os benefícios e quando utilizar cada uma.
Data Warehouse
Com a crescente necessidade de grandes e médias empresas em conhecerem melhor seus dados, foi criado o Data Warehouse. O processo consiste em unificar as informações que anteriormente ficavam em bancos transacionais (OLTP) em um banco analítico (OLAP).
O banco analítico visa unir as informações, possibilitando ao usuário uma consulta de forma rápida e sem gerar problemas para os sistemas transacionais.
Principais benefícios de um Data Warehouse:
– A possibilidade de analisar dados históricos;
– Armazenar dados consolidados de várias fontes;
– Qualidade e consistência dos dados.
O Data Warehouse normalmente é utilizado em empresas cujo a necessidade de análise parte de uma visão mais agregada e consolidada do negócio, visto que tal utiliza dados estruturados com esquema definido na escrita e tem como objetivo o armazenamento de dados com acesso frequente, assim como dados agregados e sumarizados, comumente acessado por um Analista de BI.
Data Lake
Com a chegada do Big Data a demanda de armazenar um grande volume e variedade de dados aumentou e com ela surgiu um novo conceito, Data Lake, que abriga não apenas dados estruturados, como na arquitetura anterior, mas também dados semi estruturados e não estruturados.
O advento de uma nova arquitetura embasada no Data Lake, o Modern Data Warehouse, trouxe a vantagem de usá-lo como uma camada de stage para dados estruturados, antes de tratá-los e carregá-los no Data Warehouse.
Principais benefícios do Data Lake:
– Compatibilidade com qualquer formato de dados;
– Permite a disponibilidade dos dados a qualquer momento;
– Pode ter acessos simultâneos;
– Entrega os dados brutos, facilitando sua análise por qualquer pessoa da empresa por meio de outras plataformas;
– Alto poder de organização;
– Espaço de armazenagem de dados elevado.
O Data Lake surgiu com a ideia de estender a capacidade de um Data Warehouse, o esquema é definido na leitura e ela normalmente é aplicada em cenários que apresentam um crescimento exponencial dos dados empresariais, a diversidade de consumidores, formas de acesso e também a necessidade de análises preditivas realizadas em cima de dados detalhados, brutos e também processados.
Data Lakehouse
A ideia em centralizar dados estruturados, semi estruturados e não estruturados em um único local de armazenamento surgiu com o intuito de atender ausências presentes nas arquiteturas anteriores, e isso só foi possível com o amadurecimento de tecnologias que imputam um controle transacional em um Data Lake, como por exemplo o Delta Lake.
O Delta Lake é uma nova tecnologia que traz confiabilidade para os dados armazenados no Data Lake, possuindo transações ACID, essas antes presentes somente na arquitetura de um Data Warehouse, um processo unificado de dados em batch e streaming e o tratamento de metadados escalonáveis.
Principais benefícios do Lakehouse:
– Democratização dos dados (Tornar o dado acessível de forma simples para o usuário);
– Redução de custo (Visto que nas arquiteturas anteriores havia um alto custo em manter uma base de dados para armazenamento);
– Centralização dos dados;
– Atender perfis variados de usuários (Analistas de BI e Cientistas usaram a mesma base de dados);
– Governança (Evita a redundância de tabelas. Normalmente em uma arquitetura que se usa o Data Lake e/ou databases, há duplicações de tabelas em ambientes diferentes).
Um cenário onde podemos utilizar o Data Lakehouse é quando temos a necessidade de armazenar as informações de usuários em uma empresa (controle de acesso por meio de vídeo, por exemplo), mas pelo fato de serem informações pessoais, é necessário que haja um controle de governança e o Data Lakehouse sanaria automatizando processos de conformidade, anonimizando os dados quando preciso.
Data Lakehouse decretou o fim do Data Lake e Data Warehouse?
Como a evolução da área de dados, é natural que as arquiteturas atuais também sofram adaptações e novas arquiteturas surjam. Com a chegada do Data Lakehouse, o Data Lake e o Data Warehouse continuam desempenhando um papel fundamental em diversos cenários de dados.
Contudo, vale analisar qual é o objetivo e cenário da empresa para entender qual arquitetura será mais aderente. Essa definição envolve vários pontos, como o nível de segregação das bases de dados e os tipos de dados que serão armazenados.
O Data Lakehouse combina a flexibilidade, a eficiência de custos e a escala dos Data Lakes com o gerenciamento de dados e transações ACID de Data Warehouses. O natural desse novo conceito é observarmos uma evolução da tecnologia, visto que ela é muito promissora. No entanto, poderemos usufruir plenamente do seu valor apenas se a empresa tiver uma cultura data-driven sólida.
Quer saber qual dessas arquiteturas é a melhor para seu negócio? Agende uma conversa conosco.
Alberto Mariano é Arquiteto de Dados, atua na área de TI desde 2010 passando também por desenvolvimento de sistemas como DotNet e SharePoint. Possui certificação SharePoint e Data. Apaixonado por compartilhar conhecimento, gerando conteúdos e treinamentos. Nas horas livres gosta de andar de bicicleta e tocar violão.
Benedito Póvoa é formado em Análise e Desenvolvimento de Sistema desde 2021 e atua como Engenheiro de Dados na Programmers. Começou como Desenvolvedor BI desenvolvendo queries nas mais diversas linguagens, incluindo SQL, DAX e M. Quieto e curioso, tem procurado conhecer sobre novas ferramentas e conceitos, e foi um dos motivos para ter migrado para a área de Engenharia. Nas horas vagas desfruta bastante de memes, anime, música, lazer ao ar livre, e em alguns momentos se arrisca na guitarra.