Como o Data Lake pode ajudar na sua jornada Data Driven
Algum tempo atrás vi uma pesquisa do Gartner que dizia: “até 2020, 50% das grandes organizações terão um CDO (Chief Data Officer) com o mesmo nível de influência nas estratégias e autoridade como a de um CIO”. Já estamos em 2020 e o desafio de ser uma organização data driven (orientada a dados) está mais evidente do que nunca.
E nessa era que estamos vivendo, de grandes volumes de dados, muito se fala sobre Big Data, e um termo relacionado que surgiu nos últimos anos e tem ganhado bastante força é o Data Lake (em tradução livre Lago de Dados), mas – diante de tanta informação – é comum encontrar definições, arquiteturas, artigos entre outros artefatos que por vezes confundem ao invés de acrescentar e direcionar as organizações para uma jornada data driven.
Diante disso, como identificar que a organização na qual estou inserido ou que tenho a responsabilidade de guiar nessa jornada precisa de um Data Lake? Pensando nesta questão abaixo destaquei algumas características que podem ajudar a identificar essa necessidade:
- Silos de dados espalhados pela organização em Data Marts ou Data Warehouses gerando duplicidades tanto nos dados quanto nos indicadores analisados por diferentes departamentos;
- Aplicações gerando grandes volumes dos mais diversos tipos de dados como, por exemplo:
– Base de dados relacionais;
– Logs de sites e aplicações corporativas ou mobile;
– Imagens;
– Arquivos de mídia (vídeo, som, entre outros).
- Necessidade de analisar a percepção da empresa nas redes sociais;
- Soluções limitadas a um tradicional Data Warehouse ou BI;
- Analistas de BI, Cientistas de Dados e usuários sem uma área na qual todos os dados da organização estão realmente democratizados;
- Baixo custo de armazenamento dos dados.
Se sua empresa se identifica com algumas dessas características, há grandes chances de que um Data Lake seja a resposta que você precisa.
O que é necessário para se ter um Data Lake?
Um Data Lake não se resume apenas em um componente de armazenamento de dados (storage) como comumente é confundido. E por isso, para se ter um Data Lake que consiga retornar o valor desejado ao seu negócio é necessário ter alguns cuidados e considerar detalhes como:
- Um Data Lake precisa ter a informação correta e disponível para todos os consumidores assim que a mesma seja inserida nele;
- Dentro de um Data Lake os dados não devem ser descartados. Uma estratégia orientada a dados deve considerar manter os registros atualizados e/ou apagados nos sistemas fontes para que exista um histórico daquela informação mestre como: produto, cliente, endereço, etc.;
- Segurança e proteção de dados são pontos críticos e não devem ser esquecidos na solução de Data Lake;
- Estratégia de arquivamento de dados e políticas de retenção precisam ser planejadas para reduzir custos;
- A separação em áreas (comumente chamadas de zonas) também é importante, como por exemplo:
– Raw zone: Armazena os dados sem nenhuma transformação;
– History zone: Armazena todas as versões dos dados;
– Work zone: Geralmente utilizada por Cientistas de Dados para
estudo e exploração;
– Sensitive zone: Armazena os dados que possuem acesso restrito
na organização;
– Gold zone: Armazena os dados já transformados para serem
consumidos.
- O catálogo de dados contidos no Data Lake é extremamente importante para que não se transforme em um pântano de dados (Data Swamp);
- Alta capacidade analítica. Um ambiente na nuvem é uma boa escolha, pois, você tem a facilidade de aumentar ou diminuir sua capacidade analítica quando necessário e consequentemente de custos.
Acredito que essas são algumas das boas práticas necessárias para se estabelecer um Data Lake dentro da organização e obter todo seu potencial. Para ilustrar abaixo trouxe uma arquitetura simples de como poderia ser uma boa estrutura de um Data Lake:
Por fim, um dos principais objetivos de um Data Lake acaba sendo democratizar os dados dentro da organização possibilitando aos Cientistas de Dados extraí-los, aos Analistas de BI um ambiente self-service completo sem silos de dados e claro aos tomadores de decisões informações pautadas nos dados em uma fonte única da verdade.
Apresentei aqui elementos com o intuito de ajudar você e sua organização a entender melhor qual o papel que um Data Lake desempenha dentro de um ambiente Big Data que poderá facilitar sua jornada Data Driven.