Data lake: armazene seus dados sem se afogar em um lago de dados
Em uma época em que a massa de informações gerada por uma empresa pode crescer de 50 a 150% de um ano para o outro, faz sentido querer aproveitá-la ao máximo e tirar o máximo proveito dela.
Muitas empresas ainda são desencorajadas pelas infraestruturas e arquiteturas necessárias para gerenciar o Big Data, especialmente o que é frequentemente definido como seu coração: o Data Lake.
O que é um lago de dados? Como ele difere de um data warehouse? Quais soluções de data lake você deve escolher? Continue lendo para obter as respostas.
O que é um data lake? Definição
Um data lake pode ser definido, antes de mais nada, como um reservatório de dados brutos, qualificados na margem, em formato estruturado ou não estruturado. Esses dados podem ser :
- extratos de bancos de dados relacionais,
- imagens
- arquivos PDF
- feeds ou eventos de aplicativos de negócios,
- arquivos CSV semiestruturados ou registros, etc.
Por que usar um lago de dados? Vantagens de um lago de dados
A primeira tarefa do data lake é ingerir esses dados brutos em massa a fim de preservar seu histórico para uso futuro:
- análise de mudanças no comportamento (de um cliente ou de um aplicativo),
- IA preditiva ou aprendizado de máquina,
- ou, de forma mais pragmática, monetizar essas informações com novos parceiros.
Além dessa característica principal, há outros critérios importantes, como :
- sua estruturação, para torná-la navegável e evitar o pântano de dados,
- sua elasticidade, que permitirá que ele cresça (e, em teoria, diminua) em alta velocidade em termos de armazenamento e capacidade de computação,
- sua segurança, para garantir que os dados sejam usados corretamente.
Lago de dados, data warehouse: qual é a diferença?
Ao contrário do Data Lake, o objetivo principal do Data Warehouse é obter dados refinados para uma necessidade precisa e recorrente, exigindo um sólido desempenho de agregação e possibilitando a geração de relatórios, análises e, às vezes, novos aplicativos de negócios.
Porém, com o custo por terabyte armazenado mais de 10 vezes maior, o data warehouse atingiu seus limites como a pedra angular dos dados corporativos.
Como podemos obter o melhor dos dois mundos?
Quais soluções de data lake você deve considerar?
Muitas grandes empresas, tendo investido quantias significativas em seu data warehouse, decidiram fazer uma transição suave para o data lake, com uma solução local e a composição personalizada de uma série de ferramentas para gerenciá-lo.
Uma solução local como o lago de dados do Hadoop
A Apache Foundation forneceu a estrutura de código aberto do Hadoop, que está no centro da capacidade do data lake de ingerir dados em massa, paralelizando e distribuindo o processo de armazenamento.
Essa estrutura �� aprimorada por um grande número de ferramentas de código aberto que tornaram a implementação do data lake acessível (financeiramente):
- Kafka para ingestão,
- Yarn para alocação de recursos,
- Spark para processamento de alto desempenho,
- MongoDB como um banco de dados NoSQL,
- ElasticSearch e Kibana para indexação e recuperação de conteúdo,
- e uma infinidade de outras ferramentas (bancos de dados gráficos, auditoria, segurança) que estão surgindo e, às vezes, desaparecendo à medida que esse mercado se torna mais concentrado.
Mas, no final, o grande número de ferramentas e a possibilidade de criar um ambiente ultrapersonalizado podem levar a custos de propriedade muito altos, principalmente se você estiver apostando em uma tecnologia com um futuro incerto.
Logicamente, então, podemos preferir soluções empacotadas, como a Cloudera, que engoliu a Hortonworks e manteve uma distribuição de código aberto, mas, é claro, oferece um modelo de pagamento com melhor suporte.
Uma forte parceria com a IBM também tem como objetivo fornecer soluções sólidas no local.
O MapR, que foi adquirido em 2019 pela Hewlett Packard Enterprise, será integrado ao HPE GreenLake, uma solução de nuvem projetada para competir com os gigantes Amazon, Microsoft, Google e Oracle, que estão intensificando suas parcerias, aquisições e novos desenvolvimentos para criar plataformas de nuvem que rivalizam com as melhores ferramentas de análise de dados no local.
Uma solução em nuvem como o data lake da AWS ou do Azure
O Amazon AWS, o Microsoft Azure, o Google Big Query e o Oracle Cloud Infrastructure Data Flow incorporam ferramentas de gerenciamento de dados mais ou menos sofisticadas (migração, linhagem, monitoramento) e ferramentas de análise (transformação em tempo real, agregação, análise tradicional ou modelos de IA), mas desta vez na nuvem.
A grande vantagem da nuvem compartilhada é que ela deixa de lado a questão do hardware, que pode rapidamente se tornar uma dor de cabeça quando se prevê um grande aumento nos dados.
No entanto, a nuvem desinibida mostrou suas limitações, com casos de hacking em massa. A nuvem privada da IBM pode garantir a integridade de seus dados (propriedade industrial, contratos confidenciais etc.) e a solução Azure Stack oferece uma versão local das principais ferramentas da Microsoft nessa área.
A Teradata, outra líder mundial em armazenamento de dados, também começou a adotar uma solução em nuvem, na esperança de reconquistar uma base de clientes que foi prejudicada pelos custos de seus poderosos servidores locais.
O desafio da boa governança
Todas as soluções têm suas vantagens e desvantagens. Não se deve perder de vista os compromissos de sua empresa com seus clientes (RGPD, sigilo industrial ou profissional) e ponderá-los em relação a essa busca de elasticidade, que pode representar custos estruturais e humanos significativos.
A avaliação desse equilíbrio deve fazer parte do trabalho essencial da governança de dados, que deve definir e estruturar o lago de dados e, portanto, :
- fornecer uma estrutura humana, técnica e tecnológica para os engenheiros de dados que lidarão com terabytes de dados diariamente
- facilitar o trabalho investigativo dos cientistas de dados para seus mecanismos de IA e aprendizado de máquina
- permitir que os usuários rastreiem e validem suas fontes para garantir os resultados de suas análises.
Essa governança possibilitará a compreensão das necessidades reais do seu negócio principal e, ao mesmo tempo, permitirá que os dados sejam usados de forma mais ampla. O objetivo é
- Desenvolver novos usos e uma nova compreensão dos dados,
- oferecer a seus clientes os benefícios de uma maior capacidade de resposta e até mesmo de antecipação, com total segurança.
A boa governança pode resultar em arquiteturas que são complexas à primeira vista, mas que podem ser benéficas tanto técnica quanto financeiramente.
Escolhendo a malha de dados para uma transição de Big Data bem-sucedida
Portanto, embora o lago de dados possa ser útil, isso não significa necessariamente que outras estruturas de gerenciamento de dados desaparecerão: do pântano de dados a montante, ao armazém de dados e aos data marts a jusante, até o diálogo entre várias dessas estruturas em um contexto internacional, a boa governança de dados pode, ao contrário, permitir que a gama de ferramentas seja ampliada.
Ao incentivar o diálogo entre esses elementos de armazenamento e processamento de dados, a empresa pode tirar o máximo proveito de cada um deles:
- Os sistemas históricos que são considerados indispensáveis e confiáveis continuarão funcionando
- e poderão aproveitar os benefícios do data lake para, por exemplo, arquivar dados frios, proteger fontes brutas para permitir melhor auditoria e possível recuperação etc.
Essa malha de dados, no contexto de uma forte governança, evitará que uma empresa arruíne um sistema existente ao embarcar em uma migração "totalmente baseada em data lake".A rede de dados, no contexto de uma forte governança, impedirá que uma empresa arruíne um sistema existente ao iniciar uma migração "totalmente para o lago de dados" ou até mesmo "totalmente para a nuvem", o que, às vezes, é impraticável e, muitas vezes, inadequado.
A malha de dados será, então, uma garantia de aceitação e sucesso na transição para o Big Data.