O que é Data Lake?

O data lake é um elemento dos ecossistemas de Big Data, no qual grandes volumes de dados de várias fontes são agregados centralmente. Resumindo, o data lake é um repositório que armazena grandes quantidades de dados em formato bruto e não processado – “desde que sejam necessários”.

A questão chave sobre a tecnologia de data lake é o quão necessária e útil ela é para as organizações. Segundo especialistas, os próprios “lagos” não são necessários – o negócio já existe há muito tempo sem eles. Mesmo assim, os dados recebidos precisam ser armazenados em algum lugar. Não em um data warehouse (porque é muito caro), mas em um local mais barato.

De acordo com a filosofia de Big Data, nenhum dado deve ser descartado, especialmente se o custo de armazenamento for baixo o suficiente. “Se você jogar fora os dados agora, nunca saberá se eles eram valiosos. Na verdade, determinar o valor potencial de alguns dados é difícil. Se for óbvio que os dados são valiosos, eles acabarão no data warehouse, e não no data lake. Mas para não transformar o ‘lago’ em ‘pântano’, alguma ordem deve ser observada.

Em princípio, não é necessário que todas as organizações criem e mantenham um “data lake”, dizem os especialistas. Agora é uma prática normal usar data lake com base no princípio da terceirização, e os provedores também oferecem ferramentas apropriadas para trabalhar com esses repositórios de informações. Claro, o “data lake” também pode ser armazenado na nuvem.

Resumindo, o “lago” não pode substituir o data warehouse tradicional. Mas deve fornecer à organização novas capacidades analíticas e os chamados insights, ao mesmo tempo que contribuem para a otimização dos custos de processamento e armazenamento de dados.

Aqui está o que considerar ao considerar a criação de um data lake.

1. O conceito ainda é muito novo.

O termo “data lake”, introduzido por James Dixon – CTO da PTOho, se tornou popular nos círculos de TI nos últimos anos. Mas a ideia de lagos de dados como recursos corporativos ainda está em sua infância. Um data pond é definido como um enorme – e relativamente barato – repositório de armazenamento, como o Hadoop, que pode armazenar todos os tipos de dados necessários para análise de negócios ou recuperação de dados. Um data lake contém dados em sua forma mais crua, não processados e não utilizados.

Um ‘data lake’ é definido como um enorme – e relativamente barato – repositório de armazenamento que pode armazenar todos os tipos de dados necessários para análise de negócios ou recuperação de dados.

O próprio James Dixon usa o termo “data lake” para enfatizar a diferença com “data mart” – o assim chamado. Um “showcase de dados” que é um repositório menor de atributos interessantes derivados de dados brutos.

2. Você não pode comprar um reservatório de dados prontos para uso.

Como data warehouses, um data pond é um conceito, não uma tecnologia, Você pode usar várias tecnologias para construir um data pond. É essencialmente um data pond, uma estratégia de armazenamento de dados.

3. Os lagos têm um grande “apetite” por dados.

Os data ponds são projetados para receber dados e o procedimento envolve a coleta, importação e processamento de dados para armazenamento ou uso posterior. Nos casos em que o modelo de preços para armazenamento em um data warehouse não é adequado para a coleta completa de dados, um data lake pode ser usado.

Além disso, um data lake não exige que o usuário crie antes que os dados estejam disponíveis para uso. Os dados podem ser simplesmente coletados e o esquema criado e implementado quando os dados são lidos.

4. O “lago” pode facilmente se transformar em um “pântano”

Embora os dados possam ser armazenados em um data lake sem serem estruturados, faz sentido, desde o início, organizar o espaço para armazenar e armazenar dados por categoria. Assim, cada usuário poderá encontrar e utilizar os dados necessários mais rapidamente, e o risco do “lago” se transformar em um “pântano” é significativamente reduzido.

5. Você precisa incluir muitos aspectos do negócio.

Os data ponds são recursos para toda a organização, não apenas para o departamento de TI. Portanto, todas as partes interessadas devem estar envolvidas no planejamento de projetos de data lake.

O data lake é fundamental para a arquitetura de Big Data da empresa e, portanto, não pode ser implementado isoladamente.

Além dos gerentes de TI, um projeto de data lake deve envolver líderes de negócios e consumidores. Os especialistas em armazenamento também têm um papel fundamental a desempenhar.

Em última análise é uma plataforma de armazenamento e as empresas precisam envolver a equipe de armazenamento em seu design e implementação.

6. O “data lake” deve estar vinculado ao ecossistema analítico da empresa.

O lago de dados deve acumular dados estruturados, semiestruturados e não estruturados e o “lago” em si é uma simbiose de tecnologias Hadoop, bancos de dados relacionais e NoSQL e serviços em nuvem. Nesse caso, os componentes de hardware devem ser selecionados de forma que o custo de armazenamento das informações seja mínimo. O ideal é que todos os dados sejam armazenados para sempre, mas o custo deve ser mínimo.

7. Os maiores benefícios não se devem à tecnologia.

O valor comercial de um data lake tem muito pouco a ver com a tecnologia na qual se baseia.

Em vez disso, o valor para o negócio vem das habilidades de ciência de dados que você pode aplicar ao lago. Os data lakes não substituem as plataformas ou infraestruturas analíticas existentes. Pelo contrário, eles complementam os esforços existentes e apóiam a descoberta de novos problemas. Assim que essas perguntas forem encontradas, você “otimizará” as respostas. Otimização pode significar ir além do data pond e entrar em data warehouses.

8. O “data lake” deve ser visto como uma oportunidade de crescimento, não uma forma de economizar custos

Como acontece com muitas outras iniciativas de TI, os projetos de data lake geralmente começam com o objetivo principal de economizar custos. Na verdade, as decisões para tais projetos devem ser tomadas levando em consideração as oportunidades de crescimento do negócio que surgiriam como resultado de análises de grandes quantidades de dados. Os benefícios potenciais estão ocultos em várias áreas – interação mais fácil com os clientes, previsões mais precisas, medidas preventivas, detecção de fraude e muito mais.

O principal desafio não é criar um data lake, mas aproveitar os benefícios e oportunidades que esse conceito oferece.

Leia mais:

O que é Data Mart? Entenda o Conceito, Características e Como Implantar

O que é Data Warehouse? Saiba características e como funciona

You may also like...

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *