Notícias

UB CLOUD MANAGED HOST

O QUE É DATA LAKE?

Blog Single

Data lake é um repositório de armazenamento que contém uma grande quantidade de dados brutos em seu formato nativo até que seja necessário para aplicativos de análise. Um data lake usa uma arquitetura simples para armazenar dados, principalmente em arquivos ou armazenamento de objetos. Isso dá aos usuários mais flexibilidade no gerenciamento, armazenamento e uso de dados.

Por que as organizações usam data lakes?

Os data lakes geralmente armazenam conjuntos de big data que podem incluir uma combinação de dados estruturados, não estruturados e semiestruturados. Esses ambientes não são adequados para os bancos de dados relacionais nos quais a maioria dos data warehouses é construída.

Os sistemas relacionais exigem um esquema rígido de dados, o que normalmente os limita a armazenar dados de transações estruturadas. Os data lakes oferecem suporte a vários esquemas e não exigem que nenhum seja definido antecipadamente. Isso permite que eles lidem com diferentes tipos de dados em formatos separados.

Qualquer que seja a tecnologia usada em uma implantação de data lake, alguns outros elementos também devem ser incluídos para garantir que o data lake seja funcional e que os dados que ele contém não sejam desperdiçados. Isso inclui:

 Uma estrutura de pastas comum com convenções de nomenclatura.

 Um catálogo de dados pesquisável para ajudar os usuários a encontrar e entender os dados.

 Uma taxonomia de classificação de dados para identificar dados confidenciais, com informações como tipo de dados, conteúdo, cenários de uso e grupos de possíveis usuários.

 Ferramentas de perfil de dados para fornecer insights para classificar dados e identificar problemas de qualidade de dados.

 Um processo padronizado de acesso a dados para ajudar a controlar e acompanhar quem está acessando os dados.

 Proteções de dados, como mascaramento de dados, criptografia de dados e monitoramento automatizado de uso.

 Como resultado, o data lakes é um componente chave da arquitetura de dados em muitas organizações. As empresas os usam principalmente como uma plataforma para análise de big data e outros aplicativos de ciência de dados que exigem grandes volumes de dados e envolvem técnicas avançadas de análise, como mineração de dados, modelagem preditiva e aprendizado de máquina.

Notícias