O Que é Um Data Lake e Seu Valor Para as Organizações

Saiba o que é um data lake e como data lakes podem te ajudar a extrair valor dos seus dados


 

O Data lake

O data lake é um repositório centralizado que permite o armazenamento de dados estruturados ou não estruturados em qualquer escala, os dados podem ser armazenados em seu formato bruto (raw), sem a necessidade de que se defina a estrutura dos dados antecipadamente, os data lakes permitem que as organizações processem diferentes tipos de análise de dados, como aprendizado de máquina (machine learning), mineração de dados (data mining), processamento de dados em tempo real e outros.

 

Data Lake visão de baixo nível

Do ponto de vista técnico nas implementações atuais um data lake nada mais é que um grande sistema de arquivos onde as organizações armazenam de forma centralizadas todos os dados da empresa, contudo é necessário que este sistema de arquivos possua características como alta capacidade e escalabilidade para que seja um bom candidato a ser este repositório de dados, os primeiros data lakes foram criados em cima do sistema de arquivo HDFS do Hadoop, contudo atualmente soluções de cloud com sistema de arquivo baseado em armazenamento de objetos (object storage) se tornaram mais populares e vantajosas podemos citar como principais sistemas de arquivos utilizados atualmente AWS S3, Azure Blob e Google Cloud Storage.

 

 

 

Extraindo Valor do Data Lake

O data lake é apenas uma parte de um ecossistema maior de ferramentas que servem ao processamento e análise de dados, por isso ele tem que ser combinado com outras soluções para diversas fases do pipeline de dados como:

  1. Engine Ingestão dos dados (AWS Kinesis, Kafka)
  2. Engine De Processamento de Dados (Apache Spark, Presto)
  3. Catálogo de Dados (AWS Glue, Azure Data Catalog)
  4. Dashboard e Visualização (PowerBI, Tableau)
  5. Machine Learning (AWS Sage Maker)

 

O Valor do Data Lake

O Data Lake permite que cientistas de dados, desenvolvedores de dados e analistas de negócios, acessem dados das organizações com ferramentas para análise e processamento de dados. Isso inclui ferramentas de código aberto, como  Apache Hadoop, Presto e Apache Spark, além de ferramentas de data warehouse e softwares de BI (Business Intelligence). O Data Lakes permitem executar análises dos dados em nuvem sem a necessidade de movimentação dos dados para máquinas locais.

Com esta abundância de dados de diversas fontes de dados e metadados, localizados e integrados em um único sistema, os usuários podem obter mais facilmente informações e insights que os capacitarão a tomar mais decisões baseadas e suportadas pelos dados. A organização irá criar um repositório centralizado para armazenar e analisar facilmente grandes quantidades de dados. Para acomodar todas as necessidades comerciais possíveis, os data lakes devem ser versáteis o suficiente para ingerir e consultar rapidamente informações, isso inclui dados não estruturados como arquivos de áudio e vídeo, bem como dados semi estruturados como JSON, Avro e XML, também inclui dados de formato aberto tipos como Apache Parquet e ORC, bem como CSV tradicional e formatos relacionais. 

 

Conclusão

Como mencionado, os dados lakes são excelentes ferramentas para armazenamento de dados de diversos tipos quando aliados com as diversas ferramentas disponíveis para o ecossistema de processamento de dados eles podem trazer grande valor ao negócio atráves do suporte a decisão baseadas em dados e evidências, contudo um dos principais desafios na implementação deste tipo de solução é o alinhamento da cultura organizacional com relação a gestão dos dados e da interpretação dos resultados que eles podem apontar, além disso a escolha das ferramentas que irão ser mais apropriadas para cada organização é algo que deve ser bastante estudado e vai depender de diversos fatores organizacionais e podem contribuir para adoção mais rápida e maior entrega de valor

 

 

Se Inscreva Na Nossa Newsletter Tenha Acesso Aos Melhores Artigos