Breve História dos Data Lakes e Sua Evolução

Saiba como os data lakes começaram e como foi a evolução da tecnologia ao longo dos anos até chegarmos ao cenário atual


Surgimento dos data lakes

Os data lakes surgiram há mais de uma década para resolver um problema: a necessidade de armazenamento de dados de baixo custo e escalável, antes disso uma solução para este problema foi implementada pelo google na sua primeira versão de sua ferramenta de busca para armazenamento de páginas da web pelo sistema de arquivos GFS (Google file system) que é o precursor no qual o HDFS (hadoop file system) se inspirou, a escalabilidade e baixo custo não eram os únicos fatores chaves também permitiam que às organizações armazenassem facilmente todos os diferentes tipos de conjunto de dados estruturados ou não estruturados de diversas fontes e, adicionalmente estes sistemas de arquivos contavam com frameworks de processamento de dados distribuídos como map reduce que permitia, que as organizações pudessem analisar estes dados para tomada de decisões.

 

Mais e os Data Warehouses?

O data warehouse, que era a principal solução para armazenar e analisar dados estruturados já estavam estabelecidos por vários anos
Com o avanço da internet somado a digitalização dos serviços pelas organizações o volume de dados gerados passou a crescer exponencialmente ano após ano e os data warehouses não podiam acomodar esses novos, projetos de dados e seus modelos de aquisição em ritmo acelerado, que precisavam de um o armazenamento fácil de petabytes de dados em e formato não estruturado. 
Com o futuro do big data iminente, o data lake parecia a resposta: uma maneira ideal de reunir, armazenar e analisar enormes quantidades de dados em um único local. O interesse em data lakes disparou por uma simples razão: a maioria organizações consideram os dados um ativo muito importante, e os os sistemas da época não podiam lidar com a variedade de tipos e fontes de dados. Por décadas, organizações coletaram dados estruturados de pessoas e aplicativos e agora eles estão complementando essas novos formas de dados semi-estruturados e/ou não estruturados com páginas da web, sites de mídia social, telefones celulares, dispositivos da Internet das Coisas (IoT) e muitos outros incluindo imagens e vídeos.

 

Cloud Data Lakes

Os primeiros data lakes foram implementados “on-premise“ (localmente), e na sua maioria utilizava uma stack de software derivada do Apache Hadoop, que tinham diversas distribuições diferentes como Cloudera, Hortonworks, MapR e outros... 
Contudo por volta de 2015 às organizações começaram a medida que a indústria de cloud computing amadureceu, os fornecedores de cloud como Amazon, Microsoft e outros introduziram os sistemas de arquivos “object storage”, como Amazon Simple Storage Service (S3), Microsoft Azure Blob e Google Cloud Storage que são excelente para o propósito dos data lakes e são as soluções mais utilizadas para se construir data lakes atualmente 
Os data lakes em cloud (Cloud data lakes) permitem um menor investimento inicial das orgarnizações para começar um data lake além de custo bem menor de administração e uma maior flexibilidade e escalabilidade entre outros isso fez com que mais organizações pudessem então começar a criar seus data lakes e outras que já possuíam soluções on-premise migrassem para nuvem


Cenário dos Data Lakes Atual

O hadoop e sua suite de aplicações foi a grande tecnologia por trás dos data lakes nos seus primeiros anos contudo com a expansão dos serviços de computação em nuvem e especialmente com a introdução dos sistemas de arquivos "object store" os Cloud Data Lakes comeceram a ganhar terreno e hoje são as melhores alternativas para implementação de data lakes, existem um número muito pequeno de casos onde data lakes on-premise seriam vantajosos se comparados com soluções em nuvem que trazem grandes benefícios como baixa barreira de entradas para as empresas e grande flexibilidade

Se Inscreva Na Nossa Newsletter Tenha Acesso Aos Melhores Artigos