Apache Spark e Big Data

Saiba porque apache spark se tornou uma das principais ferramentas para análise de big data e como ele é usado nos dias de hoje


 

História

Quando hadoop foi criado ele teve duas grandes inovações uma foi um sistema de arquivos chamado HDFS(hadoop filesystem) que pode pode armazenar uma vasta quantidade de dados de forma de forma segura e com baixo custo o segundo componente foi um framework de análise de dados chamado de mapreduceque permite você analisar grandes quantidades de informação armazenados em HDFS eficientemente e altamente escalável. Talvez o erro que algumas pessoas cometeram foi pensar que me o mapreduce se ia ser a forma a forma definitiva que as pessoas iam usar para processar Big Data o que ocorreu é que outras tecnologias  apareceram e eventualmente amadureceram, sem dúvida Apache Spark é uma das tecnologias de Big data atualmente mais interessantes apache spark é um projeto de código aberto da Apache foundation sendo ele um framework flexível para processamento de dados em memória o que permite o processamento e análises de dados em lote (batch) ou dados contínuos (stream) os desenvolvedores do apache spark na universidade de berkeley aprenderam muito com o mapreduce e seus desafios de performance e decidiram então fundar o projeto do Apache Spark que conta hoje com um ecossistema bastante robusto e uma comunidade global de desenvolvedores batsante ativa no aperfeiçoamento do Apache Spark. Atualmente muitos projetos que foram desenvolvidos usando mapreduce estão sendo migrados para para Apache Spark isso provavelmente deve continuar nos próximos anos.

 

 

 

 

MapReduce vs Spark

Fazer código em mapreduce não é fácil você precisa de uma de uma grande quantidade de código JAVA e o entendimento de abstrações de API bastante bastante complexas não pode ser considerado um framework de desenvolvimento amigavel você tem que continuamente fazer bastante trabalho, spark resolve este problema de forma muito mais fácil com abstrações são mais bem desenvolvidas e você não tem que quebrar o seu código e em pequenos trechos e depois juntar eles novamente porque spark permite que você expresse trabalho de forma mais simples e executá-lo paralelamente de forma mais eficiente do que o mapreduce. Spark também se integra com linguagens programação bastante populares como Python que é principal de linguagem de programação para ciência de dados  nos dias de hoje e também Scala de fato Spark foi desenvolvido em Scala, Spark ainda possui suporte para desenvolvimento em R e em Java tudo isso faz com que Spark seja uma grande ferramenta além do fato de que Spark foi desenvolvido por desenvolvedores para ser fácil de usar.

 

Onde Spark Está Sendo Usado

Apache Spark é usado para a solução de muitos dos problemas em diversas áreas do mercado de Big data atual, tradicionalmente as empresas de serviços financeiros são grandes consumidores de Apache Spark e rodando diferentes tipos de carga de trabalho (workloads) por exemplo, em sistemas de deteções de fraudes em transações, detecção de perfis de consumos, e análise de riscos são grandes exemplos onde apache spark é amplamente empregado nesta indústria outro exemplo interessante alugmas empresas da áera da saúde estão estão usando apache spark para analisar grandes quantidades de dados sobre pacientes e descobrir possíveis predisposições a doenças que eles possam possuir.

 

 

 

 

Conclusão

Tendo em vista todas as vantagens que o Apache Spark incorporou no mercado de big data uma grande parte das cargas processamento e análise de dados elas vão preferencialmente rodar usando Apache Spark por suas facilidades de implementação e altissima performance se comparadas ao estado da arte atual.

Se Inscreva Na Nossa Newsletter Tenha Acesso Aos Melhores Artigos