Koalas - Como Rodar Pandas No Apache Spark

Aprenda como usar a biblioteca Koalas que permite utilização do Apache Spark com a mesma API do Pandas Dataframe, o que torna muito mais fácil aproveitar toda a escalabilidade e flexibilidade do Apache Spark 


Descrição

Neste vídeo vou mostrar como utilizar a biblioteca Koalas um projeto que veio para tornar os cientistas de dados mais produtivos ao interagir com big data, implementando a API DataFrame do pandas sobre o Apache Spark.

Uma vez que o Pandas é a implementação padrão de DataFrame em Python para ser trabalhar em um único nó, o Spark é o padrão para o processamento de dados de big data.

Atualmente o Koalas já cobre 80% da API do Pandas e também pode ser uma ótima opção para escalar projetos que já estejam implementados em Pandas mas precisam de uma maior escala para processar os conjuntos de dados

 

O Koalas Te Permite:

  • Ser produtivo com o Spark, sem curva de aprendizado, se você já está familiarizado com o pandas.
  • Ter uma única base de código que funcione tanto com os pandas (testes, conjuntos de dados menores) quanto com o Spark (conjuntos de dados distribuídos).

 

 

Saiba Mais Em:

Se Inscreva Na Nossa Newsletter Tenha Acesso Aos Melhores Artigos