
Descrição
Neste vídeo vou mostrar como utilizar a biblioteca Koalas um projeto que veio para tornar os cientistas de dados mais produtivos ao interagir com big data, implementando a API DataFrame do pandas sobre o Apache Spark.
Uma vez que o Pandas é a implementação padrão de DataFrame em Python para ser trabalhar em um único nó, o Spark é o padrão para o processamento de dados de big data.
Atualmente o Koalas já cobre 80% da API do Pandas e também pode ser uma ótima opção para escalar projetos que já estejam implementados em Pandas mas precisam de uma maior escala para processar os conjuntos de dados
O Koalas Te Permite:
- Ser produtivo com o Spark, sem curva de aprendizado, se você já está familiarizado com o pandas.
- Ter uma única base de código que funcione tanto com os pandas (testes, conjuntos de dados menores) quanto com o Spark (conjuntos de dados distribuídos).