Spark Performance Benchmark Usando DataFrames e RDDs

'Spark Bench' é uma ferramenta para clusters Spark que pode ser usada para estimar o desempenho dos clusters spark com o objetivo de usar o próprio spark para medir desempenho do cluster


Introdução

Spark rapidamente se tornou um dos mais importantes ferramentas de análise de dados, é suportado por uma grande comunidade. isto foi adotado por muitas empresas que buscam extrair mais valores de seus conjuntos de dados. No mencionado acima
Nesse cenário, os clusters spark estão aumentando e geralmente são mudando sua configuração, verifica-se que uma medida de desempenho abordagem será relevante para medir ganhos e perdas ao mover o aplicativo de dados em diferentes clusters ou até atualizando e desatualizando (redimensionando) o mesmo cluster.

Background

Descobrimos as seguintes ferramentas durante uma ampla pesquisa segmentação para encontrar qualquer trabalho relacionado.
HiBench Suite
Referência de Big Data
Dataframe versus RDD
Todos os projetos mencionados têm como objetivo medir  desempenho do spache spark bem como de outras ferramentas de big data. No entanto, nenhum deles cobrem a nova API Spark DataFrame. É por isso que nós entendemos que este é um trabalho relevante.

Objetivo

Para medir o desempenho do cluster de spark, nosso objetivo é para construir um conjunto de testes nos quais serão medidos os
desempenho das principais operações de spark em RDDs e DataFrames depois planejamos analisar entre os testados
operações que exigirão mais recursos de rede e use isso para determinar qual cluster tem melhor rede comunicação, gravações de disco e leituras de disco no HDFS sistema de arquivos será medido salvando um RDD no cluster Sistema de arquivos HDFS finalmente CPU será testada usando um ingênuo abordagem de fatoração. Esses testes usarão apenas spark, o que significa que apenas o código spark será gerado, permitindo ao usuário a necessidade de nada além de spark para executar o referência.

Gostou veja o artigo na intégra aqui

Artigo na íntegra

Repositório da Ferramenta

 

Se Inscreva Na Nossa Newsletter Tenha Acesso Aos Melhores Artigos