
Introdução
Spark rapidamente se tornou um dos mais importantes ferramentas de análise de dados, é suportado por uma grande comunidade. isto foi adotado por muitas empresas que buscam extrair mais valores de seus conjuntos de dados. No mencionado acima
Nesse cenário, os clusters spark estão aumentando e geralmente são mudando sua configuração, verifica-se que uma medida de desempenho abordagem será relevante para medir ganhos e perdas ao mover o aplicativo de dados em diferentes clusters ou até atualizando e desatualizando (redimensionando) o mesmo cluster.
Background
Descobrimos as seguintes ferramentas durante uma ampla pesquisa segmentação para encontrar qualquer trabalho relacionado.
● HiBench Suite
● Referência de Big Data
● Dataframe versus RDD
Todos os projetos mencionados têm como objetivo medir desempenho do spache spark bem como de outras ferramentas de big data. No entanto, nenhum deles cobrem a nova API Spark DataFrame. É por isso que nós entendemos que este é um trabalho relevante.
Objetivo
Para medir o desempenho do cluster de spark, nosso objetivo é para construir um conjunto de testes nos quais serão medidos os
desempenho das principais operações de spark em RDDs e DataFrames depois planejamos analisar entre os testados
operações que exigirão mais recursos de rede e use isso para determinar qual cluster tem melhor rede comunicação, gravações de disco e leituras de disco no HDFS sistema de arquivos será medido salvando um RDD no cluster Sistema de arquivos HDFS finalmente CPU será testada usando um ingênuo abordagem de fatoração. Esses testes usarão apenas spark, o que significa que apenas o código spark será gerado, permitindo ao usuário a necessidade de nada além de spark para executar o referência.
Gostou veja o artigo na intégra aqui
Artigo na íntegra
Repositório da Ferramenta