Browsing by Author "Bongo, Isabel Soqui"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7Publication . Bongo, Isabel Soqui; Freire, Mário MarquesTendo em conta o forte crescimento dos dados que se observa atualmente, o conceito de big data vem ganhando popularidade, dando origem às ferramentas capazes de processar, analisar e armazenar estes grandes volumes de dados. Nesta senda, um dos desafios que se coloca aos profissionais e serviços que lidam com esse tipo de dados consiste na escolha adequada da melhor plataforma a utilizar para processamento de big data, tendo sido investigado o desempenho de Apache Hadoop, Apache Spark e Apache Flink que representam as três plataformas mais utilizadas para o processamento de big data. Nesta dissertação é avaliado o desempenho do Hadoop, do Spark e do Flink utilizando a suite de Benchmark Hibench na sua versão Hibench-master 7, tendo cido selecionado cinco cargas de trabalho nomeadamente: Sort, Terasort, Wordcount, K-means e Pagerank. Estas plataformas foram instaladas e configuradas num cluster homogéneo com quatro nós (máquinas físicas), um mestre e três escravos. Para avaliar o desempenho das plataformas, foram consideradas duas métricas: tempo de execução e a taxa de transferência dos dados, tendo-se caracterizado a utilização de recursos tais como memória, Central Processing Unit (CPU), Disco (E/S) e rede, para diferentes escalas de dados tais comosmall, large e gigantic. Foram realizadas várias experiências, tendo os respetivos resultados mostrado que o cluster do Spark ao executar as cargas de trabalho wordcount, sort e terasort obteve melhor desempenho com tamanho de dados gigantic, enquanto que o Hadoop apresentou melhor desempenho com tamanho de dados small e large, apesar de no wordcount a diferença ser pequena. Por outro lado, o Spark ao executar algoritmos iterativos como o k-means apresentou melhor desempenho com entradas de dados small e large e, para o pagerank, apenas com tamanho de dados small, enquanto que o Hadoop melhorou o seu desempenho com tamanho de dados gigantic para K-means e large para o pagerank. Os resultados obtidos mostram que o desempenhos das duas plataformas nesta experiência é relativo dependendo da carga de trabalho, do tamanho dos dados de entrada e do tamanho da memória. Foram também comparadas as plataformas Spark e o Flink executando o programa Wordcount dos seus ficheiros de exemplos, tendo-se observado que o Flink apresentou melhor desempenho que o Hadoop para todos os tipos de dados de entrada, sendo 2x mais rápido que o Spark. O Spark apresentou melhor desempenho que o Hadoop para tamanhos de dados de entrada de 2MB e 392MB, mas observou-se que o seu desempenho degradava-se com o aumento do tamanho de dados de entrada. O desempenho do Flink melhorou significativamente, sobretudo para tamanhos de dados de entrada de 8GB e 38GB, após o ajuste do valor do parâmetro de fração da memória.