Buscar

 

RI UFLA (Universidade Federal de Lavras) >
DCC - Departamento de Ciência da Computação >
DCC - Programa de Pós-graduação >
DCC - Ciência da Computação - Mestrado (Dissertações) >

Por favor, utilize esse identificador para citar este item ou usar como link: http://repositorio.ufla.br/jspui/handle/1/12162

Título: Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark
Título Alternativo: Association rules algorithms implementation on Hadoop-MapReduce and Spark frameworks
Autor(es): Castro, Eduardo Petrini Silva
Lattes: http://lattes.cnpq.br/3221982681792493
Orientador: Pereira, Denilson Alves
Membro da banca: Esmin, Ahmed Ali Abdalla
Membro da banca: Naldi, Murilo Coelho
Assunto: Mineração de dados
Algoritmos de computador
Regras de associação (Computação)
Data mining
Computer algorithms
Association rules (Computer science)
Hadoop
MapReduce
Spark
Data de Defesa: 15-Set-2016
Data de publicação: 17-Jan-2017
Agência de Fomento: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Referência: CASTRO, E. P. S. Implementação de algoritmos de regras de associação nos arcabouços Hadoop-MapReduce e Spark. 2016. 158 p. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal de Lavras, Lavras, 2016.
Resumo: Em meio ao grande volume de dados produzidos constantemente em sistemas de informação computadorizados, há algoritmos de mineração de dados capazes de encontrar informações ocultas nesses dados. Uma das técnicas implementadas por esses algoritmos é conhecida como regras de associação, a qual visa encontrar relações entre itens de um mesmo conjunto de dados. Uma proposta recente utiliza regras de associação para tratar o problema de classificação de ofertas de produtos em lojas de vendas online. Porém, para grandes volumes de dados, o tempo de execução do algoritmo proposto se torna problemático, dificultando seu uso. Existem frameworks que possibilitam a implementação de algoritmos distribuídos em cluster de computadores, como o Hadoop e Spark. Muitos algoritmos de mineração de dados, como o algoritmo Apriori, que gera regras de associação, tiveram diversas propostas de implementações utilizando o modelo MapReduce. Este trabalho realizou um estudo das soluções propostas de implementações do algoritmo Apriori para o Hadoop-MapReduce. Os algoritmos também foram implementados no Spark e foi feito um comparativo entre as implementações de ambos frameworks. Os resultados mostram que as implementações no Spark superam as implementações no Hadoop-MapReduce na maioria das experimentos. Porém, não houve uma implementação única que se sobressaia em todas as situações avaliadas. Também foi implementada no Hadoop-MapReduce e Spark uma alternativa para o problema de classificação de ofertas de produtos de lojas de vendas online de modo a permitir o processamento de grandes volumes de dados em tempo hábil. Os resultados mostram elevada capacidade das adaptações em processar volume de dados maiores.
Abstract: In midst to the big amount of data constantly produced on computerized information systems, there are data mining algorithms able to find hidden information in this data. One of techniques implemented by this algorithms is known as association rules, which aims to find associations between items on same dataset. A recent proposal uses association rules to deal with product offer classification in online store. However, for big amount of data, the proposed algorithm runtime becomes unfeasible. There are frameworks enabling distributed algorithms implementation in computer cluster like Hadoop and Spark. Many data mining algorithms, such as Apriori Algorithm for association rules, has several implementation proposals using MapReduce. This work performed a study of proposed solutions of Apriori implementation on Hadoop-MapReduce. The algorithms was also adapted to Spark and a comparative was performed between frameworks. The results show that Spark implementations overcomes Hadoop-MapReduce implementations at runtime in most experiments. However, there is no single implementation that is the best in all the evaluated situations. An alternative to the product offer classification in online store problem on Hadoop-MapReduce and Spark was also carried out. The results show large capacity of adaptation to process big amount of data.
Informações adicionais: Arquivo retido, a pedido do autor, até janeiro de 2018.
URI: http://repositorio.ufla.br/jspui/handle/1/12162
Publicador: Universidade Federal de Lavras
Idioma: por
Aparece nas coleções: DCC - Ciência da Computação - Mestrado (Dissertações)

Arquivos neste Item:

Não há arquivos associados para este Item.

Itens protegidos por copyright, com todos os direitos reservados, Salvo indicação em contrário.


Mostrar estatísticas

 


DSpace Software Copyright © 2002-2007 MIT and Hewlett-Packard - Feedback