dissertação

Algoritmo de enxame de partículas ensemble para clusterização de dados

Carregando...
Imagem de Miniatura

Notas

Editores

Coorientadores

Título da Revista

ISSN da Revista

Título de Volume

Editor

UNIVERSIDADE FEDERAL DE LAVRAS

Faculdade, Instituto ou Escola

Departamento

Programa de Pós-Graduação

DCC - Programa de Pós-graduação

Agência de fomento

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)

Tipo de impacto

Áreas Temáticas da Extenção

Objetivos de Desenvolvimento Sustentável

Dados abertos

Resumo

Clustering is an important task in data mining and has been used by many researchers in different areas. The cluster ensemble method uses several results of different clustering algorithms at a consensus solution to improve the quality and robustness of the results. Generally built in two phases, in the first stage the cluster ensemble is comprised of a set of algorithms that receive the database and has as output a set of clusters as a solution. The second stage receives the set of clusters as input and combines them through a consensus function producing final clusters. Considered a precise and robust alternative compared individual clustering algorithms, the clustering ensemble improves result using the possibility of compensating errors committed by some clustering algorithms for intervention of other correct solution. One of the major challenges beyond the consensus function is to determine the best structure of the data set that will be used by the function consensus. In this work, the Particle Swarm Optimization algorithm (PSO) is proposed as a clustering algorithm for the first phase of the ensemble and as a consensus function in the second phase. Different similarity measures and two types of database structures serve as input to the consensus function. Three sets of experiments were performed to investigate the behavior of PSO in a cluster ensemble. One of the experiments involves the application of PSO in an ensemble in order to predict defects in software quality. At the end of the empirical study, the PSO clustering ensemble was able to produce as good or better results even when using two different structures from databases.
Clusterização é uma importante tarefa na mineração de dados e tem sido utilizada por muitos pesquisadores em diferentes áreas. O método do ensemble de clusters utiliza de vários resultados de diferentes algoritmos de clusterização em uma solução de consenso para melhorar a qualidade e solidez dos resultados. Geralmente construído de duas fases, o ensemble de clusters, em sua primeira fase é composto de um conjunto de algoritmos que recebe a base de dados e tem como saída um conjunto de clusters como solução. A segunda fase recebe o conjunto de clusters como entrada e as combina por meio de uma função de consenso produzindo clusters finais. Considerado uma alternativa robusta e precisa, frente a algoritmos individuais de clusterização, o ensemble de clusters melhora o resultado compensando a possibilidade de erros cometidos por alguns algoritmos de clusterização pela intervenção da solução correta de outros. Um dos maiores desafios, além da função de consenso, é determinar a melhor estrutura da base de dados que será usada pela função de consenso. Nesse trabalho, o algoritmo Particle Swarm Optimization (PSO) é proposto como algoritmo de clusterização para a primeira fase do ensemble e como função de consenso na segunda fase. Diferentes medidas de similaridade foram utilizadas, além de dois tipos de estruturas de base de dados, que servirão como entrada para a função de consenso. Foram realizadas três baterias de experimentos a fim de investigar o comportamento do PSO em um ensemble de clusters. Um dos experimentos realizados consiste na aplicação do PSO em um ensemble a fim de predizer defeitos em software. Ao fim do estudo empírico, o ensemble de clusters com o PSO foi capaz de produzir resultados tão bons ou melhores, nas duas diferentes estruturas de bases de dados.

Abstract

Descrição

Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Inteligência Computacional e Processamento Gráfico, para a obtenção do título de Mestre.

Área de concentração

Inteligência Computacional e Processamento Gráfico

Agência de desenvolvimento

Palavra chave

Marca

Objetivo

Procedência

Impacto da pesquisa

Resumen

ISBN

DOI

Citação

COELHO, R. A. Algoritmo de enxame de partículas ensemble para clusterização de dados. 2014. 72 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014.

Link externo

Avaliação

Revisão

Suplementado Por

Referenciado Por