Predição de desempenho para junções por similaridade baseadas em conjuntos

Sidney, Christiane Faleiro

Predição de desempenho para junções por similaridade baseadas em conjuntos

dc.contributor.advisor1	Ribeiro, Leonardo Andrade
dc.contributor.referee1	Pereira, Denilson Alves
dc.contributor.referee1	Andrade, Rafael
dc.contributor.referee1	Zambalde, André Luiz
dc.creator	Sidney, Christiane Faleiro
dc.date.accessioned	2014-09-30T15:20:37Z
dc.date.available	2014-09-30T15:20:37Z
dc.date.issued	2014
dc.date.submitted	2014-02-27
dc.description	Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre.	pt_BR
dc.description.concentration	Banco de Dados e Engenharia de Software	pt_BR
dc.description.resumo	Query performance prediction is essential for many important tasks related to cloud-based database management including resource provisioning, admission control, and pricing. Recently, there has been great interest in building prediction models to estimate execution time of traditional SQL queries. While suitable for typical OLTP/OLAP workloads, these existing approaches are insufficient to model performance of complex data processing activities for deep analytics such as cleaning and integration of data. These activities are largely based on similarity operations, which are radically different from regular relational operators. In this dissertation, we consider prediction models for set similarity joins. We exploit knowledge of optimization techniques and design details popularly found in set similarity join algorithms to identify relevant features, which are then used to construct prediction models based on statistical machine learning. We present an extensive experimental evaluation to confirm the accuracy of our approach.	pt_BR
dc.description.resumo	Previsão do tempo de execução de consultas é essencial para muitas tarefas importantes relacionadas ao gerenciamento de banco de dados baseado em nuvem, incluindo provisionamento de recursos, controle de admissão e precificação de serviços. Recentemente, há grandes esforços na construção de modelos de previsão para estimar o tempo de execução de consultas SQL tradicionais. Embora adequadas para cargas de trabalho OLTP/OLAP, essas abordagens são insuficientes para modelar o desempenho de atividades envolvendo análises complexas de dados, como limpeza e integração de dados. Essas atividades são baseadas tipicamente em operações de similaridade, que, por sua vez, são radicalmente diferentes dos operadores relacionais regulares. Neste trabalho, consideramos modelos de previsão de tempo para junções por similaridade baseadas em conjuntos. Por meio do estudo de técnicas de otimização popularmente utilizadas em algoritmos de junção por similaridade, foram identificadas um conjunto de features relevantes, que são usadas na construção de modelos de previsão baseadas em aprendizagem de máquina estatística. Uma extensa avaliação experimental é apresentada para confirmar a precisão da nossa abordagem.	pt_BR
dc.identifier.citation	SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014.	pt_BR
dc.identifier.uri	https://repositorio.ufla.br/handle/1/4166
dc.language	pt_BR	pt_BR
dc.publisher	UNIVERSIDADE FEDERAL DE LAVRAS	pt_BR
dc.publisher.country	BRASIL	pt_BR
dc.publisher.initials	UFLA	pt_BR
dc.publisher.program	DCC - Programa de Pós-graduação	pt_BR
dc.rights	acesso aberto	pt_BR
dc.subject	Junção por similaridade	pt_BR
dc.subject	Aprendizagem de máquina	pt_BR
dc.subject	Predição de desempenho para consultas	pt_BR
dc.subject	Integração de dados	pt_BR
dc.subject	Limpeza de dados	pt_BR
dc.subject	Similarity join	pt_BR
dc.subject	Cloud databases	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Query performance prediction	pt_BR
dc.subject	Data integration	pt_BR
dc.subject	Data cleaning	pt_BR
dc.subject.cnpq	CNPQ_NÃO_INFORMADO	pt_BR
dc.title	Predição de desempenho para junções por similaridade baseadas em conjuntos	pt_BR
dc.type	dissertação	pt_BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: DISSERTAÇÃO_Predição de desempenho para junções por similaridade baseadas em conjuntos.pdf
Tamanho:: 2.61 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 953 B
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Ciência da Computação - Mestrado (Dissertações)