dissertação
Enriquecendo um arquivo de autoridade de veículos de publicação com informações extraídas da Web
Carregando...
Notas
Data
Autores
Orientadores
Editores
Coorientadores
Membros de banca
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Lavras
Faculdade, Instituto ou Escola
Departamento
Departamento de Ciência da Computação
Programa de Pós-Graduação
Programa de Pós-Graduação em Ciência da Computação
Agência de fomento
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Tipo de impacto
Áreas Temáticas da Extenção
Objetivos de Desenvolvimento Sustentável
Dados abertos
Resumo
Arquivos de autoridade mantêm registros de entidades e são normalmente
utilizados por bibliotecas digitais na elaboração de ferramentas
de desambiguação de nomes de autores ou títulos de veículos de publicação. Um arquivo de autoridade com informações detalhadas e consistentes
sobre veículos de publicação permite a melhoria de tais ferramentas. Neste
trabalho, objetivou-se enriquecer um arquivo de autoridade de veículos de
publicação da área de Ciência da Computação. A proposta é obter informações adicionais para complementar esse arquivo de autoridade já existente,
extraindo informações automaticamente de paginas da Web, obtidas por
meio de consultas a uma maquina de busca. A abordagem contempla os
passos para submissão de consultas, classificação dos documentos obtidos
por elas e extração de informações dos documentos relevantes. A classificação das páginas é uma tarefa importante neste trabalho. Duas abordagens
foram implementadas e avaliadas experimentalmente: classificação baseada
apenas em conteúdo e classificação baseada em gênero e conteúdo. A primeira
obteve melhores resultados para paginas de conferencias. Das paginas
relevantes, foram extraídos dados como ano, numero da ediçao e data, alem
do nome e sigla, em busca de alguma variante desconhecida na forma de
escrita. Os experimentos realizados demonstram bons resultados na coleta
de informações de conferencias, permitindo-se traçar um histórico de realização
das mesmas, com dados como ano de suas edições e mudanças de
nomes.
Abstract
Authority files maintain entity registries and are generally used by
digital libraries for elaborating disambiguation tools for author names or
titles of publishing venues. An authority file with detailed and consistent
information on publication venues allows the improvement of such tools.
This work has the objective of enriching an authority file of Computer Science
publication venue. The proposal is of obtaining additional information
in order to complement this already existing authority archive, by automatically
extracting information from web pages, obtained by means of
consultations to a research engine. The approach contemplates the steps
for submitting consultations, classifying documents and extracting information
of relevant documents. The classification of the pages is an important
task in this work. Two approaches were implemented and experimentally
evaluated: classification based only on content, and classification based on
gender and content. The first obtained the best results for page conference.
From the relevant pages, we extracted data such as year, edition number
and date, in addition to name and abbreviation, seeking an unknown variant
in written form. The experiments conducted demonstrate good results
in the collection of conference information, allowing us to trace the record
of performing the same, with data such as edition year and name change.
Descrição
Área de concentração
Agência de desenvolvimento
Palavra chave
Marca
Objetivo
Procedência
Impacto da pesquisa
Resumen
ISBN
DOI
Citação
JESUS, H. A. de. Enriquecendo um arquivo de autoridade de veículos de publicação com informações extraídas da Web. 2015. 78 p. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal de Lavras, Lavras, 2015.
