Artigo
An investigation of linguistic problems in automatic multi-document summaries
Carregando...
Notas
Data
Orientadores
Editores
Coorientadores
Membros de banca
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Minas Gerais (UFMG), Faculdade de Letras (FALE)
Faculdade, Instituto ou Escola
Departamento
Programa de Pós-Graduação
Agência de fomento
Tipo de impacto
Áreas Temáticas da Extenção
Objetivos de Desenvolvimento Sustentável
Dados abertos
Resumo
Sumários automáticos geralmente apresentam vários problemas linguísticos que afetam a sua qualidade textual e, consequentemente, sua compreensão pelos usuários. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarização. Neste artigo, investigaram-se os problemas em extratos (isto é, sumários produzidos pela concatenação de sentenças extraídas na íntegra dos textos-fonte) multidocumento em Português do Brasil gerados por sistemas que apresentam diferentes abordagens (isto é, superficial e profunda) e desempenho (isto é, métodos baseline e do estado-da-arte). Para tanto, as principais caracterizações dos problemas linguísticos em sumários automáticos foram investigadas, resultando em uma tipologia mais adequada à sumarização multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas são significativamente mais recorrentes que outros. Assim, essa anotação gera subsídios para as tarefas automáticas de detecção e correção de problemas linguísticos com vistas à produção de sumários automáticos não só mais informativos (isto é, que cobrem o conteúdo do material de origem), como também linguisticamente bem-estruturados.
Abstract
Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the problems in multi-document extracts (i.e., summaries produced by concatenating several sentences taken exactly as they appear in the source texts) generated by systems for Brazilian Portuguese that have different approaches (i.e., superficial and deep) and performances (i.e., baseline and state-of-the art methods). For that, we first reviewed the main characterization studies, resulting in a typology of linguistic problems more suitable for multi-document summarization. Then, we manually annotated a corpus of automatic multi-document extracts in Portuguese based on the typology, which showed that some of linguistic problems are significantly more recurrent than others. Thus, this corpus annotation may support research on linguistic problems detection and correction for summary improvement, allowing the production of automatic summaries that are not only informative (i.e., they convey the content of the source material), but also linguistically well structured.
Descrição
Área de concentração
Agência de desenvolvimento
Palavra chave
Marca
Objetivo
Procedência
Submitted by Tatiana Silva (tatianasilva@biblioteca.ufla.br) on 2022-06-27T12:19:56Z
No. of bitstreams: 2
ARTIGO_An investigation of linguistic problems in automatic multi-document summaries.pdf: 419983 bytes, checksum: 9d50922bb383681ddb92809d98c6f3f0 (MD5)
license_rdf: 907 bytes, checksum: c07b6daef3dbee864bf87e6aa836cde2 (MD5)
Approved for entry into archive by Tatiana Silva (tatianasilva@biblioteca.ufla.br) on 2022-06-27T12:44:35Z (GMT) No. of bitstreams: 2 ARTIGO_An investigation of linguistic problems in automatic multi-document summaries.pdf: 419983 bytes, checksum: 9d50922bb383681ddb92809d98c6f3f0 (MD5) license_rdf: 907 bytes, checksum: c07b6daef3dbee864bf87e6aa836cde2 (MD5)
Made available in DSpace on 2022-06-27T12:44:35Z (GMT). No. of bitstreams: 2 ARTIGO_An investigation of linguistic problems in automatic multi-document summaries.pdf: 419983 bytes, checksum: 9d50922bb383681ddb92809d98c6f3f0 (MD5) license_rdf: 907 bytes, checksum: c07b6daef3dbee864bf87e6aa836cde2 (MD5) Previous issue date: 2021
Approved for entry into archive by Tatiana Silva (tatianasilva@biblioteca.ufla.br) on 2022-06-27T12:44:35Z (GMT) No. of bitstreams: 2 ARTIGO_An investigation of linguistic problems in automatic multi-document summaries.pdf: 419983 bytes, checksum: 9d50922bb383681ddb92809d98c6f3f0 (MD5) license_rdf: 907 bytes, checksum: c07b6daef3dbee864bf87e6aa836cde2 (MD5)
Made available in DSpace on 2022-06-27T12:44:35Z (GMT). No. of bitstreams: 2 ARTIGO_An investigation of linguistic problems in automatic multi-document summaries.pdf: 419983 bytes, checksum: 9d50922bb383681ddb92809d98c6f3f0 (MD5) license_rdf: 907 bytes, checksum: c07b6daef3dbee864bf87e6aa836cde2 (MD5) Previous issue date: 2021
Impacto da pesquisa
Resumen
ISBN
DOI
Citação
DIAS, M. de S. et al. An investigation of linguistic problems in automatic multi-document summaries. Revista de Estudos da Linguagem, Belo Horizonte, v. 29, n. 2, p. 859-907, 2021. DOI: 10.17851/2237-2083.29.2.859-907.
Link externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Attribution 4.0 International

