Use este identificador para citar ou linkar para este item: http://repositorio.ufla.br/jspui/handle/1/58857
Registro completo de metadados
Campo DCValorIdioma
dc.creatorFerreira Neto, José Carlos-
dc.date.accessioned2024-01-30T12:08:19Z-
dc.date.available2024-01-30T12:08:19Z-
dc.date.issued2024-01-29-
dc.date.submitted2023-12-08-
dc.identifier.citationFERREIRA NETO, J. C. Desenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesa. 2023. 93 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)–Universidade Federal de Lavras, Lavras, 2023.pt_BR
dc.identifier.urihttp://repositorio.ufla.br/jspui/handle/1/58857-
dc.descriptionArquivo retido, a pedido do autor, até janeiro de 2025.-
dc.description.abstractThe identification and extraction of aspects are essential in text analysis for discerning opinions and emotions. However, there is a gap in applying these techniques to Portuguese. This work aims to adapt approaches originally developed for English to this language in the TV and ReLi datasets. The goal of this work is to evaluate the application of language models for aspect extraction in Portuguese in the context of TV device reviews and literary reviews in the TV and ReLi datasets. To achieve this goal, models based on the BERT architecture were employed, both in the pre-trained form for general domains (BERTimbau) and for specific domains (BERTtv and BERTreli). Additionally, a double embedding technique was implemented, combining general and specific domain models. Large Language Models (LLMs) were also evaluated, including variants of GPT-3 via the OpenAI API and a variant of LLaMa, Cabrita, which is trained for the Portuguese language. To optimize hardware resource demand, efficient fine-tuning techniques such as LoRA (Low-Rank Adaptation) for BERTimbau and QLoRa (Quantized Low-Rank Adaptation) for Cabrita were applied. The results showed that the BERTimbau model adjusted with LoRA was superior in both datasets, achieving F1 scores of 0.846 for the TV dataset and 0.615 for ReLi. In contrast, the Cabrita model showed inferior performance, with less favorable results for both datasets, 0.68 for TV and 0.46 for ReLi. This study, therefore, offers a valuable contribution to research in aspect extraction in Portuguese, demonstrating the feasibility and effectiveness of adapting and optimizing techniques and models originally developed for other languages.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Lavraspt_BR
dc.rightsrestrictAccesspt_BR
dc.rightsAttribution 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/*
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectExtração de aspectospt_BR
dc.subjectBERTpt_BR
dc.subjectModelos de linguagempt_BR
dc.subjectNatural language processingpt_BR
dc.subjectAspect extractionpt_BR
dc.subjectBidirectional Encoder Representations from Transformerspt_BR
dc.subjectLanguage modelspt_BR
dc.titleDesenvolvimento de modelos de linguagem para extração de aspectos em língua portuguesapt_BR
dc.title.alternativeDevelopment of language models for aspect extraction in portuguesept_BR
dc.typedissertaçãopt_BR
dc.publisher.programPrograma de Pós-graduação em Engenharia de Sistemas e Automaçãopt_BR
dc.publisher.initialsUFLApt_BR
dc.publisher.countrybrasilpt_BR
dc.contributor.advisor1Ferreira, Danton Diego-
dc.contributor.referee1Ferreira, Danton Diego-
dc.contributor.referee2Barbosa, Bruno Henrique Groenner-
dc.contributor.referee3Pereira, Denilson Alves-
dc.contributor.referee4Cardoso, Paula Christina Figueira-
dc.contributor.referee5Vitor, Giovani Bernardes-
dc.description.resumoA identificação e extração de aspectos é essencial na análise de textos para discernir opiniões e emoções. Contudo, há uma lacuna na aplicação dessas técnicas ao português. Este trabalho visa adaptar abordagens originalmente desenvolvidas para o inglês a este idioma no conjuntos de dados TV e ReLi. O objetivo deste trabalho consiste em avaliar a aplicação de modelos de linguagem para extração de aspectos na língua portuguesa no contexto de revisões de aparelhos de TV e resenhas literárias nos conjuntos de dado TV e ReLi. Para alcançar este objetivo, modelos baseados na arquitetura BERT foram empregados, tanto na forma pré-treinada para domínios gerais (BERTimbau) quanto para domínios específicos (BERTtv e BERTreli). Além disso, uma técnica de duplo embedding foi implementada, combinando modelos de domínio geral e específico. Também foram avaliados Modelos de Linguagem de Larga Escala (Large Language Models - LLM), incluindo variantes do GPT-3 via API da OpenAI e uma variante do LLaMa, Cabrita, que é trei- nada para a língua portuguesa. Para otimizar a demanda por recursos de hardware, técnicas de ajuste fino eficiente, como LoRA (Low-Rank Adaptation) para o BERTimbau e QLoRa (Quantized Low-Rank Adaptation) para o Cabrita, foram aplicadas. Os resultados demonstraram que o modelo BERTimbau ajustado com LoRa se mostrou superior nos dois conjuntos de dados, alcançando F1 scores de 0.846 para o conjunto TV e 0.615 para o ReLi. Em contraste, o modelo Cabrita apresentou desempenho inferior, com resultados menos favoráveis para ambos os conjuntos de dados, 0.68 para o TV e 0.46 para o ReLi. Este estudo, portanto, oferece uma contribuição valiosa para a pesquisa em extração de aspectos em língua portuguesa, demonstrando a viabilidade e eficácia de adaptar e otimizar técnicas e modelos desenvolvidos originalmente para outros idiomas.pt_BR
dc.publisher.departmentDepartamento de Engenhariapt_BR
dc.subject.cnpqCiência da Computaçãopt_BR
dc.creator.Latteshttp://lattes.cnpq.br/2512230222423651pt_BR
Aparece nas coleções:Engenharia de Sistemas e automação (Dissertações)

Arquivos associados a este item:
Não existem arquivos associados a este item.


Este item está licenciada sob uma Licença Creative Commons Creative Commons