Explorando curvas principais com a meta-heurística lobo cinzento para a classificação de dados sintéticos e de desempenho acadêmico dos estudantes no ENEM

dc.contributor.advisorBarbosa, Bruno Henrique Groenner
dc.contributor.co-advisorFerreira, Danton Diego
dc.contributor.refereeLacerda, Wilian Soares
dc.contributor.refereeVitor, Giovani Bernardes
dc.creatorMacêdo, Bruno da Silva
dc.creator.Latteshttps://lattes.cnpq.br/5353151102471695
dc.creator.orcidhttps://orcid.org/0009-0009-4375-8464
dc.date.accessioned2026-04-09T14:55:15Z
dc.date.issued2026-03-13
dc.descriptionProdução relacionada (artigo, propriedade intelectual, capítulo de livro, relatório ou outros): Título: Classificação de Recorrência do Câncer de Tireóide utilizando Curvas Principais link: http://dx.doi.org/10.21528/CBIC2025-1175671 Título: Otimização do Algoritmo de Curvas Principais K-segmentos com o Grey Wolf Optimizer Link: https://prpg.ufla.br/images/downloads/Anais_-_XXXIV_CPG_2025_SD.pdf
dc.description.abstractEducation is fundamental to a country’s development, and in Brazil, the need for improvements that can be driven by the use of Information Technology stands out. Through the National High School Exam (ENEM), the country’s largest educational exam and one of the main gateways to higher education, it is possible to assess aspects of the quality of education by constructing educational indicators based on student performance on the exam. To predict student performance on the exam based on variables present in the ENEM database, such as socioeconomic information, school characteristics, and participation data, Machine Learning (ML) techniques have been increasingly used in this context, allowing the identification of performance patterns, possible irregularities, and the customization of pedagogical strategies. The problem of predicting student performance on the ENEM has been investigated by several authors, but many have not explored other ML techniques, such as Principal Curves (PC). In recent years, the PC method has been applied in various areas, demonstrating potential in classification problems. In this context, this research aims to apply the K-segment PC extraction method to classify the academic performance of students who took the 2023 ENEM exam, considering class 0 for students who did not present the expected performance and class 1 for those with good performance on the exam, and to evaluate it on synthetic bases. Furthermore, the GreyWolf Optimizer (GWO) hyperparameter optimization method was applied to automatically determine the hyperparameter values for the K-segment PC method, a task that can be determined manually but is complex. The methodology comprises the steps of preparation, dimensionality reduction, class balancing, and transformation of the input variables from the 2023 ENEM database, including socioeconomic variables, school characteristics, and participant information, in addition to applying the GWO technique to optimize the model hyperparameters. The classification methods were evaluated using metrics such as accuracy, F1-Score, precision, recall, and Kappa coefficient. In experiments conducted on synthetic datasets, the method showed good performance in compact, elongated, spherical, and spiral datasets, with metrics greater than 0.9700. In experiments conducted using the ENEM 2023 database, the PC approach showed competitive results compared to the literature-referenced methods (Extreme Learning Machine, Naive Bayes, and Random Forest). Among the evaluated approaches, the worst result was observed with t-SNE, with an accuracy and recall of 0.7310, precision of 0.7314, F1-Score of 0.7309, and a Kappa coefficient of 0.4621 in the test set. While the Select K-Best method obtained the best results, with an accuracy and recall of 0.7603, precision of 0.7612, F1-Score of 0.7601, and a Kappa coefficient of 0.5206 in the test set, it outperformed the Naive Bayes method in this configuration. These results indicate that the proposed approach is promising for classifying academic performance, especially when combined with appropriate dimensionality reduction and optimization techniques. Keywords: Educational Data; Academic Performance; ENEM; Machine Learning; Pattern Recognition; Principal Curves; K-segments.
dc.description.areastematicasdaextensaoEducação
dc.description.areastematicasdaextensaoTecnologia e produção
dc.description.concentrationEngenharia de Sistemas e Automação
dc.description.odsODS 4: Educação de qualidade
dc.description.odsODS 10: Redução das desigualdades
dc.description.odsODS 9: Indústria, inovação e infraestrutura
dc.description.researchLineSistemas Inteligentes
dc.description.resumoA educação é fundamental para o desenvolvimento de um país e, no Brasil, destaca-se a necessidade de melhorias que podem ser impulsionadas pelo uso da Tecnologia da Informação. Por meio do Exame Nacional do Ensino Médio (ENEM), maior exame educacional do país e uma das principais portas de entrada para o ensino superior, é possível avaliar aspectos da qualidade da educação por meio da construção de indicadores educacionais baseados no desempenho dos estudantes no exame. Para prever o desempenho dos estudantes no exame com base nas variáveis presentes na base de dados do ENEM, tais como informações socioeconômicas, características escolares e dados de participação, técnicas de Aprendizagem de Máquina (ML) têm sido cada vez mais utilizadas nesse contexto, permitindo identificar padrões de desempenho, possíveis irregularidades e personalizar estratégias pedagógicas. O problema de prever o desempenho dos estudantes no ENEM tem sido investigado por diversos autores, porém, muitos não têm explorado outras técnicas de ML, como as Curvas Principais (CP). Nos últimos anos, o método de CP tem sido aplicado em diversas áreas, demonstrando potencial em problemas de classificação. Nesse contexto, esta pesquisa tem como objetivo aplicar o método de extração de CP K-segmentos para a classificação do desempenho acadêmico dos estudantes que realizaram o ENEM 2023, considerando a classe 0 para alunos que não apresentaram um desempenho esperado e a classe 1 para aqueles com bom desempenho no exame, e avaliá-lo em bases sintéticas. Além disso, aplicar o método de otimização de hiperparâmetros Lobo Cinzento (GreyWolf Optimizer (GWO)) para determinar automaticamente os valores dos hiperparâmetros do método de CP K-segmentos, no qual determinar de forma manual é uma tarefa complexa. A metodologia compreende as etapas de preparação, redução de dimensionalidade, balanceamento das classes e transformação das variáveis de entrada da base do ENEM 2023, incluindo variáveis socioeconômicas, características escolares e informações dos participantes, além da aplicação da técnica GWO para a otimização dos hiperparâmetros dos modelos. Os métodos de classificação foram avaliados por meio de métricas como acurácia, F1-Score, precisão, recall, coeficiente de Kappa. Nos experimentos realizados em bases de dados sintéticas, o método apresentou bom desempenho nas bases compacta, alongada, esférica e espiral, com métricas superiores a 0,9700. Já nos experimentos realizados com a base do ENEM 2023, a abordagem de CP apresentou resultados competitivos em relação aos métodos da literatura comparados (Extreme Learning Machine, Naive Bayes e Random Forest). Entre as abordagens avaliadas, o pior resultado foi observado com t-SNE, com acurácia e recall de 0,7310, precisão de 0,7314, F1-Score de 0,7309 e coeficiente de Kappa de 0,4621 no conjunto de teste. Enquanto com Select K-Best o método obteve os melhores resultados, com acurácia e recall de 0,7603, precisão de 0,7612, F1-Score de 0,7601 e coeficiente de Kappa de 0,5206 no conjunto de teste, superando o método Naive Bayes nessa configuração. Esses resultados indicam que a abordagem proposta é promissora para a classificação do desempenho acadêmico, especialmente quando combinada a estratégias adequadas de técnicas de redução de dimensionalidade e otimização. Palavras-chave: Dados Educacionais; Desempenho Acadêmico; ENEM; Aprendizado de Máquina; Reconhecimento de Padrões; Curvas Principais; K-segmentos.
dc.description.sponsorshipFundação de Amparo à Pesquisa de Minas Gerais (FAPEMIG)
dc.description.tipodeimpactoSociais
dc.description.tipodeimpactoTecnológico
dc.description.tipodeimpactoEconômicos
dc.identifier.citationMACÊDO, Bruno da Silva. Explorando curvas principais com a meta-heurística lobo cinzento para a classificação de dados sintéticos e de desempenho acadêmico dos estudantes no ENEM. 2026. 136 p. Dissertação (Mestrado)–Universidade Federal de Lavras, 2026.
dc.identifier.urihttps://repositorio.ufla.br/handle/1/60684
dc.language.isopt_BR
dc.publisherUniversidade Federal de Lavras
dc.publisher.collegeEscola de Engenharia (EENG)
dc.publisher.countrybrasil
dc.publisher.initialsUFLA
dc.publisher.programPrograma de Pós-Graduação: Engenharia de Sistemas e Automação
dc.relation.dadosabertosSim
dc.relation.urihttps://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem
dc.rightsAttribution 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.subjectDados Educacionais
dc.subjectDesempenho Acadêmico
dc.subjectENEM
dc.subjectAprendizado de Máquina
dc.subjectReconhecimento de Padrões
dc.subjectCurvas Principais
dc.subjectK-segmentos
dc.subject.cnpq30000009 ENGENHARIAS
dc.titleExplorando curvas principais com a meta-heurística lobo cinzento para a classificação de dados sintéticos e de desempenho acadêmico dos estudantes no ENEM
dc.title.alternativeExploring principal curves with the grey wolf meta-heuristic for the classification synthetic data and academic performance of students in the enem
dc.typedissertação

Arquivos

Pacote original

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
Texto completo.pdf
Tamanho:
4.31 MB
Formato:
Adobe Portable Document Format
Carregando...
Imagem de Miniatura
Nome:
Impactos da pesquisa.pdf
Tamanho:
232.99 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
955 B
Formato:
Item-specific license agreed upon to submission
Descrição: