dissertação
Explorando curvas principais com a meta-heurística lobo cinzento para a classificação de dados sintéticos e de desempenho acadêmico dos estudantes no ENEM
Carregando...
Notas
Data
Autores
Orientadores
Editores
Coorientadores
Membros de banca
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Lavras
Faculdade, Instituto ou Escola
Escola de Engenharia (EENG)
Departamento
Programa de Pós-Graduação
Programa de Pós-Graduação: Engenharia de Sistemas e Automação
Agência de fomento
Fundação de Amparo à Pesquisa de Minas Gerais (FAPEMIG)
Tipo de impacto
Sociais
Tecnológico
Econômicos
Tecnológico
Econômicos
Áreas Temáticas da Extenção
Educação
Tecnologia e produção
Tecnologia e produção
Objetivos de Desenvolvimento Sustentável
ODS 4: Educação de qualidade
ODS 10: Redução das desigualdades
ODS 9: Indústria, inovação e infraestrutura
ODS 10: Redução das desigualdades
ODS 9: Indústria, inovação e infraestrutura
Dados abertos
Sim
Resumo
A educação é fundamental para o desenvolvimento de um país e, no Brasil, destaca-se a necessidade de melhorias que podem ser impulsionadas pelo uso da Tecnologia da Informação. Por meio do Exame Nacional do Ensino Médio (ENEM), maior exame educacional do país e uma das principais portas de entrada para o ensino superior, é possível avaliar aspectos da qualidade da educação por meio da construção de indicadores educacionais baseados no desempenho dos estudantes no exame. Para prever o desempenho dos estudantes no exame com base nas variáveis presentes na base de dados do ENEM, tais como informações socioeconômicas, características escolares e dados de participação, técnicas de Aprendizagem de Máquina (ML) têm sido cada vez mais utilizadas nesse contexto, permitindo identificar padrões de desempenho, possíveis irregularidades e personalizar estratégias pedagógicas. O problema de prever o desempenho dos estudantes no ENEM tem sido investigado por diversos autores, porém, muitos não têm explorado outras técnicas de ML, como as Curvas Principais (CP). Nos últimos anos, o método de CP tem sido aplicado em diversas áreas, demonstrando potencial em problemas de classificação. Nesse contexto, esta pesquisa tem como objetivo aplicar o método de extração de CP K-segmentos para a classificação do desempenho acadêmico dos estudantes que realizaram o ENEM 2023, considerando a classe 0 para alunos que não apresentaram um desempenho esperado e a classe 1 para aqueles com bom desempenho no exame, e avaliá-lo em bases sintéticas. Além disso, aplicar o método de otimização de hiperparâmetros Lobo Cinzento (GreyWolf Optimizer (GWO)) para determinar automaticamente os valores dos hiperparâmetros do método de CP K-segmentos, no qual determinar de forma manual é uma tarefa complexa. A metodologia compreende as etapas de preparação, redução de dimensionalidade, balanceamento das classes e transformação das variáveis de entrada da base do ENEM 2023, incluindo variáveis socioeconômicas, características escolares e informações dos participantes, além da aplicação da técnica GWO para a otimização dos hiperparâmetros dos modelos. Os métodos de classificação foram avaliados por meio de métricas como acurácia, F1-Score, precisão, recall, coeficiente de Kappa. Nos experimentos realizados em bases de dados sintéticas, o método apresentou bom desempenho nas bases compacta, alongada, esférica e espiral, com métricas superiores a 0,9700. Já nos experimentos realizados com a base do ENEM 2023, a abordagem de CP apresentou resultados competitivos em relação aos métodos da literatura comparados (Extreme Learning Machine, Naive Bayes e Random Forest). Entre as abordagens avaliadas, o pior resultado foi observado com t-SNE, com acurácia e recall de 0,7310, precisão de 0,7314, F1-Score de 0,7309 e coeficiente de Kappa de 0,4621 no conjunto de teste. Enquanto com Select K-Best o método obteve os melhores resultados, com acurácia e recall de 0,7603, precisão de 0,7612, F1-Score de 0,7601 e coeficiente de Kappa de 0,5206 no conjunto de teste, superando o método Naive Bayes nessa configuração. Esses resultados indicam que a abordagem proposta é promissora para a classificação do desempenho acadêmico, especialmente quando combinada a estratégias adequadas de técnicas de redução de dimensionalidade e otimização. Palavras-chave: Dados Educacionais; Desempenho Acadêmico; ENEM; Aprendizado de Máquina; Reconhecimento de Padrões; Curvas Principais; K-segmentos.
Abstract
Education is fundamental to a country’s development, and in Brazil, the need for improvements that can be driven by the use of Information Technology stands out. Through the National High School Exam (ENEM), the country’s largest educational exam and one of the main gateways to higher education, it is possible to assess aspects of the quality of education by constructing educational indicators based on student performance on the exam. To predict student performance on the exam based on variables present in the ENEM database, such as socioeconomic information, school characteristics, and participation data, Machine Learning (ML) techniques have been increasingly used in this context, allowing the identification of performance patterns, possible irregularities, and the customization of pedagogical strategies. The problem of predicting student performance on the ENEM has been investigated by several authors, but many have not explored other ML techniques, such as Principal Curves (PC). In recent years, the PC method has been applied in various areas, demonstrating potential in classification problems. In this context, this research aims to apply the K-segment PC extraction method to classify the academic performance of students who took the 2023 ENEM exam, considering class 0 for students who did not present the expected performance and class 1 for those with good performance on the exam, and to evaluate it on synthetic bases. Furthermore, the GreyWolf Optimizer (GWO) hyperparameter optimization method was applied to automatically determine the hyperparameter values for the K-segment PC method, a task that can be determined manually but is complex. The methodology comprises the steps of preparation, dimensionality reduction, class balancing, and transformation of the input variables from the 2023 ENEM database, including socioeconomic variables, school characteristics, and participant information, in addition to applying the GWO technique to optimize the model hyperparameters. The classification methods were evaluated using metrics such as accuracy, F1-Score, precision, recall, and Kappa coefficient. In experiments conducted on synthetic datasets, the method showed good performance in compact, elongated, spherical, and spiral datasets, with metrics greater than 0.9700. In experiments conducted using the ENEM 2023 database, the PC approach showed competitive results compared to the literature-referenced methods (Extreme Learning Machine, Naive Bayes, and Random Forest). Among the evaluated approaches, the worst result was observed with t-SNE, with an accuracy and recall of 0.7310, precision of 0.7314, F1-Score of 0.7309, and a Kappa coefficient of 0.4621 in the test set. While the Select K-Best method obtained the best results, with an accuracy and recall of 0.7603, precision of 0.7612, F1-Score of 0.7601, and a Kappa coefficient of 0.5206 in the test set, it outperformed the Naive Bayes method in this configuration. These results indicate that the proposed approach is promising for classifying academic performance, especially when combined with appropriate dimensionality reduction and optimization techniques. Keywords: Educational Data; Academic Performance; ENEM; Machine Learning; Pattern Recognition; Principal Curves; K-segments.
Descrição
Produção relacionada (artigo, propriedade intelectual, capítulo de livro, relatório ou outros):
Título: Classificação de Recorrência do Câncer de Tireóide utilizando Curvas Principais
link: http://dx.doi.org/10.21528/CBIC2025-1175671
Título: Otimização do Algoritmo de Curvas Principais K-segmentos com o Grey Wolf Optimizer
Link: https://prpg.ufla.br/images/downloads/Anais_-_XXXIV_CPG_2025_SD.pdf
Área de concentração
Engenharia de Sistemas e Automação
Agência de desenvolvimento
Palavra chave
Marca
Objetivo
Procedência
Impacto da pesquisa
Resumen
ISBN
DOI
Citação
MACÊDO, Bruno da Silva. Explorando curvas principais com a meta-heurística lobo cinzento para a classificação de dados sintéticos e de desempenho acadêmico dos estudantes no ENEM. 2026. 136 p. Dissertação (Mestrado)–Universidade Federal de Lavras, 2026.
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Attribution 3.0 Brazil

