dissertação
Predição de risco de crédito com aprendizado de máquina supervisionado: um estudo de caso com dados desbalanceados
Carregando...
Notas
Data
Autores
Orientadores
Editores
Coorientadores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Lavras
Faculdade, Instituto ou Escola
Instituto de Ciências Exatas e Tecnológicas (ICET)
Departamento
Departamento de Estatística
Programa de Pós-Graduação
Programa de Pós-Graduação em Estatística e Experimentação Agropecuária
Agência de fomento
Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
Tipo de impacto
Sociais
Tecnológico
Econômicos
Culturais
Tecnológico
Econômicos
Culturais
Áreas Temáticas da Extenção
Educação
Tecnologia e produção
Trabalho
Tecnologia e produção
Trabalho
Objetivos de Desenvolvimento Sustentável
ODS 4: Educação de qualidade
ODS 12: Consumo e produção responsáveis
ODS 10: Redução das desigualdades
ODS 12: Consumo e produção responsáveis
ODS 12: Consumo e produção responsáveis
ODS 10: Redução das desigualdades
ODS 12: Consumo e produção responsáveis
Dados abertos
Resumo
Este trabalho avalia a aplicação da Regressão Logística penalizada via LASSO na predição de risco de crédito, com foco no tratamento de dados desbalanceados, uma característica comum em bases financeiras, onde a proporção de inadimplentes é geralmente baixa. Foram utilizadas 36 bases sintéticas, geradas por simulação, com diferentes combinações de tamanho amostral e proporção de inadimplentes, e o modelo foi calibrado por meio de validação cruzada e ajuste dinâmico do cut-off (ponto de corte ou limiar de decisão), sem uso de técnicas de reamostragem como SMOTE (Synthetic Minority Over-sampling Technique, que gera exemplos sintéticos da classe minoritária) ou undersampling (redução da classe majoritária para equilibrar a distribuição), tendo sido adotados procedimentos de reamostragem com reposição da base original para gerar diferentes cenários de tamanho amostral e desbalanceamento. Os resultados mostraram desempenho robusto em métricas como AUC, F1 Score e acurácia balanceada, mesmo em cenários com forte desbalanceamento, isto é, quando a proporção de inadimplentes é extremamente baixa (entre 1% e 5%). A penalização LASSO contribuiu para a seleção automática de variáveis relevantes, mantendo a interpretabilidade do modelo. Como contribuição prática, o estudo demonstra que, com ajustes criteriosos, é possível obter modelos estatísticos simples, eficazes e compatíveis com exigências regulatórias, oferecendo suporte confiável à gestão de risco de crédito. Além disso, os achados podem ser generalizados para outros contextos que envolvam dados desbalanceados, ampliando a aplicabilidade da abordagem proposta.
Abstract
This work evaluates the application of penalized Logistic Regression via LASSO in credit risk
prediction, focusing on the treatment of imbalanced data, a common characteristic in financial
datasets where the proportion of defaulters is usually low. A total of 36 synthetic datasets were
generated through simulation, with different combinations of sample size and proportion of defaulters. The model was calibrated using cross-validation and dynamic adjustment of the cut-off
(decision threshold), without employing resampling techniques such as SMOTE (Synthetic Minority Over-sampling Technique, which generates synthetic examples of the minority class) or
undersampling (reducing the majority class to balance the distribution). Instead, resampling
procedures with replacement from the original dataset were adopted to generate different scenarios of sample size and imbalance. The results showed robust performance in metrics such as
AUC, F1 Score, and balanced accuracy, even in scenarios with severe imbalance, that is, when
the proportion of defaulters is extremely low (between 1% and 5%). The LASSO penalization
contributed to the automatic selection of relevant variables, while maintaining model interpretability. As a practical contribution, the study demonstrates that, with careful adjustments, it
is possible to obtain statistical models that are simple, effective, and compliant with regulatory
requirements, providing reliable support for credit risk management. Furthermore, the findings
can be generalized to other contexts involving imbalanced data, expanding the applicability of
the proposed approach.
Descrição
Área de concentração
Agência de desenvolvimento
Palavra chave
Marca
Objetivo
Procedência
Impacto da pesquisa
Resumen
Palavras-chave
ISBN
DOI
Citação
MELO, Rafael Almeida Pereira. Predição de risco de crédito com aprendizado de máquina supervisionado: um estudo de caso com dados desbalanceados. 2026. 67 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras, 2025.
Link externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Attribution 3.0 Brazil

