dissertação

Predição de risco de crédito com aprendizado de máquina supervisionado: um estudo de caso com dados desbalanceados

Carregando...
Imagem de Miniatura

Notas

Editores

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Lavras

Faculdade, Instituto ou Escola

Instituto de Ciências Exatas e Tecnológicas (ICET)

Departamento

Departamento de Estatística

Programa de Pós-Graduação

Programa de Pós-Graduação em Estatística e Experimentação Agropecuária

Agência de fomento

Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)

Tipo de impacto

Sociais
Tecnológico
Econômicos
Culturais

Áreas Temáticas da Extenção

Educação
Tecnologia e produção
Trabalho

Objetivos de Desenvolvimento Sustentável

ODS 4: Educação de qualidade
ODS 12: Consumo e produção responsáveis
ODS 10: Redução das desigualdades
ODS 12: Consumo e produção responsáveis

Dados abertos

Resumo

Este trabalho avalia a aplicação da Regressão Logística penalizada via LASSO na predição de risco de crédito, com foco no tratamento de dados desbalanceados, uma característica comum em bases financeiras, onde a proporção de inadimplentes é geralmente baixa. Foram utilizadas 36 bases sintéticas, geradas por simulação, com diferentes combinações de tamanho amostral e proporção de inadimplentes, e o modelo foi calibrado por meio de validação cruzada e ajuste dinâmico do cut-off (ponto de corte ou limiar de decisão), sem uso de técnicas de reamostragem como SMOTE (Synthetic Minority Over-sampling Technique, que gera exemplos sintéticos da classe minoritária) ou undersampling (redução da classe majoritária para equilibrar a distribuição), tendo sido adotados procedimentos de reamostragem com reposição da base original para gerar diferentes cenários de tamanho amostral e desbalanceamento. Os resultados mostraram desempenho robusto em métricas como AUC, F1 Score e acurácia balanceada, mesmo em cenários com forte desbalanceamento, isto é, quando a proporção de inadimplentes é extremamente baixa (entre 1% e 5%). A penalização LASSO contribuiu para a seleção automática de variáveis relevantes, mantendo a interpretabilidade do modelo. Como contribuição prática, o estudo demonstra que, com ajustes criteriosos, é possível obter modelos estatísticos simples, eficazes e compatíveis com exigências regulatórias, oferecendo suporte confiável à gestão de risco de crédito. Além disso, os achados podem ser generalizados para outros contextos que envolvam dados desbalanceados, ampliando a aplicabilidade da abordagem proposta.

Abstract

This work evaluates the application of penalized Logistic Regression via LASSO in credit risk prediction, focusing on the treatment of imbalanced data, a common characteristic in financial datasets where the proportion of defaulters is usually low. A total of 36 synthetic datasets were generated through simulation, with different combinations of sample size and proportion of defaulters. The model was calibrated using cross-validation and dynamic adjustment of the cut-off (decision threshold), without employing resampling techniques such as SMOTE (Synthetic Minority Over-sampling Technique, which generates synthetic examples of the minority class) or undersampling (reducing the majority class to balance the distribution). Instead, resampling procedures with replacement from the original dataset were adopted to generate different scenarios of sample size and imbalance. The results showed robust performance in metrics such as AUC, F1 Score, and balanced accuracy, even in scenarios with severe imbalance, that is, when the proportion of defaulters is extremely low (between 1% and 5%). The LASSO penalization contributed to the automatic selection of relevant variables, while maintaining model interpretability. As a practical contribution, the study demonstrates that, with careful adjustments, it is possible to obtain statistical models that are simple, effective, and compliant with regulatory requirements, providing reliable support for credit risk management. Furthermore, the findings can be generalized to other contexts involving imbalanced data, expanding the applicability of the proposed approach.

Descrição

Área de concentração

Agência de desenvolvimento

Palavra chave

Marca

Objetivo

Procedência

Impacto da pesquisa

Resumen

ISBN

DOI

Citação

MELO, Rafael Almeida Pereira. Predição de risco de crédito com aprendizado de máquina supervisionado: um estudo de caso com dados desbalanceados. 2026. 67 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras, 2025.

Link externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Attribution 3.0 Brazil