Predição de risco de crédito com aprendizado de máquina supervisionado: um estudo de caso com dados desbalanceados
| dc.contributor.advisor | Guimarães, Paulo Henrique Sales | |
| dc.contributor.co-advisor | Melo, Marcel Irving Pereira | |
| dc.contributor.referee | Silva Neto, Darcy Ramos da | |
| dc.contributor.referee | Pala, Luiz Otavio de Oliveira | |
| dc.contributor.referee | Veloso, Manoel Vitor de Souza | |
| dc.creator | Melo, Rafael Almeida Pereira | |
| dc.creator.orcid | https://orcid.org/0000-0002-0432-0728 | |
| dc.date.accessioned | 2026-01-23T19:19:28Z | |
| dc.date.issued | 2025-09-30 | |
| dc.description.abstract | This work evaluates the application of penalized Logistic Regression via LASSO in credit risk prediction, focusing on the treatment of imbalanced data, a common characteristic in financial datasets where the proportion of defaulters is usually low. A total of 36 synthetic datasets were generated through simulation, with different combinations of sample size and proportion of defaulters. The model was calibrated using cross-validation and dynamic adjustment of the cut-off (decision threshold), without employing resampling techniques such as SMOTE (Synthetic Minority Over-sampling Technique, which generates synthetic examples of the minority class) or undersampling (reducing the majority class to balance the distribution). Instead, resampling procedures with replacement from the original dataset were adopted to generate different scenarios of sample size and imbalance. The results showed robust performance in metrics such as AUC, F1 Score, and balanced accuracy, even in scenarios with severe imbalance, that is, when the proportion of defaulters is extremely low (between 1% and 5%). The LASSO penalization contributed to the automatic selection of relevant variables, while maintaining model interpretability. As a practical contribution, the study demonstrates that, with careful adjustments, it is possible to obtain statistical models that are simple, effective, and compliant with regulatory requirements, providing reliable support for credit risk management. Furthermore, the findings can be generalized to other contexts involving imbalanced data, expanding the applicability of the proposed approach. | |
| dc.description.areastematicasdaextensao | Educação | |
| dc.description.areastematicasdaextensao | Tecnologia e produção | |
| dc.description.areastematicasdaextensao | Trabalho | |
| dc.description.ods | ODS 4: Educação de qualidade | |
| dc.description.ods | ODS 12: Consumo e produção responsáveis | |
| dc.description.ods | ODS 10: Redução das desigualdades | |
| dc.description.ods | ODS 12: Consumo e produção responsáveis | |
| dc.description.resumo | Este trabalho avalia a aplicação da Regressão Logística penalizada via LASSO na predição de risco de crédito, com foco no tratamento de dados desbalanceados, uma característica comum em bases financeiras, onde a proporção de inadimplentes é geralmente baixa. Foram utilizadas 36 bases sintéticas, geradas por simulação, com diferentes combinações de tamanho amostral e proporção de inadimplentes, e o modelo foi calibrado por meio de validação cruzada e ajuste dinâmico do cut-off (ponto de corte ou limiar de decisão), sem uso de técnicas de reamostragem como SMOTE (Synthetic Minority Over-sampling Technique, que gera exemplos sintéticos da classe minoritária) ou undersampling (redução da classe majoritária para equilibrar a distribuição), tendo sido adotados procedimentos de reamostragem com reposição da base original para gerar diferentes cenários de tamanho amostral e desbalanceamento. Os resultados mostraram desempenho robusto em métricas como AUC, F1 Score e acurácia balanceada, mesmo em cenários com forte desbalanceamento, isto é, quando a proporção de inadimplentes é extremamente baixa (entre 1% e 5%). A penalização LASSO contribuiu para a seleção automática de variáveis relevantes, mantendo a interpretabilidade do modelo. Como contribuição prática, o estudo demonstra que, com ajustes criteriosos, é possível obter modelos estatísticos simples, eficazes e compatíveis com exigências regulatórias, oferecendo suporte confiável à gestão de risco de crédito. Além disso, os achados podem ser generalizados para outros contextos que envolvam dados desbalanceados, ampliando a aplicabilidade da abordagem proposta. | |
| dc.description.sponsorship | Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) | |
| dc.description.tipodeimpacto | Sociais | |
| dc.description.tipodeimpacto | Tecnológico | |
| dc.description.tipodeimpacto | Econômicos | |
| dc.description.tipodeimpacto | Culturais | |
| dc.identifier.citation | MELO, Rafael Almeida Pereira. Predição de risco de crédito com aprendizado de máquina supervisionado: um estudo de caso com dados desbalanceados. 2026. 67 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras, 2025. | |
| dc.identifier.uri | https://repositorio.ufla.br/handle/1/60541 | |
| dc.language.iso | pt_BR | |
| dc.publisher | Universidade Federal de Lavras | |
| dc.publisher.college | Instituto de Ciências Exatas e Tecnológicas (ICET) | |
| dc.publisher.country | brasil | |
| dc.publisher.department | Departamento de Estatística | |
| dc.publisher.initials | UFLA | |
| dc.publisher.program | Programa de Pós-Graduação em Estatística e Experimentação Agropecuária | |
| dc.rights | Attribution 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | |
| dc.subject | Regressão logística | |
| dc.subject | LASSO | |
| dc.subject | Predição de risco de crédito | |
| dc.subject | Inadimplência | |
| dc.subject | Crédito | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA | |
| dc.title | Predição de risco de crédito com aprendizado de máquina supervisionado: um estudo de caso com dados desbalanceados | |
| dc.title.alternative | Default modeling in imbalanced scenarios: evaluation of metrics and resampling with replacement | |
| dc.type | dissertação |
Arquivos
Licença do pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 955 B
- Formato:
- Item-specific license agreed upon to submission
- Descrição:
