Predição de risco de crédito com aprendizado de máquina supervisionado: um estudo de caso com dados desbalanceados

dc.contributor.advisorGuimarães, Paulo Henrique Sales
dc.contributor.co-advisorMelo, Marcel Irving Pereira
dc.contributor.refereeSilva Neto, Darcy Ramos da
dc.contributor.refereePala, Luiz Otavio de Oliveira
dc.contributor.refereeVeloso, Manoel Vitor de Souza
dc.creatorMelo, Rafael Almeida Pereira
dc.creator.orcidhttps://orcid.org/0000-0002-0432-0728
dc.date.accessioned2026-01-23T19:19:28Z
dc.date.issued2025-09-30
dc.description.abstractThis work evaluates the application of penalized Logistic Regression via LASSO in credit risk prediction, focusing on the treatment of imbalanced data, a common characteristic in financial datasets where the proportion of defaulters is usually low. A total of 36 synthetic datasets were generated through simulation, with different combinations of sample size and proportion of defaulters. The model was calibrated using cross-validation and dynamic adjustment of the cut-off (decision threshold), without employing resampling techniques such as SMOTE (Synthetic Minority Over-sampling Technique, which generates synthetic examples of the minority class) or undersampling (reducing the majority class to balance the distribution). Instead, resampling procedures with replacement from the original dataset were adopted to generate different scenarios of sample size and imbalance. The results showed robust performance in metrics such as AUC, F1 Score, and balanced accuracy, even in scenarios with severe imbalance, that is, when the proportion of defaulters is extremely low (between 1% and 5%). The LASSO penalization contributed to the automatic selection of relevant variables, while maintaining model interpretability. As a practical contribution, the study demonstrates that, with careful adjustments, it is possible to obtain statistical models that are simple, effective, and compliant with regulatory requirements, providing reliable support for credit risk management. Furthermore, the findings can be generalized to other contexts involving imbalanced data, expanding the applicability of the proposed approach.
dc.description.areastematicasdaextensaoEducação
dc.description.areastematicasdaextensaoTecnologia e produção
dc.description.areastematicasdaextensaoTrabalho
dc.description.odsODS 4: Educação de qualidade
dc.description.odsODS 12: Consumo e produção responsáveis
dc.description.odsODS 10: Redução das desigualdades
dc.description.odsODS 12: Consumo e produção responsáveis
dc.description.resumoEste trabalho avalia a aplicação da Regressão Logística penalizada via LASSO na predição de risco de crédito, com foco no tratamento de dados desbalanceados, uma característica comum em bases financeiras, onde a proporção de inadimplentes é geralmente baixa. Foram utilizadas 36 bases sintéticas, geradas por simulação, com diferentes combinações de tamanho amostral e proporção de inadimplentes, e o modelo foi calibrado por meio de validação cruzada e ajuste dinâmico do cut-off (ponto de corte ou limiar de decisão), sem uso de técnicas de reamostragem como SMOTE (Synthetic Minority Over-sampling Technique, que gera exemplos sintéticos da classe minoritária) ou undersampling (redução da classe majoritária para equilibrar a distribuição), tendo sido adotados procedimentos de reamostragem com reposição da base original para gerar diferentes cenários de tamanho amostral e desbalanceamento. Os resultados mostraram desempenho robusto em métricas como AUC, F1 Score e acurácia balanceada, mesmo em cenários com forte desbalanceamento, isto é, quando a proporção de inadimplentes é extremamente baixa (entre 1% e 5%). A penalização LASSO contribuiu para a seleção automática de variáveis relevantes, mantendo a interpretabilidade do modelo. Como contribuição prática, o estudo demonstra que, com ajustes criteriosos, é possível obter modelos estatísticos simples, eficazes e compatíveis com exigências regulatórias, oferecendo suporte confiável à gestão de risco de crédito. Além disso, os achados podem ser generalizados para outros contextos que envolvam dados desbalanceados, ampliando a aplicabilidade da abordagem proposta.
dc.description.sponsorshipConselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
dc.description.tipodeimpactoSociais
dc.description.tipodeimpactoTecnológico
dc.description.tipodeimpactoEconômicos
dc.description.tipodeimpactoCulturais
dc.identifier.citationMELO, Rafael Almeida Pereira. Predição de risco de crédito com aprendizado de máquina supervisionado: um estudo de caso com dados desbalanceados. 2026. 67 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras, 2025.
dc.identifier.urihttps://repositorio.ufla.br/handle/1/60541
dc.language.isopt_BR
dc.publisherUniversidade Federal de Lavras
dc.publisher.collegeInstituto de Ciências Exatas e Tecnológicas (ICET)
dc.publisher.countrybrasil
dc.publisher.departmentDepartamento de Estatística
dc.publisher.initialsUFLA
dc.publisher.programPrograma de Pós-Graduação em Estatística e Experimentação Agropecuária
dc.rightsAttribution 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.subjectRegressão logística
dc.subjectLASSO
dc.subjectPredição de risco de crédito
dc.subjectInadimplência
dc.subjectCrédito
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
dc.titlePredição de risco de crédito com aprendizado de máquina supervisionado: um estudo de caso com dados desbalanceados
dc.title.alternativeDefault modeling in imbalanced scenarios: evaluation of metrics and resampling with replacement
dc.typedissertação

Arquivos

Pacote original

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
Texto completo
Tamanho:
610.66 KB
Formato:
Adobe Portable Document Format
Carregando...
Imagem de Miniatura
Nome:
Impactos da pesquisa
Tamanho:
215.55 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
955 B
Formato:
Item-specific license agreed upon to submission
Descrição: