Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística

Classificar algo é uma tarefa natural do ser humano, mas existem situações em que o mesmo não é o mais indicado para desempenhar tal função. A necessidade de métodos automáticos de classificação surge em várias áreas, como por exemplo em reconhecimento de vozes, reconhecimento de tumores por meio de chapas de raio-x, na classificação de e-mail como legítimos ou spam, entre outros. Devido a importância e o aumento da complexidade de problemas do tipo, existe ainda a necessidade de métodos que forneçam maior precisão e interpretabilidade dos resultados. Entre eles, os métodos de Boosting, que funcionam aplicando-se sequencialmente um algoritmo de classificação a versões reponderadas do conjunto de dados de treinamento. Recentemente foi mostrado que Boosting pode ainda ser visto como um método para estimação funcional. Atualmente os modelos de regressão logística com seus parâmetros estimados via máxima verossimilhança (doravante chamado MRLMV) são muito utilizados para esse tipo de situação. Nesse sentido, o presente trabalho consistiu em comparar o modelo de regressão logística MRLMV e o estimado via algoritmo Boosting, mais especificamente algoritmo Binomial Boosting (doravante chamado MRLBB), e selecionar o modelo com melhor adequabilidade de ajuste e maior capacidade de discriminação na situação de presença/ausência de doença cardíaca coronariana (CHD) como função de várias variáveis biológicas, com vista a fornecer informações mais precisas para situações cuja resposta é binária. Para ajustar os modelos, o conjunto de dados foi particionado aleatoriamente em dois subconjuntos, sendo um subconjunto equivalente a 70% do conjunto original (denominado de amostra de treinamento) e o restante, denominado de conjunto de teste. Os resultados mostram valores menores de AIC e BIC para o MRLBB em comparação ao MRLMV e pelo teste de Hosmer-Lemeshow ambos modelos (MRLMV e MRLBB) não apresentaram evidências de mau ajuste. O modelo MRLBB apresentou maiores valores de AUC, sensibilidade, especificidade e acurácia e menores valores para a taxa de falsos positivos e falsos negativos, mostrando-se, portanto, um modelo mais adequado do que o MRLMV. Observando-se as razões de chances, o modelo MRLBB apresentou resultados mais confiáveis quanto à chance de um paciente possuir CHD. Diante dos resultados obtidos, o modelo MRLBB é o mais adequado para descrever o problema de presença/ausência de doença cardíaca coronariana em pacientes, pois fornece informações mais precisas acerca do problema exposto.
Classify something is a natural human task, but there are situations where it is not best suited to perform this function. The need for automatic methods for classification arises in several areas, ranging from voice recognition, tumors recognition by x-ray films, email classification as spam or legitimate, among others. Due to the increasing complexity and importance of problems such as these, there is still a need for methods which provide greater accuracy and interpretability of the results. Among these methods Boosting, which operates sequentially applying a classification algorithm to reweighted versions of the training data set. Recently it was shown that Boosting may also be viewed as a method for estimating functional. Currently the logistic regression models with its parameters estimated by maximum likelihood (henceforth called LRMML) are very used to this kind of situation. In this sense, the present study was to compare the LRMML and Boosting algorithm, specifically Binomial Boosting algorithm (henceforth called LRMBB), logistic regression model, and select the model with the best fit and suitability of higher discrimination capacity in the situation of presence / absence of coronary heart disease (CHD) as a function of various biological variables in patients in order to provide the most accurate response to situations which is binary. To adjust the model, the data set was randomly partitioned into two subsets, one subset equivalent to 70 % of the original set (called training sample) and the remainder (called test set). The results show lower values of AIC and BIC for the LRMBB model compared to LRMML and the Hosmer-Lemeshow test shows both models (LRMLM and LRMBB) present no evidence of bad fit. The LRMBB model presented higher values of AUC, sensitivity, specificity and accuracy and lower values for the rate of false positives and false negatives, being therefore a model with better discrimination power in relation to the LRMML model. Observing the odds ratios, the LRMBB model showed more reliable results about the chance of a patient having CHD. Based on these results, the LRMBB model is best suited to describe the problem of presence / absence of coronary heart disease in patients because it provides more accurate information about the problem exposed.

Descrição

Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-graduação em Estatística e Experimentação Agropecuária, área de concentração em Estatística e Experimentação Agropecuária, para a obtenção do título de Mestre.

Área de concentração

Estatística e Experimentação Agropecuária

Palavras-chave

Métodos de classificação, Binomial boosting, Regressão, Modelos de regressão, Doença Cardíaca Coronariana (CHD), Seleção de Modelo, Classification methods, Regression models, Coronary Heart Disease (CHD), Model selection

Citação

LISKA, G. R. Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística. 2012. 105 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária )-Universidade Federal de Lavras, Lavras, 2012.

URI

https://repositorio.ufla.br/handle/1/626

Coleções

Estatística e Experimentação Agropecuária - Mestrado (Dissertações)

Página do item completo

Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística

Arquivos

Notas

Data

Autores

Orientadores

Editores

Coorientadores

Membros de banca

Título da Revista

ISSN da Revista

Título de Volume

Editor

Faculdade, Instituto ou Escola

Departamento

Programa de Pós-Graduação

Agência de fomento

Tipo de impacto

Áreas Temáticas da Extenção

Objetivos de Desenvolvimento Sustentável

Dados abertos

Resumo

Abstract

Descrição

Área de concentração

Agência de desenvolvimento

Palavra chave

Marca

Objetivo

Procedência

Impacto da pesquisa

Resumen

Palavras-chave

ISBN

DOI

Citação

Link externo

URI

Coleções

Avaliação

Revisão

Suplementado Por

Referenciado Por