Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística
Carregando...
Notas
Data
Autores
Orientadores
Editores
Coorientadores
Título da Revista
ISSN da Revista
Título de Volume
Editor
UNIVERSIDADE FEDERAL DE LAVRAS
Faculdade, Instituto ou Escola
Departamento
Programa de Pós-Graduação
DEX - Programa de Pós-graduação
Agência de fomento
Conselho Nacional de Desenvolvimento Científico e Tecnológico, CNPq
Tipo de impacto
Áreas Temáticas da Extenção
Objetivos de Desenvolvimento Sustentável
Dados abertos
Resumo
Classificar algo é uma tarefa natural do ser humano, mas existem situações
em que o mesmo não é o mais indicado para desempenhar tal função. A necessidade
de métodos automáticos de classificação surge em várias áreas, como por
exemplo em reconhecimento de vozes, reconhecimento de tumores por meio de
chapas de raio-x, na classificação de e-mail como legítimos ou spam, entre outros.
Devido a importância e o aumento da complexidade de problemas do tipo, existe
ainda a necessidade de métodos que forneçam maior precisão e interpretabilidade
dos resultados. Entre eles, os métodos de Boosting, que funcionam aplicando-se
sequencialmente um algoritmo de classificação a versões reponderadas do conjunto
de dados de treinamento. Recentemente foi mostrado que Boosting pode
ainda ser visto como um método para estimação funcional. Atualmente os modelos
de regressão logística com seus parâmetros estimados via máxima verossimilhança
(doravante chamado MRLMV) são muito utilizados para esse tipo de situação.
Nesse sentido, o presente trabalho consistiu em comparar o modelo de regressão
logística MRLMV e o estimado via algoritmo Boosting, mais especificamente algoritmo
Binomial Boosting (doravante chamado MRLBB), e selecionar o modelo
com melhor adequabilidade de ajuste e maior capacidade de discriminação na situação
de presença/ausência de doença cardíaca coronariana (CHD) como função de
várias variáveis biológicas, com vista a fornecer informações mais precisas para
situações cuja resposta é binária. Para ajustar os modelos, o conjunto de dados foi
particionado aleatoriamente em dois subconjuntos, sendo um subconjunto equivalente
a 70% do conjunto original (denominado de amostra de treinamento) e o
restante, denominado de conjunto de teste. Os resultados mostram valores menores
de AIC e BIC para o MRLBB em comparação ao MRLMV e pelo teste de
Hosmer-Lemeshow ambos modelos (MRLMV e MRLBB) não apresentaram evidências
de mau ajuste. O modelo MRLBB apresentou maiores valores de AUC,
sensibilidade, especificidade e acurácia e menores valores para a taxa de falsos
positivos e falsos negativos, mostrando-se, portanto, um modelo mais adequado
do que o MRLMV. Observando-se as razões de chances, o modelo MRLBB apresentou
resultados mais confiáveis quanto à chance de um paciente possuir CHD.
Diante dos resultados obtidos, o modelo MRLBB é o mais adequado para descrever
o problema de presença/ausência de doença cardíaca coronariana em pacientes,
pois fornece informações mais precisas acerca do problema exposto.
Classify something is a natural human task, but there are situations where it is not best suited to perform this function. The need for automatic methods for classification arises in several areas, ranging from voice recognition, tumors recognition by x-ray films, email classification as spam or legitimate, among others. Due to the increasing complexity and importance of problems such as these, there is still a need for methods which provide greater accuracy and interpretability of the results. Among these methods Boosting, which operates sequentially applying a classification algorithm to reweighted versions of the training data set. Recently it was shown that Boosting may also be viewed as a method for estimating functional. Currently the logistic regression models with its parameters estimated by maximum likelihood (henceforth called LRMML) are very used to this kind of situation. In this sense, the present study was to compare the LRMML and Boosting algorithm, specifically Binomial Boosting algorithm (henceforth called LRMBB), logistic regression model, and select the model with the best fit and suitability of higher discrimination capacity in the situation of presence / absence of coronary heart disease (CHD) as a function of various biological variables in patients in order to provide the most accurate response to situations which is binary. To adjust the model, the data set was randomly partitioned into two subsets, one subset equivalent to 70 % of the original set (called training sample) and the remainder (called test set). The results show lower values of AIC and BIC for the LRMBB model compared to LRMML and the Hosmer-Lemeshow test shows both models (LRMLM and LRMBB) present no evidence of bad fit. The LRMBB model presented higher values of AUC, sensitivity, specificity and accuracy and lower values for the rate of false positives and false negatives, being therefore a model with better discrimination power in relation to the LRMML model. Observing the odds ratios, the LRMBB model showed more reliable results about the chance of a patient having CHD. Based on these results, the LRMBB model is best suited to describe the problem of presence / absence of coronary heart disease in patients because it provides more accurate information about the problem exposed.
Classify something is a natural human task, but there are situations where it is not best suited to perform this function. The need for automatic methods for classification arises in several areas, ranging from voice recognition, tumors recognition by x-ray films, email classification as spam or legitimate, among others. Due to the increasing complexity and importance of problems such as these, there is still a need for methods which provide greater accuracy and interpretability of the results. Among these methods Boosting, which operates sequentially applying a classification algorithm to reweighted versions of the training data set. Recently it was shown that Boosting may also be viewed as a method for estimating functional. Currently the logistic regression models with its parameters estimated by maximum likelihood (henceforth called LRMML) are very used to this kind of situation. In this sense, the present study was to compare the LRMML and Boosting algorithm, specifically Binomial Boosting algorithm (henceforth called LRMBB), logistic regression model, and select the model with the best fit and suitability of higher discrimination capacity in the situation of presence / absence of coronary heart disease (CHD) as a function of various biological variables in patients in order to provide the most accurate response to situations which is binary. To adjust the model, the data set was randomly partitioned into two subsets, one subset equivalent to 70 % of the original set (called training sample) and the remainder (called test set). The results show lower values of AIC and BIC for the LRMBB model compared to LRMML and the Hosmer-Lemeshow test shows both models (LRMLM and LRMBB) present no evidence of bad fit. The LRMBB model presented higher values of AUC, sensitivity, specificity and accuracy and lower values for the rate of false positives and false negatives, being therefore a model with better discrimination power in relation to the LRMML model. Observing the odds ratios, the LRMBB model showed more reliable results about the chance of a patient having CHD. Based on these results, the LRMBB model is best suited to describe the problem of presence / absence of coronary heart disease in patients because it provides more accurate information about the problem exposed.
Abstract
Descrição
Dissertação apresentada à Universidade
Federal de Lavras, como parte das exigências
do Programa de Pós-graduação em Estatística
e Experimentação Agropecuária,
área de concentração em Estatística e Experimentação
Agropecuária, para a obtenção
do título de Mestre.
Área de concentração
Estatística e Experimentação Agropecuária
Agência de desenvolvimento
Palavra chave
Marca
Objetivo
Procedência
Impacto da pesquisa
Resumen
ISBN
DOI
Citação
LISKA, G. R. Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística. 2012. 105 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária )-Universidade Federal de Lavras, Lavras, 2012.
