Buscar

 

RI UFLA (Universidade Federal de Lavras) >
DEX - Departamento de Ciências Exatas >
DEX - Programa de Pós-graduação >
DEX - Estatística e Experimentação Agropecuária - Mestrado (Dissertações) >

Por favor, utilize esse identificador para citar este item ou usar como link: http://repositorio.ufla.br/jspui/handle/1/626

Título: Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística
Autor(es): Liska, Gilberto Rodrigues
Orientador: Menezes, Fortunato Silva de
Membro da banca: Carneiro, Antônio Policarpo Souza
Scalon, João Domingos
Cirillo, Marcelo Ângelo
Área de concentração: Estatística e Experimentação Agropecuária
Assunto: Métodos de classificação
Binomial boosting
Regressão
Modelos de regressão
Doença Cardíaca Coronariana (CHD)
Seleção de Modelo
Classification methods
Regression models
Coronary Heart Disease (CHD)
Model selection
Data de Defesa: 2012
Data de publicação: 2013
Agência de Fomento: Conselho Nacional de Desenvolvimento Científico e Tecnológico, CNPq
Referência: LISKA, G. R. Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística. 2012. 105 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária )-Universidade Federal de Lavras, Lavras, 2012.
Resumo: Classificar algo é uma tarefa natural do ser humano, mas existem situações em que o mesmo não é o mais indicado para desempenhar tal função. A necessidade de métodos automáticos de classificação surge em várias áreas, como por exemplo em reconhecimento de vozes, reconhecimento de tumores por meio de chapas de raio-x, na classificação de e-mail como legítimos ou spam, entre outros. Devido a importância e o aumento da complexidade de problemas do tipo, existe ainda a necessidade de métodos que forneçam maior precisão e interpretabilidade dos resultados. Entre eles, os métodos de Boosting, que funcionam aplicando-se sequencialmente um algoritmo de classificação a versões reponderadas do conjunto de dados de treinamento. Recentemente foi mostrado que Boosting pode ainda ser visto como um método para estimação funcional. Atualmente os modelos de regressão logística com seus parâmetros estimados via máxima verossimilhança (doravante chamado MRLMV) são muito utilizados para esse tipo de situação. Nesse sentido, o presente trabalho consistiu em comparar o modelo de regressão logística MRLMV e o estimado via algoritmo Boosting, mais especificamente algoritmo Binomial Boosting (doravante chamado MRLBB), e selecionar o modelo com melhor adequabilidade de ajuste e maior capacidade de discriminação na situação de presença/ausência de doença cardíaca coronariana (CHD) como função de várias variáveis biológicas, com vista a fornecer informações mais precisas para situações cuja resposta é binária. Para ajustar os modelos, o conjunto de dados foi particionado aleatoriamente em dois subconjuntos, sendo um subconjunto equivalente a 70% do conjunto original (denominado de amostra de treinamento) e o restante, denominado de conjunto de teste. Os resultados mostram valores menores de AIC e BIC para o MRLBB em comparação ao MRLMV e pelo teste de Hosmer-Lemeshow ambos modelos (MRLMV e MRLBB) não apresentaram evidências de mau ajuste. O modelo MRLBB apresentou maiores valores de AUC, sensibilidade, especificidade e acurácia e menores valores para a taxa de falsos positivos e falsos negativos, mostrando-se, portanto, um modelo mais adequado do que o MRLMV. Observando-se as razões de chances, o modelo MRLBB apresentou resultados mais confiáveis quanto à chance de um paciente possuir CHD. Diante dos resultados obtidos, o modelo MRLBB é o mais adequado para descrever o problema de presença/ausência de doença cardíaca coronariana em pacientes, pois fornece informações mais precisas acerca do problema exposto.
Classify something is a natural human task, but there are situations where it is not best suited to perform this function. The need for automatic methods for classification arises in several areas, ranging from voice recognition, tumors recognition by x-ray films, email classification as spam or legitimate, among others. Due to the increasing complexity and importance of problems such as these, there is still a need for methods which provide greater accuracy and interpretability of the results. Among these methods Boosting, which operates sequentially applying a classification algorithm to reweighted versions of the training data set. Recently it was shown that Boosting may also be viewed as a method for estimating functional. Currently the logistic regression models with its parameters estimated by maximum likelihood (henceforth called LRMML) are very used to this kind of situation. In this sense, the present study was to compare the LRMML and Boosting algorithm, specifically Binomial Boosting algorithm (henceforth called LRMBB), logistic regression model, and select the model with the best fit and suitability of higher discrimination capacity in the situation of presence / absence of coronary heart disease (CHD) as a function of various biological variables in patients in order to provide the most accurate response to situations which is binary. To adjust the model, the data set was randomly partitioned into two subsets, one subset equivalent to 70 % of the original set (called training sample) and the remainder (called test set). The results show lower values of AIC and BIC for the LRMBB model compared to LRMML and the Hosmer-Lemeshow test shows both models (LRMLM and LRMBB) present no evidence of bad fit. The LRMBB model presented higher values of AUC, sensitivity, specificity and accuracy and lower values for the rate of false positives and false negatives, being therefore a model with better discrimination power in relation to the LRMML model. Observing the odds ratios, the LRMBB model showed more reliable results about the chance of a patient having CHD. Based on these results, the LRMBB model is best suited to describe the problem of presence / absence of coronary heart disease in patients because it provides more accurate information about the problem exposed.
Informações adicionais: Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-graduação em Estatística e Experimentação Agropecuária, área de concentração em Estatística e Experimentação Agropecuária, para a obtenção do título de Mestre.
URI: http://repositorio.ufla.br/jspui/handle/1/626
Publicador: UNIVERSIDADE FEDERAL DE LAVRAS
Idioma: pt_BR
Aparece nas coleções: DEX - Estatística e Experimentação Agropecuária - Mestrado (Dissertações)

Arquivos neste Item:

Arquivo Descrição TamanhoFormato
DISSERTAÇÃO Classificação de dados em modelos com resposta binária via.pdf610,83 kBAdobe PDFVer/abrir

Itens protegidos por copyright, com todos os direitos reservados, Salvo indicação em contrário.


Mostrar estatísticas

 


DSpace Software Copyright © 2002-2007 MIT and Hewlett-Packard - Feedback