Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística

Liska, Gilberto Rodrigues

Use este identificador para citar ou linkar para este item: http://repositorio.ufla.br/jspui/handle/1/626

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Liska, Gilberto Rodrigues	-
dc.date.accessioned	2013-06-07T14:39:43Z	-
dc.date.available	2013-06-07T14:39:43Z	-
dc.date.issued	2013	-
dc.date.submitted	2012	-
dc.identifier.citation	LISKA, G. R. Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística. 2012. 105 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária )-Universidade Federal de Lavras, Lavras, 2012.	pt_BR
dc.identifier.uri	http://repositorio.ufla.br/jspui/handle/1/626	-
dc.description	Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-graduação em Estatística e Experimentação Agropecuária, área de concentração em Estatística e Experimentação Agropecuária, para a obtenção do título de Mestre.	pt_BR
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico, CNPq	pt_BR
dc.language	pt_BR	pt_BR
dc.publisher	UNIVERSIDADE FEDERAL DE LAVRAS	pt_BR
dc.subject	Métodos de classificação	pt_BR
dc.subject	Binomial boosting	pt_BR
dc.subject	Regressão	pt_BR
dc.subject	Modelos de regressão	pt_BR
dc.subject	Doença Cardíaca Coronariana (CHD)	pt_BR
dc.subject	Seleção de Modelo	pt_BR
dc.subject	Classification methods	pt_BR
dc.subject	Regression models	pt_BR
dc.subject	Coronary Heart Disease (CHD)	pt_BR
dc.subject	Model selection	pt_BR
dc.title	Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística	pt_BR
dc.publisher.program	DEX - Programa de Pós-graduação	pt_BR
dc.publisher.initials	UFLA	pt_BR
dc.publisher.country	BRASIL	pt_BR
dc.description.concentration	Estatística e Experimentação Agropecuária	pt_BR
dc.contributor.advisor1	Menezes, Fortunato Silva de	-
dc.contributor.referee1	Carneiro, Antônio Policarpo Souza	-
dc.contributor.referee1	Scalon, João Domingos	-
dc.contributor.referee1	Cirillo, Marcelo Ângelo	-
dc.description.resumo	Classificar algo é uma tarefa natural do ser humano, mas existem situações em que o mesmo não é o mais indicado para desempenhar tal função. A necessidade de métodos automáticos de classificação surge em várias áreas, como por exemplo em reconhecimento de vozes, reconhecimento de tumores por meio de chapas de raio-x, na classificação de e-mail como legítimos ou spam, entre outros. Devido a importância e o aumento da complexidade de problemas do tipo, existe ainda a necessidade de métodos que forneçam maior precisão e interpretabilidade dos resultados. Entre eles, os métodos de Boosting, que funcionam aplicando-se sequencialmente um algoritmo de classificação a versões reponderadas do conjunto de dados de treinamento. Recentemente foi mostrado que Boosting pode ainda ser visto como um método para estimação funcional. Atualmente os modelos de regressão logística com seus parâmetros estimados via máxima verossimilhança (doravante chamado MRLMV) são muito utilizados para esse tipo de situação. Nesse sentido, o presente trabalho consistiu em comparar o modelo de regressão logística MRLMV e o estimado via algoritmo Boosting, mais especificamente algoritmo Binomial Boosting (doravante chamado MRLBB), e selecionar o modelo com melhor adequabilidade de ajuste e maior capacidade de discriminação na situação de presença/ausência de doença cardíaca coronariana (CHD) como função de várias variáveis biológicas, com vista a fornecer informações mais precisas para situações cuja resposta é binária. Para ajustar os modelos, o conjunto de dados foi particionado aleatoriamente em dois subconjuntos, sendo um subconjunto equivalente a 70% do conjunto original (denominado de amostra de treinamento) e o restante, denominado de conjunto de teste. Os resultados mostram valores menores de AIC e BIC para o MRLBB em comparação ao MRLMV e pelo teste de Hosmer-Lemeshow ambos modelos (MRLMV e MRLBB) não apresentaram evidências de mau ajuste. O modelo MRLBB apresentou maiores valores de AUC, sensibilidade, especificidade e acurácia e menores valores para a taxa de falsos positivos e falsos negativos, mostrando-se, portanto, um modelo mais adequado do que o MRLMV. Observando-se as razões de chances, o modelo MRLBB apresentou resultados mais confiáveis quanto à chance de um paciente possuir CHD. Diante dos resultados obtidos, o modelo MRLBB é o mais adequado para descrever o problema de presença/ausência de doença cardíaca coronariana em pacientes, pois fornece informações mais precisas acerca do problema exposto.	pt_BR
dc.description.resumo	Classify something is a natural human task, but there are situations where it is not best suited to perform this function. The need for automatic methods for classification arises in several areas, ranging from voice recognition, tumors recognition by x-ray films, email classification as spam or legitimate, among others. Due to the increasing complexity and importance of problems such as these, there is still a need for methods which provide greater accuracy and interpretability of the results. Among these methods Boosting, which operates sequentially applying a classification algorithm to reweighted versions of the training data set. Recently it was shown that Boosting may also be viewed as a method for estimating functional. Currently the logistic regression models with its parameters estimated by maximum likelihood (henceforth called LRMML) are very used to this kind of situation. In this sense, the present study was to compare the LRMML and Boosting algorithm, specifically Binomial Boosting algorithm (henceforth called LRMBB), logistic regression model, and select the model with the best fit and suitability of higher discrimination capacity in the situation of presence / absence of coronary heart disease (CHD) as a function of various biological variables in patients in order to provide the most accurate response to situations which is binary. To adjust the model, the data set was randomly partitioned into two subsets, one subset equivalent to 70 % of the original set (called training sample) and the remainder (called test set). The results show lower values of AIC and BIC for the LRMBB model compared to LRMML and the Hosmer-Lemeshow test shows both models (LRMLM and LRMBB) present no evidence of bad fit. The LRMBB model presented higher values of AUC, sensitivity, specificity and accuracy and lower values for the rate of false positives and false negatives, being therefore a model with better discrimination power in relation to the LRMML model. Observing the odds ratios, the LRMBB model showed more reliable results about the chance of a patient having CHD. Based on these results, the LRMBB model is best suited to describe the problem of presence / absence of coronary heart disease in patients because it provides more accurate information about the problem exposed.	pt_BR
dc.subject.cnpq	CNPQ_NÃO_INFORMADO	pt_BR
Aparece nas coleções:	Estatística e Experimentação Agropecuária - Mestrado (Dissertações)

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO Classificação de dados em modelos com resposta binária via.pdf		610,83 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas