dissertação
Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar
Carregando...
Notas
Data
Autores
Orientadores
Editores
Coorientadores
Membros de banca
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Lavras
Faculdade, Instituto ou Escola
Departamento
Departamento de Estatística
Programa de Pós-Graduação
Programa de Pós-graduação em Estatística e Experimentação Agropecuária
Agência de fomento
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Tipo de impacto
Áreas Temáticas da Extenção
Objetivos de Desenvolvimento Sustentável
Dados abertos
Resumo
A análise de regressão linear surgiu no século XIX e, ainda hoje, é uma das técnicas estatísticas
mais utilizadas em pesquisas aplicadas quando se deseja relacionar uma variável resposta, Y ,
com uma ou mais variáveis explicativas, X . Entretanto, quando a variável resposta não segue
uma distribuição normal a utilização de modelos lineares generalizados pode ser mais apropriada. Um exemplo com grande aplicação é o modelo logístico para respostas binárias. Nessas
análises, quando se tem várias variáveis explicativas faz-se necessário selecionar as que resultariam em um modelo útil e parcimonioso. Uma solução para isso pode ser utilizar a técnica de
regularização Lasso, método pelo qual as estimativas dos coeficientes tendem a zero, o que implica que apenas as variáveis que afetam significativamente a variação em Y sejam consideradas
no modelo. No entanto, com o aumento do número de variáveis explicativas e da complexidade
dos dados, alternativas vêm surgindo, como as técnicas de Machine Learning. O objetivo deste
trabalho foi utilizar Lasso e árvores de classificação para seleção de variáveis em modelos logísticos, utilizando um exemplo de segurança e frequência alimentar infantil. Os dados foram
coletados em 581 crianças de Centros Municipais de Educação Infantil de Lavras, MG. Inicialmente, para a variável resposta frequência alimentar foram consideradas como potenciais
preditoras 37 variáveis. Quando aplicadas as técnicas Lasso e árvore de classificação estas foram reduzidas para 3 e 7, respectivamente. Para a variável resposta segurança alimentar foram
consideradas 19 variáveis como potenciais preditoras e após aplicação do Lasso e árvore de
classificação esse número foi reduzido para 5 e 9, respectivamente. Os modelos obtidos com as
variáveis selecionadas foram reduzidos por stepwise. Os modelos finais para cada variável resposta foram comparados pelo AIC (Critério de Informação de Akaike) e pela deviance residual.
Para a variável resposta frequência alimentar, o modelo obtido a partir do Lasso apresentou
menores valores de AIC e deviance residual (AIC= 107,95 e deviance = 101,95) do que aquele
obtido a partir da árvore de classificação (AIC = 509,68 e deviance = 489, 68). Esse padrão
também ocorreu para a variável resposta segurança alimentar. O AIC do modelo considerando
Lasso foi de 273,20 e sua deviance foi 255,20, enquanto que para árvore de classificação o AIC
foi 307,37 e a deviance residual foi igual a 283,37. Para esse banco de dados, os modelos que consideraram as variáveis selecionadas pela técnica Lasso apresentaram melhores resultados
segundo os critérios estatísticos, mas as árvores de classificação também podem ser consideradas, uma vez que as variáveis selecionadas são de interesse do ponto de vista prático, além de
gerarem resultados gráficos intuitivos e de fácil interpretação.
Abstract
Linear regression emerged in the nineteenth century and it is one of the most commonly used
statistical techniques in applied research when the interest lies on explain a response, Y , based
on one or more explanatory variables, X . However, when the response does not follow a normal distribution, generalized linear models may be more appropriate. An example which has
broad application is the logistic model for binary responses. In regression analysis, when there
are several explanatory variables, it is necessary to select those that would result in a useful
and parsimonious model. One solution is the Lasso regularization method, where coefficient
estimates shrink to zero, implying that only variables that significantly affect the variation in Y
are considered in the model. However, as the number of explanatory variables and data complexity increase, alternatives have emerged, such as Machine Learning techniques. The aim
of this study is to use Lasso and Classification Trees for variable selection in logistic models,
using an example of food safety and frequency in children. Data were collected from 581 children attending Centros Municipais de Educação Infantil (Municipal Centers of Early Childhood
Education), in Lavras, MG, Brazil. The 37 potential predictors of food frequency were reduced to 3 and 7 when Lasso and classification tree, respectively, were applied. For the response
food security, the 19 predictors were reduced to 5 and 9 after applying Lasso and classification
tree, respectively. The models obtained with the selected variables through both methods were
reduced using stepwise. The chosen models for each response variable were compared by AIC
(Akaike Information Criterion) and residual deviance. For food frequency, the model obtained
from Lasso showed lower values of AIC and residual deviance (AIC = 107.95 and deviance
= 101.95) than that obtained from the classification tree (AIC = 509, 68 and deviance = 489,
68). This pattern also occurred for food security. In this case, the AIC of the model considering
Lasso was 273.20 and its deviance was 255.20, while for the classification tree the AIC was
307.37 and the residual deviance was 283.37. For this dataset, the models obtained using the
variables selected by Lasso presented better results according to the statistical criteria. But classification trees can also be considered, since the selected variables have practical importance
and they provide intuitive and easy-to-interpret graphical results.
Descrição
Área de concentração
Agência de desenvolvimento
Palavra chave
Marca
Objetivo
Procedência
Impacto da pesquisa
Resumen
ISBN
DOI
Citação
SANTOS, P. R. Seleção de variáveis para regressão logística em um exemplo de segurança e frequência alimentar. 2020. 59 p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária )–Universidade Federal de Lavras, Lavras, 2020.
