Análise comparativa entre modelos de regressão distribucional e os principais algoritmos de aprendizado de máquina na predição de dados meteorológicos
Carregando...
Arquivos
Notas
Data
Autores
Orientadores
Coorientadores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal de Lavras
Faculdade, Instituto ou Escola
Departamento
Departamento de Estatística
Programa de Pós-Graduação
Programa de Pós-Graduação em Estatística e Experimentação Agropecuária
Agência de fomento
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Tipo de impacto
Áreas Temáticas da Extenção
Objetivos de Desenvolvimento Sustentável
Dados abertos
Resumo
Os modelos de regressão univariados remotam ao século XIX e visam compreender como um
conjunto de variáveis explicativas influencia ou explica uma variável resposta. Embora seja
comum encontrar trabalhos que comparem metodologias flexíveis de aprendizado de máquina
com modelos de regressão convencionais, essa comparação pode não ser adequada, devido às
pressuposições rigorosas e a restrição de flexibilidade dos modelos de regressão usuais. Assim,
esta dissertação propõe verificar e comparar o desempenho dos modelos de regressão distribucional, inicialmente propostos como modelos aditivos generalizados para locação, escala e
forma (GAMLSS), que são uma abordagem mais moderna e flexível, com outros algoritmos de
aprendizado de máquina comumente empregados na literatura, a saber: random forest, support
vector regression, extreme gradient boosting e prophet, para conjuntos de dados meteorológicos. Em um primeiro artigo, já publicado em um periódico, foi destacada a necessidade de
utilizar os GAMLSS na modelagem da temperatura média diária em um período de um ano na
cidade de Florianópolis – SC. Esse estudo mostrou que modelos de regressão menos complexos
não seriam adequados para explicar completamente a resposta, devido às diferentes estruturas
de regressão construídas na sua distribuição. No segundo artigo, comparamos a performance
preditiva dos GAMLSS com os quatro outros algoritmos de machine learning mencionados.
Utilizamos dados provenientes de uma estação meteorológica automática na cidade de Florianópolis – SC, coletados ao longo de 10 anos (de 30 de março de 2013 a 28 de março de 2023).
Os GAMLSS baseados na distribuição Box-Cox t apresentaram resultados mais satisfatórios na
maioria das métricas utilizadas para a comparação dos modelos ajustados, provando ser uma
alternativa interessante e robusta para o ajuste e predição de dados meteorológicos.
Abstract
Univariate regression models date back to the 19th century and aim to comprehend how a set
of explanatory variables influences or explains a response variable. While it is common to
encounter papers comparing flexible machine learning methodologies with conventional regression models, such a comparison may not be suitable due to the stringent assumptions and
limited flexibility of typical regression models. Therefore, this dissertation proposes to assess and compare the performance of distributional regression models, initially proposed as
generalised additive models for location, scale, and shape (GAMLSS), which represent a more
modern and flexible approach, with other commonly employed machine learning algorithms in
the literature, namely: random forest, support vector regression, extreme gradient boosting, and
prophet, for meteorological datasets. In our first article, already published in a journal, the need
to use GAMLSS in modelling daily average temperature over a one-year period in the city of
Florianópolis, Brazil, was emphasized. This study demonstrated that less complex regression
models would not be suitable for fully explaining the response due to the different regression
structures built into its distribution. In the second paper, we compare the predictive performance
of GAMLSS with the four other mentioned machine learning algorithms. We used data from
an automatic weather station in the city of Florianópolis, Brazil, collected over 10 years (from
30 March 2013 to 28 March 2023). GAMLSS based on the Box-Cox t distribution returned
more satisfactory results in most metrics used for comparing the fitted models, proving to be an
interesting and robust alternative for fitting and predicting meteorological data.
Descrição
Área de concentração
Agência de desenvolvimento
Palavra chave
Marca
Objetivo
Procedência
Impacto da pesquisa
Resumen
ISBN
DOI
Citação
SILVA, Viviane Costa. Análise comparativa entre modelos de regressão distribucional e os principais algoritmos de aprendizado de máquina na predição de dados meteorológicos. 2024. 91p. Dissertação (Mestrado em Estatística e Experimentação Agropecuária)–Universidade Federal de Lavras, Lavras, 2024.
Link externo
Avaliação
Revisão
Suplementado Por
Referenciado Por
Licença Creative Commons
Exceto quando indicado de outra forma, a licença deste item é descrita como Attribution-ShareAlike 4.0 International