Aprendizado de máquina para predição de brucelose bovina a partir de dados desbalanceados

Alves, Caio Donizetti Queiroz

Use este identificador para citar ou linkar para este item: http://repositorio.ufla.br/jspui/handle/1/59760

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Alves, Caio Donizetti Queiroz	-
dc.date.accessioned	2024-12-18T18:43:52Z	-
dc.date.available	2024-12-18T18:43:52Z	-
dc.date.issued	2024-12-18	-
dc.date.submitted	2024-01-30	-
dc.identifier.citation	ALVES, Caio Donizetti Queiroz. Aprendizado de máquina para predição de brucelose bovina a partir de dados desbalanceados. 2024. 89 p. Dissertação (Engenharia de Sistemas e Automação) - Universidade Federal de Lavras, Lavras, 2024.	pt_BR
dc.identifier.uri	http://repositorio.ufla.br/jspui/handle/1/59760	-
dc.description	Arquivo retido, a pedido do(a) autor(a), até novembro de 2025.	-
dc.description.abstract	The expressiveness of Brazilian livestock farming is unquestionable. According to data from the United States Department of Agriculture (USDA), in 2021 Brazil was the world’s largest exporter of beef. Bovine brucellosis is one of the most worrying diseases for the sector. In Brazil, bovine brucellosis causes annual losses of around 448 million dollars. The concern of government agencies to control and eradicate this zoonosis is notable. However, several factors threaten the establishment of actions of the animal defense programs in force in Brazil, the main ones being: infected animals remain asymptomatic when infected, extensive Brazilian territo- rial area and large herds. Computational intelligence models such as Machine Learning (ML) can be great allies of health surveillance and epidemiological services. From both an agricul- tural and a One Health perspective, considering that brucellosis is a zoonosis, the development of ML approaches for predicting brucellosis has a very high potential benefit for society. Pre- dicting bovine brucellosis through questionnaires administered to livestock farmers, together with other diagnostic tools, can help in screening properties with different risks for the disease. These benefits are capable of enabling animal defense programs to carry out actions much more quickly, effectively and economically. The performance of ML models is directly linked to the quality and intrinsic characteristics of the database used during the model design or training phase. The imbalance of data available for the classes involved in a given problem is an exam- ple of a database characteristic that requires different treatment. Therefore, depending on the characteristics of the database, different techniques can be adopted to make better use of the in- formation available there. In this work, the performance of different ML approaches, combined with different class balancing techniques, in predicting brucellosis in cattle herds is compared and evaluated. To create the approaches, data from the survey of the official animal health de- fense service of the State of Minas Gerais (MAPA/IMA), from September 2010 to December 2012, were used. The database included records of 2185 herds, including , 2103 negative and 82 positive for brucellosis. The performances of the approaches were compared using several metrics recommended for problems involving databases with strong imbalance between classes, namely: Recall, Specificity, Precision (or Positive Predictive Value), F-measure, G-mean, and Index of Balanced Accuracy (IBA). The approaches that performed best were the One-Class Classification (OCC), which achieved G-mean and IBA values close to 0.60 and 0.36, respecti- vely. Initially, the great challenge of the problem in question was the imbalance between classes in the database used, however, the unsatisfactory results obtained by ML approaches instigated the execution of an exploratory analysis of the data. During the exploratory analysis of the da- tabase, several characteristics of the database highlighted a highly complex problem in terms of pattern recognition. The results obtained here show that the application of OCC classifiers are interesting options for dealing with databases that have significant imbalance between classes and high complexity in terms of pattern recognition.	pt_BR
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Lavras	pt_BR
dc.rights	restrictAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc/4.0/	*
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Brucelose	pt_BR
dc.subject	Análise de dados	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Brucellosis	pt_BR
dc.subject	Data analysis	pt_BR
dc.subject	Balanceamento de classes	pt_BR
dc.subject	Class balancing	pt_BR
dc.title	Aprendizado de máquina para predição de brucelose bovina a partir de dados desbalanceados	pt_BR
dc.title.alternative	Machine learning to predict bovine brucellosis from unbalanced data	pt_BR
dc.type	dissertação	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia de Sistemas e Automação	pt_BR
dc.publisher.initials	UFLA	pt_BR
dc.publisher.country	brasil	pt_BR
dc.contributor.advisor1	Ferreira, Danton Diego	-
dc.contributor.advisor-co1	Rocha, Christiane Maria Barcellos Magalhães da	-
dc.contributor.referee1	Ferreira, Danton Diego	-
dc.contributor.referee2	Rocha, Christiane Maria Barcellos Magalhães da	-
dc.contributor.referee3	Barbosa, Bruno Henrique Groenner	-
dc.contributor.referee4	Dorneles, Elaine Maria Seles	-
dc.contributor.referee5	Tonelli, Adriano Olímpio	-
dc.description.resumo	A expressividade da pecuária brasileira é inquestionável. Segundo dados da United States De- partment of Agriculture (USDA), em 2021 o Brasil foi o maior exportador mundial de carne bovina. A brucelose bovina é uma das doenças mais preocupantes para o setor. No Brasil, a brucelose bovina acarreta perdas anuais por volta de 448 milhões de dólares. A preocupação dos órgãos governamentais para controle e erradicação dessa zoonose é notável. Todavia, di- versos fatores ameaçam o estabelecimento de ações dos programas de defesa animal vigentes no Brasil, sendo os principais: animais infectados permanecem assintomáticos quando infec- tados, extensa área territorial brasileira e grande efetivo de rebanhos. Modelos de inteligência computacional como Aprendizado de Máquina (AM) podem ser grandes aliados dos serviços de vigilância sanitária e epidemiológica. Tanto do ponto de vista agropecuária quanto do ponto de vista de saúde única, considerando que a brucelose é uma zoonose, o desenvolvimento de abordagens AM para predição de brucelose possuem elevadíssimo potencial de benefício para a sociedade. A predição da brucelose bovina por meio de questionários aplicados a pecuaristas, em conjunto com outras ferramentas de diagnóstico, podem auxiliar na triagem de propriedades com riscos diferenciados para a doença. Esses benefícios são capazes de possibilitar que pro- gramas de defesa animal desempenham ações de forma muita mais célere, eficaz e econômica. O desempenho dos modelos de AM está diretamente ligado com a qualidade e características intrínsecas da base dados utilizada durante a fase de projeto ou treinamento do modelo. O de- sequilíbrio dos dados disponíveis para as classes, envolvidas em determinado problema, é um exemplo de característica da base de dados que exige tratamento diferenciado. Dessa forma, a depender das características da base de dados, diversas técnicas podem ser adotadas visando tirar melhor proveito das informações ali disponíveis. Nesse trabalho são comparados e ava- liados o desempenho de diversas abordagens de AM, combinadas com diferentes técnicas de balanceamento de classe, na predição de brucelose em rebanhos bovinos. Para criação das abor- dagens foram utilizados os dados do inquérito do serviço oficial de defesa sanitária animal do Estado de Minas Gerais (MAPA/IMA), de setembro de 2010 a dezembro de 2012. O banco de dados contou com registros de 2185 rebanhos, dentre eles, 2103 negativos e 82 positivos para brucelose. Os desempenhos das abordagens foram comparados utilizando diversas métricas re- comendadas para problemas envolvendo base de dados com forte desequilíbrio entre classes, sendo elas: Sensibilidade (ou Recall), Especificidade, Precisão (ou Valor Preditivo Positivo), F-measure, G-mean, e Index of Balanced Accuracy (IBA). As abordagens que melhor desem- penharam foram as One-Class Classification (OCC), as quais atingiram valores de G-mean e IBA próximos a 0,60 e 0,36, respectivamente. A princípio, o grande desafio do problema em questão foi o desequilíbrio entre classes da base de dados utilizada, contudo, os resultados poucos satisfatórios obtidos pelas abordagens de AM, instigaram a execução de uma análise exploratória dos dados. Durante a análise exploratória da base de dados, diversas características da base de dados evidenciaram um problema de alta complexidade a nível de reconhecimento de padrões. Os resultados aqui obtidos mostram que a aplicação de classificadores OCC são opções interessantes para lidar com base de dados que possuem desequilíbrio significativo entre classes e alta complexidade a nível de reconhecimento de padrões.	pt_BR
dc.publisher.department	Escola de Engenharia – EENG	pt_BR
dc.subject.cnpq	Ciência da Computação	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/3430680947801281	pt_BR
Aparece nas coleções:	Engenharia de Sistemas e automação (Dissertações)

Arquivos associados a este item:

Não existem arquivos associados a este item.

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons