Aprendizado de máquina para predição de brucelose bovina a partir de dados desbalanceados

Carregando...
Imagem de Miniatura

Notas

Editores

Coorientadores

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Federal de Lavras

Faculdade, Instituto ou Escola

Departamento

Escola de Engenharia – EENG

Programa de Pós-Graduação

Programa de Pós-Graduação em Engenharia de Sistemas e Automação

Agência de fomento

Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)

Tipo de impacto

Áreas Temáticas da Extenção

Objetivos de Desenvolvimento Sustentável

Dados abertos

Resumo

A expressividade da pecuária brasileira é inquestionável. Segundo dados da United States De- partment of Agriculture (USDA), em 2021 o Brasil foi o maior exportador mundial de carne bovina. A brucelose bovina é uma das doenças mais preocupantes para o setor. No Brasil, a brucelose bovina acarreta perdas anuais por volta de 448 milhões de dólares. A preocupação dos órgãos governamentais para controle e erradicação dessa zoonose é notável. Todavia, di- versos fatores ameaçam o estabelecimento de ações dos programas de defesa animal vigentes no Brasil, sendo os principais: animais infectados permanecem assintomáticos quando infec- tados, extensa área territorial brasileira e grande efetivo de rebanhos. Modelos de inteligência computacional como Aprendizado de Máquina (AM) podem ser grandes aliados dos serviços de vigilância sanitária e epidemiológica. Tanto do ponto de vista agropecuária quanto do ponto de vista de saúde única, considerando que a brucelose é uma zoonose, o desenvolvimento de abordagens AM para predição de brucelose possuem elevadíssimo potencial de benefício para a sociedade. A predição da brucelose bovina por meio de questionários aplicados a pecuaristas, em conjunto com outras ferramentas de diagnóstico, podem auxiliar na triagem de propriedades com riscos diferenciados para a doença. Esses benefícios são capazes de possibilitar que pro- gramas de defesa animal desempenham ações de forma muita mais célere, eficaz e econômica. O desempenho dos modelos de AM está diretamente ligado com a qualidade e características intrínsecas da base dados utilizada durante a fase de projeto ou treinamento do modelo. O de- sequilíbrio dos dados disponíveis para as classes, envolvidas em determinado problema, é um exemplo de característica da base de dados que exige tratamento diferenciado. Dessa forma, a depender das características da base de dados, diversas técnicas podem ser adotadas visando tirar melhor proveito das informações ali disponíveis. Nesse trabalho são comparados e ava- liados o desempenho de diversas abordagens de AM, combinadas com diferentes técnicas de balanceamento de classe, na predição de brucelose em rebanhos bovinos. Para criação das abor- dagens foram utilizados os dados do inquérito do serviço oficial de defesa sanitária animal do Estado de Minas Gerais (MAPA/IMA), de setembro de 2010 a dezembro de 2012. O banco de dados contou com registros de 2185 rebanhos, dentre eles, 2103 negativos e 82 positivos para brucelose. Os desempenhos das abordagens foram comparados utilizando diversas métricas re- comendadas para problemas envolvendo base de dados com forte desequilíbrio entre classes, sendo elas: Sensibilidade (ou Recall), Especificidade, Precisão (ou Valor Preditivo Positivo), F-measure, G-mean, e Index of Balanced Accuracy (IBA). As abordagens que melhor desem- penharam foram as One-Class Classification (OCC), as quais atingiram valores de G-mean e IBA próximos a 0,60 e 0,36, respectivamente. A princípio, o grande desafio do problema em questão foi o desequilíbrio entre classes da base de dados utilizada, contudo, os resultados poucos satisfatórios obtidos pelas abordagens de AM, instigaram a execução de uma análise exploratória dos dados. Durante a análise exploratória da base de dados, diversas características da base de dados evidenciaram um problema de alta complexidade a nível de reconhecimento de padrões. Os resultados aqui obtidos mostram que a aplicação de classificadores OCC são opções interessantes para lidar com base de dados que possuem desequilíbrio significativo entre classes e alta complexidade a nível de reconhecimento de padrões.

Abstract

The expressiveness of Brazilian livestock farming is unquestionable. According to data from the United States Department of Agriculture (USDA), in 2021 Brazil was the world’s largest exporter of beef. Bovine brucellosis is one of the most worrying diseases for the sector. In Brazil, bovine brucellosis causes annual losses of around 448 million dollars. The concern of government agencies to control and eradicate this zoonosis is notable. However, several factors threaten the establishment of actions of the animal defense programs in force in Brazil, the main ones being: infected animals remain asymptomatic when infected, extensive Brazilian territo- rial area and large herds. Computational intelligence models such as Machine Learning (ML) can be great allies of health surveillance and epidemiological services. From both an agricul- tural and a One Health perspective, considering that brucellosis is a zoonosis, the development of ML approaches for predicting brucellosis has a very high potential benefit for society. Pre- dicting bovine brucellosis through questionnaires administered to livestock farmers, together with other diagnostic tools, can help in screening properties with different risks for the disease. These benefits are capable of enabling animal defense programs to carry out actions much more quickly, effectively and economically. The performance of ML models is directly linked to the quality and intrinsic characteristics of the database used during the model design or training phase. The imbalance of data available for the classes involved in a given problem is an exam- ple of a database characteristic that requires different treatment. Therefore, depending on the characteristics of the database, different techniques can be adopted to make better use of the in- formation available there. In this work, the performance of different ML approaches, combined with different class balancing techniques, in predicting brucellosis in cattle herds is compared and evaluated. To create the approaches, data from the survey of the official animal health de- fense service of the State of Minas Gerais (MAPA/IMA), from September 2010 to December 2012, were used. The database included records of 2185 herds, including , 2103 negative and 82 positive for brucellosis. The performances of the approaches were compared using several metrics recommended for problems involving databases with strong imbalance between classes, namely: Recall, Specificity, Precision (or Positive Predictive Value), F-measure, G-mean, and Index of Balanced Accuracy (IBA). The approaches that performed best were the One-Class Classification (OCC), which achieved G-mean and IBA values close to 0.60 and 0.36, respecti- vely. Initially, the great challenge of the problem in question was the imbalance between classes in the database used, however, the unsatisfactory results obtained by ML approaches instigated the execution of an exploratory analysis of the data. During the exploratory analysis of the da- tabase, several characteristics of the database highlighted a highly complex problem in terms of pattern recognition. The results obtained here show that the application of OCC classifiers are interesting options for dealing with databases that have significant imbalance between classes and high complexity in terms of pattern recognition.

Descrição

Arquivo retido, a pedido do(a) autor(a), até novembro de 2025.

Área de concentração

Agência de desenvolvimento

Palavra chave

Marca

Objetivo

Procedência

Impacto da pesquisa

Resumen

ISBN

DOI

Citação

ALVES, Caio Donizetti Queiroz. Aprendizado de máquina para predição de brucelose bovina a partir de dados desbalanceados. 2024. 89 p. Dissertação (Engenharia de Sistemas e Automação) - Universidade Federal de Lavras, Lavras, 2024.

Link externo

Avaliação

Revisão

Suplementado Por

Referenciado Por

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como OpenAccess