Please use this identifier to cite or link to this item: http://repositorio.ufla.br/jspui/handle/1/39264
metadata.teses.dc.title: Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam
metadata.teses.dc.creator: Pouças, Ricardo de Paula
metadata.teses.dc.creator.Lattes: http://lattes.cnpq.br/7147492391957961
metadata.teses.dc.contributor.advisor1: Leite, Daniel Furtado
metadata.teses.dc.contributor.referee1: Gouvêa Junior, Maury Meirelles
metadata.teses.dc.contributor.referee2: Rodríguez, Demóstenes Zegarra
metadata.teses.dc.subject: Detecção de spam
Sistemas inteligentes evolutivos
Sistemas Fuzzy
Agrupamento incremental
Nuvem de dados
Spam detection
Evolving intelligent methods
Fuzzy systems
Incremental clustering
Data clouds
metadata.teses.dc.date.issued: 11-Feb-2020
metadata.teses.dc.identifier.citation: POUÇAS, R. de P. Modelos evolutivos baseados em grânulos e nuvens de dados para classificação online de spam. 2020. 101 p. Dissertação (Mestrado em Engenharia de Sistemas e Automação)-Universidade Federal de Lavras, Lavras, 2017.
metadata.teses.dc.description.resumo: Enviar e receber e-mails tem se tornado um problema devido ao fato de que pessoas malintencionadas utilizam essa ferramenta para disseminar códigos maliciosos com o objetivo de infectar computadores ou roubar informação. O ato de enviar e-mails sem a permissão do usuário é denominado spam. Existem várias técnicas para disseminação de spam. Elas são baseadas no conteúdo da mensagem ou em alguma fragilidade do sistema classificador que tenta interceptar mensagens. Sistemas classificadores capazes de se auto adaptar continuamente conforme a necessidade são raros. A necessidade de adaptação se dá visto às características variáveis de spams como consequência do uso de diversas técnicas de mascaramento de mensagem. Além disso, modelos classificadores que lidam com grandes volumes de dados utilizando o menor custo computacional possível são interessantes. Sistemas Inteligentes Evolutivos são capazes de se adaptar parametricamente e estruturalmente frente às mudanças em um fluxo de dados extraído de e-mails. Neste trabalho foi utilizado o método TEDA (Typicality and Eccentricity based Data Analytics) e o método FBeM (Fuzzy Set-Based Evolving Modeling) para classificação de spam online de forma não supervisionada. TEDA é um método que se baseia nos conceitos de nuvem de dados, excentricidade e tipicidade. A ideia é que nuvens TEDA não têm um formato geométrico específico, como clusters convencionais. FBeM usa objetos fuzzy granulares para sumarizar a informação extraída de um fluxo. FBeM é baseado no conceito de cobertura (granulação) do espaço dos dados. Suas regras são interpretáveis linguisticamente; elas são úteis para auxílio à tomada de decisão. Os métodos TEDA e FBEM são comparados em termos do erro de classificação, custo computacional e parcimônia. Para redução de dimensionalidade foi utilizado o algoritmo ACO (Ant Colony Optimization). ACO se trata de um algoritmo inspirado na inteligência do comportamento de formigas. O problema de seleção de variáveis é representado em um grafo, onde um caminho ótimo minimiza uma função objetivo e sugere variáveis mais discriminativas de e-mails spam. Uma base de dados contendo 25745 amostras, sendo 7830 spams e 17915 e-mails legítimos, foi criada. Cada amostra é descrita por 711 variáveis extraídas de um servidor de e-mails.
metadata.teses.dc.description.abstract: Sending and receiving e-mails has become a concern since people use such tool to disseminate malicious code aiming to damage a computer system or steal information. The act of sending a message without user permission is called spam. There exist several techniques to disseminate spams. They are based on the content of the message or in some weakness of the classification system, which intercepts messages. Classification systems able to self-adapt over time are rare. Adaptation is needed because spams vary over time as consequence of the application of several message-masking techniques. Moreover, classification models that handle large volumes of data using low computational resource are interesting. Evolving Intelligent Systems are able to adapt their parameters and structure in view of the changes in a stream of data extracted from e-mails. This work uses TEDA (Typicality and Eccentricity based Data Analytics) and FBeM (Fuzzy Set-Based Evolving Modeling) for online unsupervised classification of spams. TEDA is based on the concepts of data clouds, eccentricity and typicality. The idea is that TEDA clouds do not have a specific geometric shape such as conventional clusters. FBeM uses fuzzy granular objects to summarize information extracted from a data stream. FBeM is based on the concept of coverage (granulation) of the data space. Its rules are linguistically interpretable; they are useful to help decision making. TEDA and FBeM are compared in the sense of classification error, processing speed and parsimony. For dimensionality reduction, ACO (Ant Colony Optimization) is employed. ACO is inspired on intelligent behavior of ants. The feature selection problem is represented as a graph, where the optimum path minimizes an objective function and suggests the most discriminate features for spam classification. A dataset containing 25745 samples, being 7830 spams and 17915 legitimate e-mails, was created. 711 features extracted from an e-mail server describe each sample.
metadata.teses.dc.identifier.uri: http://repositorio.ufla.br/jspui/handle/1/39264
metadata.teses.dc.publisher: Universidade Federal de Lavras
metadata.teses.dc.language: por
Appears in Collections:DEG - Engenharia de Sistemas e Automação - Mestrado (Dissertações)



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.