Please use this identifier to cite or link to this item: http://repositorio.ufla.br/jspui/handle/1/5238
metadata.teses.dc.title: Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais
metadata.teses.dc.creator: Paiva, Jônatas Lopes de
metadata.teses.dc.contributor.advisor1: Castro, Cristiano Leite de
metadata.teses.dc.contributor.referee1: Esmin, Ahmed Ali Abdalla
Cardoso, Patrícia Gomes
metadata.teses.dc.subject: Classificação de proteínas
Codificação de proteínas
Redes neurais artificiais
Clustering
Bioinformática
Protein classification
Protein coding
Artificial neural networks
Clustering
Bioinformatics
metadata.teses.dc.date.issued: 17-Mar-2015
metadata.teses.dc.identifier.citation: PAIVA, J. L. de. Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais. 2010. 44 p. Monografia (Graduação em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2010.
metadata.teses.dc.description.resumo: Este trabalho propõe a construção de um classificador para as proteínas do banco de dados público COG (Clusters of Orthologous Groups). O classificador é construído utilizando redes neurais artificiais (RNA). O grande problema deste método é que RNAs aceitam entradas de tamanho único, e as proteínas do COG possuem tamanhos variados, por este motivo as proteínas precisam ser codificadas, e a codificação utilizada neste trabalho é a Sequence Coding By Sliding Window (SCSW), que se utiliza de janelas deslizantes e gera vetores de tamanho único para qualquer entrada. O empecilho desta codificação é o fato de que os vetores gerados podem ser ambíguos, fazendo com que sequências diferentes gerem vetores iguais, por este motivo um tamanho ideal para a janela deslizante deve ser encontrado. Com a codificação pronta, os conjuntos de dados para treinamento e validação da RNA devem ser selecionados, essa seleção deve ser feita porque os dados obtidos do COG possuem dimensionalidade muito grande, o que torna uma seleção de dados necessária. A seleção é feita utilizando o método Fuzzy c-means, que seleciona os pontos e cria os conjuntos para a criação da RNA. Ao final, os resultados obtidos com a RNA no conjunto de validação são comparados aos resultados esperados, com esses resultados o índice de acerto da rede é calculado.
metadata.teses.dc.description.abstract: This work proposes the construction of a protein classifier for the public database COG (Clusters of Orthologous groups). The classifier is built using artificial neural networks (ANN). The major problem with this method is that ANNs accept only single sizes inputs, and the proteins in COG can have many different sizes, because of that the proteins need to be coded, and the coding method used in this work is the Sequence Coding By Sliding Window (SCSW), which uses sliding windows and generates unique size vectors for any entry. The downside with this coding is that the vectors generated can be ambiguous, causing different sequences to generate equal vectors, to avoid that an ideal size for the sliding window must be found. With the encoding ready the datasets for training and validation of ANN must be selected, this selection must be done because the data obtained from COG are too large; and this makes a selection of data required. The selection is done using the Fuzzy c-means method; it selects the points and creates sets for the creation of ANN. In the end, the results obtained with the ANN in the validation set are compared with the expected results, with these results the hit rate of the network is calculated.
metadata.teses.dc.identifier.uri: http://repositorio.ufla.br/jspui/handle/1/5238
metadata.teses.dc.language: pt_BR
Appears in Collections:PROGRAD - Ciência da Computação (Trabalhos de Conclusão de Curso)



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.