Buscar

 

RI UFLA (Universidade Federal de Lavras) >
DEX - Departamento de Ciências Exatas >
DEX - Programa de Pós-graduação >
DEX - Estatística e Experimentação Agropecuária - Doutorado (Teses) >

Por favor, utilize esse identificador para citar este item ou usar como link: http://repositorio.ufla.br/jspui/handle/1/4873

Título: Torneios entre marcadores como forma de enriquecer predições genéticas
Título Alternativo: Tournaments between markers as a strategy to enhance genomic predictions
Autor(es): Ferreira Filho, Diógenes
Orientador: Bueno Filho, Júlio Sílvio de Sousa
Membro da banca: Ferreira, Daniel Furtado
Nogueira, Denismar Alves
Muniz, Joel Augusto
Higa, Roberto Hiroshi
Área de concentração: Estatística e Experimentação Agropecuária
Assunto: Torneio
Lasso Bayesiano
GWAS
GWS
SNPs
Tournaments
Bayesian Lasso
Data de Defesa: 14-Ago-2014
Data de publicação: 12-Jan-2015
Agência de Fomento: Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG)
Referência: FERREIRA FILHO, D. Torneios entre marcadores como forma de enriquecer predições genéticas. 2014. 121 p. Tese (Doutorado em Estatística e Experimentação Agropecuária) - Universidade Federal de Lavras, Lavras, 2014.
Resumo: Em estudos de associação genômica ampla (GWAS) e seleção genômica ampla (GWS) há dois problemas metodológicos que limitam a análise estatística: alta dimensionalidade (𝑛≪𝑝) e multicolinearidade. Neste trabalho, foi revisitada uma estratégia de organização de torneios entre amostras aleatórias de marcadores, em que cada amostra tem boas propriedades estatísticas para estimação (𝑛>𝑝). Tais torneios são elaborados de modo a eliminar marcadores mais lentamente, usando regressão linear múltipla, adaptando sugestões anteriores encontradas na literatura. Isto não apenas contorna o problema 𝑛≪𝑝, mas também minimiza associações espúrias. Outra possível melhoria foi investigada, e se baseia em formar os grupos com marcadores tomados de diferentes cromossomos para minimizar a colinearidade dentro de grupos. Foram comparadas as estratégias em ambos os estudos com dados simulados e reais. A simulação foi realizada com genótipos reais, os quais foram, posteriormente, analisados com fenótipos reais. Os dados são provenientes de um estudo de SNPs em gado de corte (384 animais da raça Canchin genotipados para 526.493 SNPs e fenotipados para área de olho de lombo). Foram utilizadas, como critério de comparação, a capacidade de selecionar SNPs próximos do efeito simulado, as capacidades de predição genotípica e fenotípica, e também uma validação cruzada para os dados reais. O Lasso Bayesiano (BL) foi utilizado como referência (estimando os efeitos de todos os marcadores para selecioná-los) e também para obter estimativas dos efeitos dos SNPs selecionados no final dos torneios. Na maioria das situações simuladas os torneios foram igualmente precisos e ligeiramente mais acurados que o BL. No entanto, quando se usou dados reais, os torneios (ambas as estratégias) superaram muito a acurácia de predição obtida pelo BL. Para fins de GWAS, ambas as estratégias de torneios tendem a selecionar os mesmos SNPs, de forma mais consistente que o BL, que tende a selecionar qualquer uma das segregações que representam o mesmo efeito. Reduzir a colinearidade mostrou-se uma boa estratégia, mesmo que posteriormente a análise seja feita com o BL. Entre as estratégias de torneios, a mais simples (grupos formados aleatoriamente) foi a melhor, produzindo o mesmo resultado e, em um tempo que foi uma fração das outras metodologias. Para os dados reais, os resultados são promissores. Ao selecionar 104 SNPs, a correlação entre GBVs preditos e fenótipos alcançou 90,32% no conjunto de validação, mostrando a eficiência dos torneios na identificação de SNPs relevantes (ou segregações) para GWS. O código R para melhores benefícios da estratégia de torneios por meio de programação paralela simples é disponibilizado.
In genome-wide association studies (GWAS) and genome-wide selection (GWS) there are two methodological issues that restrict statistical analysis: high dimensionality (𝑛≪𝑝) and multicollinearity. In this work, we revisit an organization strategy of tournaments between random marker samples, in which each sample presents good statistical properties for estimation (𝑛>𝑝). Such tournaments are elaborated in such a way to eliminate markers more slowly, using multiple linear regression, adapting previous suggestions found in literature. This not only circumvents the 𝑛≪𝑝 problem but also minimizes spurious associations. Another possible improvement was investigated, and is based on forming groups with markers taken from different chromosomes to minimize within group collinearity. The strategies were compared in both studies using simulated and real data. The simulation was performed with real genotypes, which were, subsequently, analyzed with real phenotypes. The data are derived from a study with SNPs in beef cattle (384 animals of the Canchim breed, genotyped for 526,493 SNPs and phenotyped for the loin eye area). As comparison criteria, we used the capacity of selecting SNPs near the simulated effect, the genotype and phenotype prediction capabilities, and also an cross validation for the real data. The Bayesian Lasso (BL) was used as reference (estimating the effects of all markers to select them) and also to obtain estimates of the effects of the SNPs selected at the end of the tournaments. In most simulated situations, the tournaments were equally precise and a slightly more accurate than the BL. However, when real data was used, the tournaments (both strategies) far overcomes the prediction accuracy obtained by the BL. For GWAS purposes, both tournament strategies tend to select the same SNPs, and clearly overcomes the BL, which tends to select any of the segregations that represent the same effect. Reducing collinearity showed to be a good strategy, even if later the analysis be performed with the BL. Among the tournament strategies, the simpler (groups randomly formed) was the best overall, producing the same result and, in time that was a fraction of the other methodologies. For real data, the results are promising. When selecting 104 SNPs, the correlation between predicted GBVs and phenotypes reached 90.32% in the validation set, showing the efficiency of the tournaments in identifying relevant SNPs (or segregations) for GWS. The R code for better benefits tournaments strategy by simple parallel programming is available.
Informações adicionais: Tese apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Estatística e Experimentação Agropecuária, área de concentração em Estatística e Experimentação Agropecuária, para a obtenção do título de Doutor.
URI: http://repositorio.ufla.br/jspui/handle/1/4873
Publicador: UNIVERSIDADE FEDERAL DE LAVRAS
Idioma: pt_BR
Aparece nas coleções: DEX - Estatística e Experimentação Agropecuária - Doutorado (Teses)

Arquivos neste Item:

Arquivo Descrição TamanhoFormato
TESE_Torneios entre marcadores como forma de enriquecer predições genéticas.pdf2,2 MBAdobe PDFVer/abrir

Itens protegidos por copyright, com todos os direitos reservados, Salvo indicação em contrário.


Mostrar estatísticas

 


DSpace Software Copyright © 2002-2007 MIT and Hewlett-Packard - Feedback