THALLITON LUIZ CARVALHO DA SILVA FENÔMICA E INTEGRAÇÃO DE TRANSCRITÔMICA E METABOLÔMICA NA ANÁLISE DAS RESPOSTAS DE Gliricidia sepium (JACQ.) STEUD. E Portulaca oleracea L. AO ESTRESSE SALINO LAVRAS – MG 2021 THALLITON LUIZ CARVALHO DA SILVA FENÔMICA E INTEGRAÇÃO DE TRANSCRITÔMICA E METABOLÔMICA NA ANÁLISE DAS RESPOSTAS DE Gliricidia sepium (JACQ.) STEUD. E Portulaca oleracea L. AO ESTRESSE SALINO Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Biotecnologia Vegetal, área de concentração em Biotecnologia Vegetal, para a obtenção do título de Mestre. Prof. Dr. Manoel Teixeira Souza Junior Orientador Dr. Leonardo Fonseca Valadares Coorientador LAVRAS – MG 2021 Ficha catalográfica elaborada pelo Sistema de Geração de Ficha Catalográfica da Biblioteca Universitária da UFLA, com dados informados pelo(a) próprio(a) autor(a). Silva, Thalliton Luiz Carvalho da. Fenômica e integração de transcritômica e metabolômica na análise das respostas de Gliricidia sepium (Jacq.) Steud. E Portulaca oleracea L. ao estresse salino / Thalliton Luiz Carvalho da Silva. - 2021. 143 p. : il. Orientador(a): Manoel Teixeira Souza Junior. Coorientador(a): Leonardo Fonseca Valadares. Dissertação (mestrado acadêmico) - Universidade Federal de Lavras, 2021. Bibliografia. 1. Multi-ômica. 2. Salinidade. 3. Estresse Abiótico. I. Junior, Manoel Teixeira Souza. II. Valadares, Leonardo Fonseca. O conteúdo desta obra é de responsabilidade do(a) autor(a) e de seu orientador(a). THALLITON LUIZ CARVALHO DA SILVA FENÔMICA E INTEGRAÇÃO DE TRANSCRITÔMICA E METABOLÔMICA NA ANÁLISE DAS RESPOSTAS DE Gliricidia sepium (JACQ.) STEUD. E Portulaca oleracea L. AO ESTRESSE SALINO PHENOMICS AND INTEGRATION OF TRANSCRIPTOMICS AND METABOLOMICS FOR ANALYSIS OF THE RESPONSES OF Gliricidia sepium (JACQ.) STEUD. AND Portulaca oleracea L. TO SALINITY STRESS Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Biotecnologia Vegetal, área de concentração em Biotecnologia Vegetal, para a obtenção do título de Mestre. APROVADA em 04 de agosto de 2021. Dr. Manoel Teixeira Souza Júnior EMBRAPA - Agroenergia Dr. Leonardo Fonseca Valadares EMBRAPA - Agroenergia Dr. Carlos Antônio Ferreira de Sousa EMBRAPA - Meio-Norte Dra. Vivianny Nayse Belo Silva EMBRAPA - Agroenergia Prof. Dr. Manoel Teixeira Souza Junior Orientador Dr. Leonardo Fonseca Valadares Coorientador LAVRAS – MG 2021 Dedico este a todos que, direta ou indiretamente, participaram de minha vida e trouxeram consigo confiança, apoio e auxílio. AGRADECIMENTOS Agradeço primeiramente a Deus, pela vida, saúde e capacidade que tem me dado dia após dia para seguir meus caminhos e meu sonho. Aos meus pais, Luiz e Adriana, que tanto tem me auxiliado, me apoiado e dado minha base de vida, minha educação e meus princípios. A minha irmã e meu cunhado, Samille e Dailson, que em todos os momentos se dispõem prontamente para auxiliar no que for preciso. Ao Manoel, por me orientar e por toda a paciência que teve comigo ao longo desses anos. Por me ensinar e me treinar em tudo o que fosse preciso. Ao Leonardo, por todo o treinamento, paciência e por ter me dado oportunidades únicas e inesquecíveis (como trabalhar com a impressora 3D). A toda equipe do grupo “Sal da Terra” pelos ensinamentos, risadas e ajuda em todos os momentos. A todos os meus amigos, e todas as demais pessoas, que por descuido não lembrei no momento, mas que estão e estiveram presentes em minha vida e me ajudaram em algum momento. A todos estes acima por toda a paciência no qual tiveram comigo, por todos os conselhos, palavras de carinho e, também, pelos “puxões de orelha” quando precisei. A Universidade Federal de Lavras (UFLA) e a EMBRAPA Agroenergia pela oportunidade de realização deste mestrado. O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior – Brasil (CAPES) – Código de Financiamento 001 A todos citados, meu mais sincero, muito obrigado! “Acredite que você pode, e já terá percorrido metade do caminho!” Theodore Roosevelt RESUMO GERAL A salinidade do solo é um dos estresses abióticos que mais ameaçam a agricultura. Este estresse está presente em mais de 100 países ao redor do mundo. Devido a estimativa de um aumento populacional mundial para cerca de 9 bilhões de pessoas em 2050 e, consequentemente, um aumento da demanda por produtos agrícolas, a pressão para a utilização dessas áreas tem aumentado. O objetivo geral do presente estudo foi aplicar estratégias de análise individual e integrada de dados ômicos provenientes de transcritômica e metabolômica visando ganhar conhecimento sobre os mecanismos moleculares responsáveis pela tolerância à salinidade observada em Gliricidia sepium e Portulaca oleracea. Para tal, foram utilizados dados do banco de dados “Sal da Terra”, pertencentes ao programa de PD&I de mesmo nome desenvolvido na Embrapa Agroenergia, que contempla dados de fenômica, ionômica, genômica, transcritômica (mRNA e microRNA), metabolômica e proteômica caracterizando a resposta de dendê (Elaeis guineensis), beldroega (Portulaca oleracea) e gliricídia (Gliricidia sepium) ao estresse salino. As amostras do transcritoma foram submetidas a uma análise de RNA-Seq usando uma plataforma Illumina HiSeq e a estratégia “paired-end”, a análise dos dados foi feita com o software OmicsBox versão 1.3. As amostras de metaboloma foram analisadas em um sistema UHPLC equipado com uma coluna de fase reversa. A espectrometria de massa de alta resolução (HRMS) foi realizada em um analisador Q-TOF usando fonte de eletrospray em ESI (+) - MS e ESI (-) - MS. Os dados adquiridos foram pré-processados usando o XCMS Online e posteriormente exportados para o MetaboAnalyst para análises estatísticas, anotação e observação das vias metabólicas. A plataforma Omics Fusion, foi utilizada para realizar a análise integrativa entre transcritos e metabólitos. Os resultados alcançados permitiram correlacionar e diferenciar grupos de plantas submetidas ao estresse salino, revelando genes / transcritos, metabólitos e vias responsivas a este estresse tanto em gliricídia, quanto em beldroega. Palavras-chave: Multi-ômica. Salinidade. Estresse Abiótico GENERAL ABSTRACT Soil salinity is one of the abiotic stresses that most threaten agriculture. This stress is present in over 100 countries around the world. Due to an estimated global population increase to around 9 billion people in 2050, and the consequent increase in the demand for agricultural products, the pressure to use these areas has increased. The general objective of the present study was to apply single and integrated analysis strategies of omics data from transcriptomics and metabolomics to gain knowledge about the molecular mechanisms responsible for the salinity tolerance observed in Gliricidia sepium and Portulaca oleracea. To this end, data from the "Sal da Terra" database, belonging to the RD&I program of the same name developed at Embrapa Agroenergia, was used, which includes phenomic, ionomic, genomic, transcriptomic (mRNA and microRNA), metabolomic and proteomic data featuring the response of oil palm (Elaeis guineensis), purslane (Portulaca oleracea) and gliricidia (Gliricidia sepium) to salt stress. The transcriptome samples were submitted to an RNA-Seq analysis using an Illumina HiSeq platform using the paired-end strategy and the data analysis with the OmicsBox software version 1.3. Metabolome samples were analyzed on a UHPLC system equipped with a reversed- phase column. High-resolution mass spectrometry (HRMS) was performed on a Q-TOF analyzer using an electrospray source in ESI (+) - MS and ESI (-) - MS. The acquired data was pre-processed using XCMS Online and later exported to MetaboAnalyst for statistical analysis, annotation, and observation of metabolic pathways. The Omics Fusion platform was used to perform the integrative analysis between transcripts and metabolites. The results have allowed us to correlate and differentiate groups of plants subjected to salt stress, revealing genes/transcripts, metabolites, and responsive pathways to this stress, both in gliricidia and purslane. General Keywords: Multi-omics. Salinity. Abiotic Stress SUMÁRIO PRIMEIRA PARTE .............................................................................................................. 12 CAPÍTULO 1 ......................................................................................................................... 12 1 INTRODUÇÃO GERAL ........................................................................................... 12 2 REVISÃO DE LITERATURA .................................................................................. 13 2.1 Uso de estratégias de “Multi-omics Integration” (MOI) para caracterizar as respostas de plantas ao estresse salino ..................................................................... 13 2.2 Fluxo da informação genética e Biologia de Sistemas ............................................. 17 2.2.1 Genômica ..................................................................................................................... 19 2.2.2 Transcritômica ............................................................................................................ 19 2.2.3 Proteômica ................................................................................................................... 20 2.2.4 Metabolômica .............................................................................................................. 21 2.3 Integração Multi-ômica (MOI) ................................................................................ 23 2.3.1 Estratégia legado: a integração conceitual ............................................................... 27 2.3.2 Integração multi-ômica nível 1 – baseada em elemento .......................................... 28 2.3.3 Integração multi-ômica nível 2 – baseada em vias metabólicas ............................. 28 2.3.4 Integração multi-ômica nível 3 – com base matemática ......................................... 29 2.4 Importância da salinidade e seus efeitos nas plantas ............................................. 30 2.4.1 O uso de MOI visando entender as respostas das plantas ao estresse salino ........ 31 3 Uso da estratégia de MOI para caracterização das respostas de Gliricidia sepium (JACQ.) STEUD. e Portulaca oleracea L. ao estresse salino ................................... 33 4 OBJETIVOS ................................................................................................................ 33 5 ORGANIZAÇÃO DA DISSERTAÇÃO ................................................................... 33 REFERÊNCIAS ..................................................................................................................... 34 SEGUNDA PARTE ............................................................................................................... 40 CAPÍTULO 2 .......................................................................................................................... 39 ARTIGO 1 - Integração de dados metabolômicos e transcritômicos para melhor caracterizar Gliricidia sepium (JACQ.) STEUD. sob estresse de alta salinidade.. 39 CAPÍTULO 3 .......................................................................................................................... 82 ARTIGO 2 - Análise multi-ômica das respostas de plantas jovens de Portulaca oleracea L. a altas doses de NaCl revelam percepções sobre as vias metabólicas e genes que respondem ao estresse salino nesta espécie halófita ............................... 82 TERCEIRA PARTE ............................................................................................................ 145 CONSIDERAÇÕES FINAIS ............................................................................................... 142 12 CAPÍTULO 1 1 INTRODUÇÃO GERAL Um dos problemas que mais afeta a atividade agrícola é a presença de sal nos solos, situação que aflige diversos países ao redor do mundo. Quando consideramos um contexto geral, cerca de 20% das terras agriculturáveis no mundo apresentam solos salinos e/ou sódicos. Olhando especificamente para as produções irrigadas, entre 25% e 30% dessas terras são afetadas pelo sal, não sendo produtivas em nível comercial (SHAHID et al., 2018). Solos salinos, do ponto de vista agrícola, são descritos como aqueles que contêm sais solúveis neutros em quantidade suficiente para afetar negativamente o crescimento da maioria das plantas cultivadas. A priori, são considerados salinos aqueles solos que apresentam condutividade elétrica (CE) do extrato de saturação do solo >4 dS/m a 25 °C. Porém, devido ao fato de muitas espécies frutíferas, olerícolas e ornamentais sofrerem com os efeitos adversos da salinidade já em um intervalo de 2 dS/m a 4 dS/m, os solos com CE >2 dS/m a 25 °C passaram a também ser considerados salinos (BRESLER et al., 1982; VARGAS et al., 2018). Existem dois grandes grupos de plantas, divididos com base em sua tolerância à salinidade: glicófitas e halófitas. Sendo que quase a totalidade (aproximadamente 99%) são glicófitas, plantas sensíveis ao sal, inclusive todas as principais culturas agrícolas. As halófitas são minoria (menos de 1%) e são capazes de completar seu ciclo de vida em ambiente onde a condutividade elétrica é maior ou igual a 20 dS/m (FLOWERS et al., 1986; FLOWERS; COLMER, 2008). Apesar de ser frequentemente vista como um problema para o setor agrícola, suscitando ações voltadas à prevenção ou à remediação nas áreas afetadas, a salinidade pode ser vista como uma oportunidade. No âmbito da agricultura biossalina, a produção de alimentos, de fibras e de bioenergia é feita através de plantas tolerantes ao estresse salino, utilizando áreas e águas marginais para o seu cultivo (FAO, 2009; BORSAI et al., 2018). No que diz respeito às espécies vegetais a serem utilizadas em um sistema de agricultura biossalina, existem duas possibilidades a serem exploradas: a) o uso de espécies glicófitas tolerantes à salinidade; e b) o uso de espécies halófitas. Essas duas possibilidades não são excludentes. 13 O objetivo do presente trabalho foi ganhar conhecimento sobre os mecanismos moleculares que conferem tolerância a salinidade em duas espécies previamente estudadas, beldroega (Portulaca oleracea L.) e gliricídia (Gliricidia sepium (Jacq.) Steud), utilizando estratégias de análise individuais e integradas (multi-ômica) de transcritômica e metabolômica. As análises foram feitas com base no banco de dados “Sal da Terra”, um banco de dados desenvolvido pelo PD&I de mesmo nome, que reúne informações de diversas ômicas. 2 REVISÃO DE LITERATURA 2.1 Uso de estratégias de “Multi-omics Integration” (MOI) para caracterizar as respostas de plantas ao estresse salino O projeto Genoma Humano (SCHMUTZ et al. 2004; NURK et al., 2021), concluído em 2003, pode ser considerado o marco que abriu as portas para o desenvolvimento da Biologia de Sistemas (IDEKER, 2004; VEENSTRA, 2021) e da Integração de Multi-ômicas (CAVILL et al., 2016, RAI et al., 2017). Foi a partir deste projeto que as ciências ômicas experimentaram um salto de magnitude na redução de custos e alavancagem operacional que contribuiu significativamente para sua popularização e consequente refinamento (GREEN et al., 2015). Para bem conceituar o termo “-ômica”, é necessário entender, primeiramente, o significado do sufixo “-oma”, do qual este se deriva. O sufixo “-oma” pode ser definido como “conjunto de”. Portanto, o termo genoma tem como significado o conjunto de genes. Tendo isso em mente, podemos compreender o termo “ômica” como “estudo do” (LEDERBERG; MCCRAY, 2001). Além da genômica, as principais ômicas são a transcritômica, proteômica e metabolômica, as quais podem ser definidas, respectivamente, como estudo do transcritoma, do conjunto de RNAs (mRNAs, miRNAs, lncRNAs, etc.) produzidos no organismo; estudo do proteoma, do conjunto de proteínas formadas no organismo; e estudo do metaboloma, do conjunto de metabólitos sintetizados no organismo (FIOCCHI, 2014). Os investimentos e esforços em massa feitos de forma global no final do século XX para alcançar a elucidação do genoma humano permitiram que diversas ômicas emergissem e se aprimorassem cada vez mais, de forma que a partir desse momento histórico a tecnologia e a biologia começaram a andar lado a lado. Avanços tecnológicos permitiram novas descobertas biológicas e limitações biológicas instigaram o aprimoramento da tecnologia, permitindo que cada vez mais houvesse uma redução nos custos de aquisição dos diferentes dados ômicos e que estes fossem robustos e de alto rendimento (VEENSTRA, 2021). Além de que, junto ao elo “tecnologia-biologia” formando as ômicas, surgiu também o elo “tecnologia da informação- 14 ômicas”, pois os grandes conjuntos de dados gerados não eram mais passiveis de serem analisados manualmente e, portanto, o processamento de computadores e o auxílio de softwares se tornaram parte fundamental dos estudos subsequentes, proporcionando o surgimento de um novo campo de estudo denominado bioinformática (BINNECK, 2004). As abordagens ômicas individuais são utilizadas para avaliar as respostas biológicas a um amplo espectro de estímulos, incluindo a salinidade (KUMAR et al., 2019). Porém, nesse tipo de estudo é isolado apenas um nível, de toda a complexidade biológica existente, para verificar sua resposta. Dessa maneira, a genômica pode identificar diversos genes que não necessariamente estão sendo expressos. Ao passo que a transcritômica pode identificar múltiplos transcritos expressos, mas não nos dá a certeza de quais desses verdadeiramente se traduzem em proteínas, devido a diversos fatores de silenciamento, modificações pós- transcricionais e pós-traducionais. Tendo em vista todas estas questões, desde a redução dos custos de aquisição dos dados junto ao alto rendimento dos mesmos até o advento da bioinformática para auxílio nas análises, a ciência biológica entrou na era da “Biologia de Big Data” (JAMIL et al., 2020). Isso levou a uma mudança de paradigma onde ocorreu uma transição da análise individual (single) para uma análise integrada correlacionando diferentes ômicas, como também a uma visão mais abrangente e robusta do sistema biológico (CAVILL et al., 2016). Nessa nova era, um conceito nada novo amadurece e se expande, a “multi-ômica”. Essa abordagem consiste na combinação de dois ou mais dados ômicos durante a análise, com a proposta de correlacionar os diversos dados e conseguir visualizar a resposta a um determinado estímulo de vários ângulos diferentes, tendo a bioinformática e trabalhos computacionais como principais coadjuvantes (CAVILL et al., 2016; JAMIL et al., 2020). Dessa maneira os cientistas conseguem encontrar novas associações entre os níveis biológicos. Há diversas variações relacionadas ao termo “multi-ômica”, tais como “poli-ômicas”, “integração de ômicas”, “trans-ômicas” e mais recentemente o surgimento do termo “Panômica” ou “Pan-ômica” para classificar todas as ômicas em uma mesma categoria (MISRA et al., 2019). Porém, tendo como base os artigos de revisão publicados nos últimos anos, o termo “multi-ômica” parece ser o mais correto e disseminado (CAVILL et al., 2016; JAMIL et al., 2020; MISRA et al., 2019; RAI et al., 2017; VEENSTRA, 2021). Quando realizamos uma busca pelo indexador de artigos PubMed, com os termos “multi-omics” e suas variações, são retornados cerca de 8.360 artigos, sendo os primeiros 15 publicados por volta de 2001 e o ano de 2020 sendo o que mais acumula artigos publicados com este tema, somando 1772 artigos (Figura 1). Quando adicionamos o termo “plant” à busca, o montante total cai para aproximadamente 13% do seu valor, somando 1.071 artigos, com o primeiro sendo publicado em 2002. Da mesma maneira, o ano de 2020 conta com a maior quantidade de artigos publicados sobre esse tema em plantas, acumulando 217 artigos (Figura 2). Isto mostra que a ideia de empregar a análise conjunta de diferentes ômicas para estudar um determinado fenômeno em plantas, ou em outros organismos, nasceu durante a execução do Projeto Genoma Humano, e não deixou de crescer desde então. No caso das plantas, uma das primeiras tentativas bem-sucedidas de integração de diferentes dados ômicos datam de 2003 (URBANCZYK-WOCHNIAK et al., 2003). 16 Figura 1 – Número de artigos científicos publicados no tema Multi-ômica até 2021. Busca pelo termo“multi-omics” e suas derivações no indexador de artigos PubMed. Fonte: Do autor, 2021 Figura 2 – Número de artigos científicos publicados no tema Multi-ômica em plantas. Busca pelo termo “multi-omics” e suas derivações no indexador de artigos PubMed. Fonte: Do autor, 2021 17 2.2 Fluxo da Informação Genética e Biologia de Sistemas Na biologia molecular, o alicerce clássico que explica o fluxo da informação, desde o DNA até as proteínas, é o dogma central, proposto pela primeira vez por Francis Crick (CRICK, 1970). Este dogma descreve a transferência sequencial de informações das células desde a replicação do DNA, a transcrição em RNA e a tradução em cadeias de aminoácidos que posteriormente formarão proteínas (Figura 3); ao passo que afirma, também, que essa informação não pode fluir a partir da proteína para os outros níveis ômicos anteriores. O aspecto geral dessas etapas descritas por Crick, não informando detalhes regulatórios complexos em etapas intermediárias entre os níveis ômicos, têm sido questionado e analisado por diversos autores (BUSTAMANTE et al., 2011; COSTA DOS SANTOS et al., 2021; PIRAS et al., 2012). Características regulatórias, como silenciamentos e modificações pós- transcricionais (splicing alternativo) e/ou pós-traducionais, eventos envolvendo miRNAs e modificações epigenéticas, possivelmente alteram o fluxo dessa informação (LUCO et al., 2011; KOONIN, 2012; PIRAS et al., 2012). Mesmo com essas questões, o caráter simplista e macroscópico que o dogma central traz, em um nível amplo das diferentes ômicas, tende a continuar sendo um alicerce teórico extremamente influente dos sistemas vivos (PIRAS et al., 2012). Figura 3 – Fluxo da informação genética sob o aspecto do estresse abiótico. Fonte: Traduzido e adaptado de Raza et al. (2021). 18 Em diversos artigos que dissertam sobre multi-ômica e suas estratégias, podemos também observar a utilização do termo “Biologia de Sistemas” em conjunto com o termo “Multi-ômica” (CAVILL et al., 2016; FONDI; LIÒ, 2015; JAMIL et al., 2020; PINU et al., 2019; RAI et al., 2017; RAI et al., 2019; VEENSTRA et al., 2021). Embora ocorram divergências entre os próprios pesquisadores que contribuem ativamente para o avanço em pesquisas no âmbito da biologia de sistemas, devido principalmente à juvenilidade do campo e ao seu caráter interdisciplinar (BREITLING, 2010; VEENSTRA, 2021), o conceito mais simples e purista do termo pode ser atribuído a Dr. Trey Ideker (2004), que considera a biologia de sistemas um ramo no qual utiliza informações e dados adquiridos sistematicamente, a partir de diversas e diferentes ômicas, de forma a construir modelos preditivos para doenças e sistemas biológicos complexos. Dessa maneira, a Biologia de Sistemas tem como objetivo a construção de modelos matemáticos bem projetados que prevejam, in silico, a mudança de um determinado organismo, no nível celular e molecular, quando este é perturbado ou está em um determinado meio (PINU et al., 2019). Já a multi-ômica tem um escopo mais extensivo, no qual o foco é compreender e correlacionar os diferentes níveis ômicos de forma a proporcionar à comunidade científica avanços no entendimento das regulações ômicas. Conforme veremos adiante, podemos dizer que o ramo da Biologia de Sistemas está representado e incluso na integração de ômicas (MOI - “Multi-omics Integration”) nível 3, proposto por Jamil et al., (2020), enquanto a multi-ômica em si é um campo mais amplo e engloba não somente a modelagem do sistema biológico, mas os insights e descobertas promovidas pela análise e combinação de análises de diversas ômicas de forma integrada. A multi-ômica compreende, portanto, uma análise global dos sistemas biológicos visando caracterizar grupos de moléculas em múltiplos níveis, sendo que as quatro grandes ômicas que ancoram estes diversos estudos são a genômica, transcritômica, proteômica e metabolômica (CAVILL et al., 2016; JAMIL et al., 2020). A partir destas, diversos outros campos de estudo surgiram, carregando consigo seus próprios termos ômicos, alguns exemplos são: epigenômica, focada nos estudos das alterações epigenéticas resultantes da metilação do genoma (MALDONADO et al., 2021); peptidômica, caracterizada por estudar particularmente pequenos peptídeos como venenos e toxinas (AMADO et al., 2010); e a interatômica, que visa estudar as redes de interação proteína- proteína (SEATH et al., 2021). 19 2.2.1 Genômica A genômica é a primeira grande ômica que ancora as principais ômicas estudadas, um campo que estuda a sequência completa de DNA, incluindo tanto os genes quanto as sequências intergênicas (BROWN, 2002). Embora o termo genoma remeta a “conjunto de genes”, a definição mais correta seria “toda a informação que é herdável codificada no DNA de um organismo”, dessa maneira é incluído tanto os genes quanto às regiões regulatórias e não- codificantes presentes na sequência de DNA (AIZAT et al., 2018). As plantas precisam se adaptar e tolerar as distintas mudanças no ambiente, que geram estresses bióticos e abióticos, para garantir sua sobrevivência e perpetuação. Essa capacidade de se moldar a diferentes condições é denominada plasticidade fenotípica e está intimamente relacionada ao genoma do organismo, que através da ativação de genes específicos permite a regulação fisiológica e adaptação às diversas condições atípicas que sobrevêm (STOTZ et al., 2021). Dessa maneira, o genoma do organismo é quem dita a resposta aos diferentes tratamentos e estresses. Portanto, a genômica visa não só verificar quais genes ou inferir quais proteínas estão presentes no organismo, mas verificar suas inter-relações e a influência no organismo, bem como descobrir e explorar a estrutura, função e a evolução dos diferentes genomas já sequenciados, além de realizar o sequenciamento de novas espécies (GUPPY et al., 2018; MISRA et al., 2019; SHENDURE et al., 2017). 2.2.2 Transcritômica A segunda grande ômica é a transcritômica. O termo transcritoma pode ser entendido como o conjunto completo de todas as moléculas de RNA expressas em um organismo (WOLF, 2013). A transcritômica se caracteriza, então, pelo estudo tanto qualitativo, quanto quantitativo, dos diversos transcritos de um organismo (MILWARD et al., 2016; LIANG, 2013). Os mais conhecidos são os mRNAs, tRNAs e rRNAs. Porém, diversos outros transcritos já foram identificados e estão sendo cada vez mais estudados, alguns exemplos são os microRNAs e lncRNAs (long non-coding RNAs) (NAGANO; FRASER, 2011). A transcritômica é fundamental devido ao seu papel como intermediário entre as informações contidas no DNA do organismo (genoma) e o proteoma, além das diversas funções regulatórias que os ncRNAs promovem (URANO et al., 2010). Da quantidade total de RNAs presentes em um organismo, cerca de 4% são traduzidos em proteínas, reafirmando a 20 importância desses RNAs não codantes na regulação dos processos fisiológicos do organismo (BROWN, 2002). Outro importante aspecto da transcritômica é o splicing alternativo, onde um mesmo gene pode dar origem a mRNAs diferentes dependendo da forma com que seus éxons são processados (PUCKER; BROCKINGTON, 2018). Em uma ordem padrão, os genes contêm, em sua sequência, partes denominadas íntrons (que não são codificantes) e partes denominadas éxons (codificantes). Primeiramente, toda a sequência do gene é transcrita em um pré-mRNA e após isso ocorre o splicing, em que as regiões contendo íntrons são removidas e os éxons são unidos de forma sequencial. O splicing alternativo é o evento em que diferentes íntrons e éxons (ou parte destes) são alternativamente incluídos ou removidos durante o processamento do mRNA formando, dessa maneira, diferentes mRNAs a partir de um mesmo gene (PUCKER; BROCKINGTON, 2018; SIBLEY et al., 2016). De acordo com Wang et al., (2009), podemos definir como principais objetivos da transcritômica: i) identificar e catalogar todos os tipos de transcritos; ii) determinar a estrutura da transcrição dos genes, bem como identificar seus padrões de splicing e outras modificações pós-transcricionais; iii) quantificar os níveis de expressão dos transcritos sob diferentes tratamentos e condições de crescimento, estádios de desenvolvimento e interferência de fatores bióticos e abióticos. 2.2.3 Proteômica De forma a compreender, ao todo, um organismo, não basta somente saber quais são as sequências de nucleotídeos do seu genoma, nem quais são os transcritos expressos e seus níveis de expressão, em um determinado momento. É necessário, além de tudo isso, saber quais são os produtos dessa expressão. A proteômica se caracteriza pelo estudo das diversas proteínas, incluindo sua identificação em larga escala, localização e compartimentalização, em um organismo (AEBERSOLD; MANN, 2003). As proteínas são moléculas orgânicas, de massa molecular elevada e estrutura complexa, formadas a partir de ligações covalentes entre os aminoácidos e têm diversas funções, como por exemplo, transporte de substâncias, catálise de reações, controle do metabolismo e componentes estruturais (ROBERTS, 2002). Diversas proteínas têm modificações pós-traducionais, como fosforilação, acetilação e glicosilação. Essas modificações regulam e realizam a manutenção da estrutura e função das proteínas (AEBERSOLD; MANN, 2016). 21 Tendo em vista esses aspectos, a proteômica nos permite visualizar o que ocorre no organismo provendo informações de eventos pós-transcricionais e pós-traducionais, além de que é o proteoma que especifica a natureza das reações bioquímicas que um organismo está capacitado a realizar. Dessa maneira, oferece a oportunidade de examinar as mudanças que ocorrem na produção e acúmulo das proteínas em processos complexos de desenvolvimento (BROWN, 2002). 2.2.4 Metabolômica Visando compreender ao máximo as respostas de um organismo a uma determinada condição, precisamos chegar o mais próximo possível da avaliação do fenótipo daquele organismo. De todas as ômicas moleculares, a metabolômica é o elo mais próximo ao fenótipo do organismo (COSTA DOS SANTOS et al., 2021). Esta compreende o produto final da expressão de um gene e dos processos fisiológicos; e as mudanças em suas concentrações podem descrever melhor o estado bioquímico do organismo do que alterações visualizadas em níveis transcritômicos ou proteômicos (PALSSON, 2009). Como último nível, das quatro grandes ômicas, temos a metabolômica, que consiste no estudo quantitativo e qualitativo de todos os metabólitos presentes em um organismo, em um determinado tempo e sob uma condição específica (FIEHN, 2001). Os metabólitos consistem em pequenas moléculas, com menos de 1.500 Da (DUNN et al., 2011). Estes metabólitos podem ser classificados em dois tipos principais: os metabólitos primários e secundários (KABERA et al., 2014). Os metabólitos primários se caracterizam por moléculas envolvidas nos processos e funções básicas de uma célula para sua sobrevivência, sendo estes compartilhados por basicamente todos os organismos vivos. Estes metabólitos estão envolvidos nas principais vias metabólicas de uma célula, desempenhando funções como respiração celular e biossíntese de aminoácidos (KABERA et al., 2014). Outro grupo bastante importante de metabólitos são os metabólitos secundários, estes são específicos para cada espécie (ou grupos próximos) e desempenham funções não vitais para a célula, mais ainda extremamente importantes para o organismo, como atrair polinizadores ou se defender contra pragas e doenças. De forma geral, nas plantas os metabólitos primários estão ligados ao seu crescimento e produção, enquanto os secundários estão ligados a características organolépticas (como sabor e cor) e de resistência a danos bióticos e abióticos (KABERA et al., 2014). 22 Os métodos de análise dos metabólitos (sejam eles primários ou secundários) se diferenciam em dois grupos: a metabolômica direcionada (do inglês, targeted metabolomics) (DUDLEY et al., 2010) e a metabolômica não-direcionada (do inglês, untargeted metabolomics) (DE VOS et al., 2007). A metabolômica direcionada se concentra na seleção a priori dos metabólitos a serem estudados e posterior aquisição e análise desses dados, com o objetivo principal de quantificação dos metabólitos de interesse, podendo ser selecionados alguns metabólitos específicos ou uma via metabólica alvo (DUDLEY et al., 2010). Já a metabolômica não-direcionada consiste na aquisição de dados globais do perfil metabolômico, isto é, na aquisição da maior quantidade de dados possível referente ao metaboloma daquele organismo, realizando posteriormente a análise desses dados visando a classificação de amostras e a determinação de cada metabólito, não sendo necessário o prévio conhecimento dos compostos analisados (DE VOS et al., 2007). A escolha entre esses dois tipos de técnicas é determinada majoritariamente pelo foco do estudo, de forma que a metabolômica não-direcionada é utilizada normalmente para novas descobertas e geração de novas hipóteses e a metabolômica direcionada foca em testar estas hipóteses (DUNN; ELLIS, 2005). 23 2.3 Integração Multi-ômica (MOI) Diversas revisões sobre o tema “Multi-ômica” foram escritas nos últimos anos, principalmente devido ao seu alto potencial de produzir novas ideias e observações sobre aspectos antes analisados somente sob uma perspectiva ômica (CAVILL et al., 2016; JAMIL et al., 2020; MISRA et al., 2019; RAI et al., 2017; VEENSTRA, 2021). Dentre elas, podemos destacar três revisões que fundamentam a pesquisa multi-ômica. Cavill et al. (2016) trouxeram uma discussão sobre os diferentes aspectos da integração de dados entre metabolômica e transcritômica e os métodos de integração existentes. Mas o real impacto dessa revisão foi deixar bem elucidado a importância que o desenho experimental tem sob o aspecto de uma análise multi-ômica, descrevendo e exemplificando a diferença entre os desenhos experimentais e os vieses que cada desenho experimental pode causar durante as análises e no tratamento e processamento dos dados obtidos. Um pouco mais à frente, Jamil et al. (2020) desenvolveram uma trilha de métodos para a integração de dados multi-ômicos, definindo essa integração em diferentes níveis, e guiando os pesquisadores, principalmente os novos nessa área, a como realizar suas análises, indicando ferramentas, softwares e fluxos de trabalho para uma integração bem-sucedida e precisa. Com a importância que esse tema tem nos diversos campos da biologia e com a ampla adesão dos cientistas em embarcar nessa “nova” jornada, a revista PROTEOMICS fez uma edição especial, em fevereiro de 2021, com o tema “System Biology and Multi-omics”. Nessa edição, Veenstra (2021) trouxe uma revisão em que ele não só detalha a ascensão das ômicas e consequentemente da multi-ômica, mas discute, sobretudo, uma questão histórica na ciência: a pesquisa definida por hipóteses. Veenstra (2021) discorreu sobre a pesquisa tradicional, relatando que esta é baseada em hipóteses e para estas hipóteses serem validadas ou rejeitadas, estudos são cuidadosamente desenhados e executados. Porém, com o advento da multi-ômica, as novas pesquisas que tenham como escopo a utilização dessas técnicas multi-ômicas e de biologia de sistemas, não necessariamente seguem a tradicional pesquisa baseada em hipóteses. Essa ordem se altera, e as hipóteses passam a ser geradas após as análises dos dados sob a ótica da multi-ômica. Isso muda a perspectiva científica de “pesquisas definidas por hipóteses” para uma “pesquisa dirigida por dados”. Reafirmando ainda mais a necessidade da realização cuidadosa e bem desenhada dos estudos, para que as novas hipóteses geradas possam ser robustas e bem definidas. 24 Como vimos anteriormente (Tópico 1.2), cada ômica individual tem seu próprio universo extremamente amplo de estudos. Porém, um nível ômico, por si só, não é capaz de responder e elucidar todas as questões referentes à resposta de um organismo a uma determinada perturbação. Cada ômica é uma peça primordial, fundamental e indispensável de um grande quebra-cabeça biológico, mas a visão global e sistemática desse quebra-cabeça só é possível quando juntamos essas peças (VEENSTRA et al., 2021). Quando analisamos a proteômica e a metabolômica em conjunto, podemos ter uma visão ampla das reações presentes sob uma determinada condição. Podemos inferir, por meio da proteômica, quais são as vias metabólicas que estão sendo expressas naquele determinado momento e comparar essa inferência com as concentrações observadas dos metabólitos presentes, dando uma visão da regulação fisiológica do organismo e permitindo novas descobertas de supressão das atividades proteicas (CRAMER et al., 2011). O mesmo vale para as análises conjuntas de transcritômica e proteômica, permitindo entender quais são as modificações e regulações pós-transcricionais (silenciamento, degradação, entre outros) que não seriam visíveis apenas no nível de transcritômica, bem como elucidar qual o resultado de uma superexpressão gênica na ampla gama de proteínas de um organismo (DALDOUL et al., 2014). Se associarmos a metabolômica junto às análises, conseguimos visualizar a resposta do organismo desde o nível de expressão gênica até o fenótipo, assimilando o quão complexo é o sistema biológico e verificando se uma observação ao nível transcritômico é realmente corroborada pelo nível metabolômico. Integrando a genômica nesse complexo sistema, temos uma compreensão que parte desde o nível das sequências de nucleotídeos (mutações, modificações epigenéticas), quais as consequências dessas modificações a nível dos transcritos, as regulações sofridas e os produtos proteicos gerados e, por fim, o desfecho dessa complexidade nas moléculas constituídas, as vias metabólicas alteradas e a resposta final do organismo, no nível fenotípico, a um determinado estresse ou condição (DALDOUL et al., 2014). Dessa maneira, temos claramente a compreensão de que uma estratégia multi-ômica permite avanços na elucidação da complexidade biológica e dos sistemas biológicos inter- relacionados, permitindo novas descobertas e a utilização desse conhecimento no melhoramento de culturas frente a diferentes pragas e estresses abióticos (DAS et al., 2015). 25 Esforços para propor maneiras de agrupar e dividir as análises de integração de dados ômicos de maneira a ficar mais compreensível para os novos pesquisadores que estão entrando nesse “mundo” foram feitas e alguns exemplos são expostos a seguir. Ebbels e Cavill (2009) sugeriram três níveis de integração de dados: integração conceitual, integração estatística e integração baseada em modelo. A integração conceitual remete a análise separada de cada conjunto de dados ômicos e, posteriormente, os resultados e conclusões provenientes dessa análise são comparadas e sintetizadas pelo próprio autor. A integração estatística, como o próprio nome sugere, se caracteriza por encontrar associações estatísticas entre os dados. A integração baseada em modelo propõe uma descrição matemática do sistema, que pode modelar e prever cada nível de organização biológica separadamente, por exemplo, uma via metabólica parametrizada para um determinado organismo. Wanichthanarak, Fahrmann e Grapov (2015) classificaram a integração entre diferentes ômicas em três grandes grupos: Integração baseada em vias metabólicas ou ontologia bioquímica, integração baseada em redes e integração baseada em correlação. O primeiro grupo se baseia em classificar os diferentes dados ômicos nas vias metabólicas já conhecidas. O segundo grupo visa construir uma rede de interação entre os diferentes tipos de dados ômicos, para possivelmente observar interações entre dados ômicos que não estão presentes em uma mesma via metabólica. O terceiro grupo tem como objetivo correlacionar os diferentes dados ômicos estatisticamente, principalmente em dados que possuem uma lacuna de conhecimento bioquímico prévio. Bersanelli et al. (2016), classificaram e organizaram os métodos de integração de ômicas em quatro grandes classes: não bayesiano livre de rede (NF-NBY), bayesiano livre de rede (NF- BY), não bayesiano baseado em rede (NB-NBY) e bayesiano baseado em rede (NB-BY). Os autores explicaram e descreveram os fundamentos matemáticos das análises feitas sob o aspecto da multi-ômica, sendo importante para o desenvolvimento de novas ferramentas. Cavill et al. (2016) além de explicar a importância do desenho experimental em uma análise multi-ômica, como já dito anteriormente, também descreveram diferentes formas de analisar os dados a partir de uma perspectiva multi-ômica. Eles separaram os dados em três grandes grupos, seguindo a linha de raciocínio do primeiro artigo publicado (EBBELS; CAVILL, 2009): integração conceitual, integração estatística e integração baseada em modelo. A integração conceitual e a integração baseada em modelo foram descritas anteriormente e mantêm o significado, mas a integração estatística foi subdividida em quatro grupos: integração 26 baseada em correlação, integração baseada em concatenação de dados, integração baseada em análises multivariadas e, por fim, integração baseada em vias metabólicas. A integração baseada em correlação visa encontrar correlações entre dois grupos de dados ômicos distintos. Os métodos baseados na concatenação dos dados têm como objetivo agrupar as medições provenientes de diferentes ômicas em uma única tabela e, posteriormente, realizar uma análise integrada. A integração baseada em análises multivariadas utiliza técnicas padrão, como mínimos quadrados parciais (PLS) e análise de componentes principais (PCA) para encontrar relações entre variáveis e/ou amostras. Por fim, o último grupo consiste na utilização de conhecimento biológico para mapear os dados ômicos, com uma mudança estatística observada, em vias metabólicas conhecidas e presentes em banco de dados como KEGG e Wikipathways. Uma das mais recentes publicações que visa classificar e direcionar as análises multi- ômicas foi redigida por Jamil et al. (2020), que teve como objetivo proporcionar diretrizes construtivas e metodológicas para uma realização bem-sucedida das análises multi-ômicas. Dessa maneira, os autores propuseram que um esquema metodológico bem definido, que permita a extração, combinação e associação crítica entre os diferentes dados ômicos, é necessário. De forma a garantir tudo que foi proposto, o fluxo de trabalho para estratégias de integração multi-ômica (MOI) foi redefinido em três níveis (Figura 4), com base na classificação anterior feita por Cavill et al. (2016), visando tornar a integração multi-ômica acessível a todos os pesquisadores, independente se estes são novos e não-treinados ou experientes. 27 Figura 4 – Níveis do fluxo de trabalho da integração multi-ômica (MOI). Fonte: Traduzido e adaptado de Jamil et al. (2020) 2.3.1 Estratégia legado: A integração conceitual A integração conceitual, como já descrita anteriormente, visa a análise de diferentes conjuntos de dados ômicos separadamente e, ao final das análises, os resultados são correlacionados pelo próprio autor de forma descritiva. Cavill et al. (2016) chamaram a atenção para o fato de que essa abordagem pode produzir conhecimentos importantes e valiosos, mas também é uma abordagem que pode, muitas vezes, perder associações entre os dados ômicos que só poderiam ser observadas quando esses dados fossem analisados em conjunto, sob uma perspectiva estatística. Jamil et al. (2020) concluíram, então, que esta análise quando não é feita de forma adequada se torna uma análise arbitrária. Dessa maneira, para a classificação proposta por estes autores, a integração conceitual não é inserida como uma abordagem MOI. Seguindo as ideias propostas por Cavill et al. (2016), a integração estatística foi então reclassificada, a abordagem de integração por vias metabólicas foi separada em um novo grupo, para distinguir a integração imparcial da integração baseada em conhecimento prévio. A integração baseada em modelo também foi reformulada para separar a reconstrução de vias 28 metabólicas das abordagens puramente matemáticas. Os novos níveis de integração são descritos a seguir. 2.3.2 Integração Multi-ômica nível 1 – Baseada em elemento Os níveis de MOI propostos por Jamil et al., (2020) tem como um dos objetivos serem complementares e com dificuldade e complexidade crescentes. Dessa maneira, o nível 1 engloba análises puramente estatísticas e imparciais, tendo como objetivo ser uma abordagem fácil e intuitiva. Esse nível é dividido em três subclasses: correlação, agrupamento e análises multivariadas. A correlação é uma análise estatística que utiliza de coeficientes de correlação (Pearson, Spearman ou Kendall) para verificar o grau de correlação entre dois ou mais conjuntos de dados ômicos, sejam estas correlações diretas ou inversas. O agrupamento consiste em deduzir associações e padrões entre os diferentes dados ômicos com base em atributos semelhantes, como seus níveis de expressão. O agrupamento é feito principalmente por meio de técnicas de aprendizado de máquina, como o agrupamento k- means e a análise por floresta aleatória, que permitem uma diferenciação por padrões de expressão e uma classificação para uma determinada característica, respectivamente. A análise multivariada permite que o pesquisador consiga observar diferentes tendências nos conjuntos de dados ômicos, bem como investigar as relações entre esses dados. As técnicas mais comuns são o PCA, PLS e OPLS-DA (do inglês, Orthogonal Partial Least Squares Discriminant Analysis), bem como as variações dessas técnicas, como OnPLS (do inglês, Orthogonal Projections to Latent Structures in Multiblock). A análise multivariada é um pouco mais complexa e requer um estudo mais profundo para sua aprendizagem. 2.3.3 Integração Multi-ômica nível 2 – Baseada em vias metabólicas A MOI nível 2 se baseia no conhecimento biológico prévio já estabelecido. Para pesquisadores com uma base biológica, tende a ser o modo de integração mais intuitivo. Esse nível é dividido em duas subclasses: mapeamento de via e análise de coexpressão. O mapeamento de via consiste basicamente em mapear os diferentes conjuntos de dados ômicos, em banco de dados de vias metabólicas já existentes. O banco de dados mais comum e disseminado para este fim é o KEGG (Enciclopédia de Genes e Genomas de Kyoto) que engloba diversos organismos em todos os reinos. Porém, diversos bancos de dados com foco em organismos específicos já existem. Alguns exemplos são: Solcyc, com foco em espécies de 29 Solanaceae; AraCyc, com foco em Arabidopsis e CitrusCyc focado em diversas espécies de Citrus. As análises de coexpressão tem como foco utilizar o resultado da correlação do MOI nível 1 para produzir redes de interação e avaliar a força das relações entre diferentes moléculas expressas. Essa análise permite revelar agrupamentos e módulos de interação importantes que contribuem para o avanço do conhecimento biológico. 2.3.4 Integração Multi-ômica nível 3 – Com base matemática O último nível MOI consiste na aplicação matemática para produzir, com base nos dados ômicos, uma equação diferencial e um modelo bem definido de um determinado sistema biológico ou organismo. É a integração mais complexa e requer uma ampla cobertura de diferentes ômicas, bem como um organismo alvo bem caracterizado. Este nível é, também, dividido em duas subclasses: análise diferencial e análise em escala do genoma. A análise diferencial consiste na aquisição de dados ômicos em diferentes tempos, para prever, por meio de uma equação estequiométrica, algum fator do organismo, como a taxa de tradução de um determinado mRNA ou o fluxo metabólico em uma determinada via metabólica já conhecida e bem caracterizada. A análise em escala do genoma difere no fato de que o modelo matemático é construído primeiramente com base no genoma do organismo, considerando toda e qualquer reação que seja possível, para posteriormente, validar de maneira experimental os dados. É um processo complexo, principalmente para plantas e outros organismos eucariotos devido à alta compartimentalização e diversas vias metabólicas secundárias, bem como a poliploidia e o tamanho extenso de seus genomas. Esse nível de integração permite que perturbações possam ser prevista in silico, porém o nível de conhecimento prévio exigido, tanto na questão biológica quanto no nível de programação e matemática, torna esta estratégia quase que uma utopia. É possível atualmente modelar amostras homogêneas e com um estado metabólico estacionário por um longo período de tempo. 30 2.4 Importância da salinidade e seus efeitos nas plantas A salinidade do solo é um problema presente em mais de 100 países, espalhados em todos os continentes. Trata-se de um dos estresses abióticos que impõe as maiores limitações ao setor agrícola. Aproximadamente 20% das terras agriculturáveis no mundo apresentam solos salinos e/ou sódicos, entre 25% e 30% das terras irrigadas são afetadas pelo sal, sendo essencialmente improdutivas comercialmente (SHAHID et al., 2018). Normalmente, a salinidade é vista como um problema para o setor agrícola, sendo constantemente realizadas ações voltadas para a prevenção ou à remediação nas áreas afetadas. Mas, sob a ótica da agricultura biossalina, os solos salinos são vistos como uma oportunidade para a produção de alimentos, de fibras, de bioenergia, como também para a recuperação de áreas degradadas e uso de áreas marginais, utilizando espécies tolerantes a essa condição (FAO, 2009; BORSAI et al., 2018). Em geral, as espécies vegetais terrestres são divididas em dois grupos, de acordo com sua resposta ao estresse salino: glicófitas e halófitas. Aproximadamente 99% das plantas são glicófitas, plantas que são sensíveis ao sal e não conseguem completar seu ciclo de vida em um ambiente salino, estando neste grupo todas as principais culturas agrícolas. As halófitas correspondem a cerca de 1% das espécies vegetais terrestres. São plantas capazes de completar seu ciclo de vida em ambientes onde a concentração salina supera os 200 mM de NaCl – aproximadamente 20 dS/m (FLOWERS; COLMER, 2008; SCHOSSLER et al., 2012). A salinidade causa estresses nas plantas de três maneiras principais: estresse osmótico; estresse iônico e estresse oxidativo. O estresse osmótico se caracteriza por um atraso no crescimento da planta, principalmente por efeito de estresse hídrico. O iônico se caracteriza por um processo dependente de íons, de forma que o acúmulo excessivo de íons na célula atinge níveis tóxicos, levando à atenuação dos processos metabólicos e, em alguns casos, à morte celular. Por fim, o estresse oxidativo se caracteriza pela formação das espécies reativas de oxigênio (ROS – do inglês, Reactive Oxygen Species), que em concentrações elevadas causam danos a todas as macromoléculas biológicas da célula (IBRAHIMOVA et al., 2021). Dessa maneira, o estresse salino afeta todos os principais processos vegetais, como a germinação e crescimento, fotossíntese, absorção de água, desequilíbrio de nutrientes e, portanto, o rendimento (PARIHAR et al., 2015). Para lidar com as condições adversas, as plantas halófitas possuem mecanismos de adaptação aos íons e sais. Três mecanismos principais são conhecidos: absorção de íons de alta 31 concentração e seu acúmulo em vacúolos; liberação de sais absorvidos por células especiais nas folhas e restrição da absorção de sal por células da raiz (IBRAHIMOVA et al., 2021). 2.4.1 O uso de MOI visando entender as respostas das plantas ao estresse salino Diversos estudos utilizando abordagens multi-ômicas de diferentes níveis e em diferentes organismos vêm sendo realizados nos últimos anos (Figura 1 e 2). Tais estudos visam melhor caracterizar a resposta dos organismos a uma determinada condição e, dessa forma, auxiliar no avanço do conhecimento científico (CAVILL et al., 2016). No que concerne à salinidade, as pesquisas em sua grande maioria visam descobrir novas informações que permitam auxiliar no aumento da tolerância ao estresse salino de espécies de interesse econômico, tendo em vista a necessidade de garantir a segurança alimentar em todo o mundo (DALDOUL et al., 2014; DAS et al., 2015; HO et al., 2020). Esse auxílio no aumento da tolerância pode se dar por meio de técnicas de transgenia, inserindo genes já conhecidos sob o aspecto de tolerância à salinidade em plantas não tolerantes, visando caracterizar a resposta desse gene na planta de interesse, ou por meio de análises e comparações de cultivares tolerantes em espécies naturalmente não tolerantes, para descobrir novas regulações gênicas e novos insights para posterior utilização de técnicas de silenciamento ou outras alternativas para conferir tolerância (DAS et al., 2015). Shen et al. (2016) estudaram por meio da multi-ômica dois acessos de cevada que diferiam na tolerância ao sal, o acesso XZ26 e XZ169. A integração utilizada foi a conceitual, comparando dados de metabolômica, proteômica e ionômica. Foi visto que o acesso XZ26 apresentou um maior crescimento e um menor acúmulo de sódio após 7 dias de tratamento salino quando comparado com o cultivar XZ169. Já o cultivar XZ169 apresentou uma redução significativa em concentrações de sacarose e metabólitos que estão envolvidos na via da glicólise, além de um elevado acúmulo de ácido cítrico, ácido aconítico e ácido succínico, resultando em um elevado nível do ciclo do ácido tricarboxílico (TCA). A análise proteômica corroborou os resultados obtidos pela metabolômica. O acesso XZ26 apresentou proteínas menos afetadas nos processos metabólicos e atividades catalíticas, além de uma fotossíntese mais estável, mostrando uma otimização dos processos que consomem energia. Wanichthanarak et al. (2020) utilizaram uma abordagem integrativa entre ômicas, utilizando dados de transcritômica, metabolômica e fenômica, para observar as vias metabólicas perturbadas, os metabólitos alterados e os módulos mais importantes das redes metabólicas de arroz sob condições de estresse salino comparados com o controle. Foi verificado uma 32 reprogramação em vias metabólicas primárias, respiração celular, vias biossintéticas de antioxidantes e vias biossintéticas de fito-hormônios. Além dessa análise MOI nível 2, os autores, também, realizaram uma análise MOI nível 3, utilizando a abordagem em escala do genoma para modelar as respostas das vias metabólicas quando a planta está sob estresse salino. Os autores concluíram que a modelagem foi bem-sucedida, prevendo estados metabólicos que corroboram com os resultados da transcritômica e metabolômica, bem como das análises de fenômica, para algumas vias metabólicas. Ho et al. (2020) utilizaram diversas abordagens MOI para estudar as respostas das raízes de dois cultivares de cevada (Clipper e Sahara) sob estresse salino. O estudo englobou dados transcritômicos, metabolômicos, lipidômicos e de microscopia, utilizando a estratégia MOI nível 1. Para correlação dos dados ômicos, as duas estratégias MOI nível 2 foram utilizadas, mapeamento de vias e análise de co-expressão, bem como a utilização dos dados de microscopia para corroborar com os resultados provenientes das ômicas. A via metabólica mais perturbada foi a via dos fenilpropanóides entre todas as respostas salinas observadas. Foi descrita uma intensa impregnação de lignina na parede celular da zona de alongamento Z2 do cultivar Clipper, em contraste com uma deposição de suberina na mesma zona Z2 do cultivar Sahara. Foi observado também que o fluxo simplástico que potencialmente ajusta a deposição de calose, no cultivar Clipper era praticamente constitutivo, independente do estresse por sal, enquanto esse fluxo diminuiu acentuadamente no cultivar Sahara quando exposta a salinidade. Moreno et al. (2021) utilizaram uma abordagem multi-ômica, estudando a transcritômica, proteômica e metabolômica, para verificar quais alterações eram produzidas pela inserção do gene DcLCYB1 de cenoura (Daucus carota) em tabaco (Nicotiana tabacum cultivar Xanthi NN). Em contraste com o que se imaginava, a inserção de um gene que codifica uma enzima conversora do licopeno em beta-caroteno não somente alterou a quantidade de beta-caroteno produzido nas plantas transgênicas de tabaco, mas também, resultou em uma remodelagem nos níveis de transcritoma, proteoma e metaboloma na planta. Isso permitiu com que essa planta não somente fosse tolerante a estresses abióticos (como o sal), mas que o rendimento em termos de biomassa nessas condições adversas fosse maior do que o tipo selvagem, melhorando o crescimento e o desenvolvimento dessas plantas. A análise integrada dessas diferentes ômicas permitiu que os autores sugerissem novos processos e vias envolvidos nesse fenômeno de alta tolerância. 33 3 Uso da estratégia de moi para caracterização das respostas de Gliricidia sepium (Jacq.) Steud. E Portulaca oleracea L. ao estresse salino Esta dissertação de Mestrado foi desenvolvida no âmbito do Programa de PD&I “Sal da Terra”, desenvolvido na Embrapa Agroenergia. Este programa desenvolveu o Banco de Dados “Sal da Terra”, que é constituído de dados de fenômica, ionômica, genômica, transcritômica (mRNA e microRNA), metabolômica e proteômica caracterizando a resposta de dendê (Elaeis guineenses Jacq.), beldroega (Portulaca oleracea L.) e gliricídia (Gliricidia sepium (Jacq.) Steud.) ao estresse salino. Estudos visando a caracterização morfofisiológica da resposta destas espécies vegetais ao estresse salino, desenvolvidos no escopo deste programa, mostraram que tanto a beldroega quanto a gliricídia são altamente tolerantes a este estresse. 4 OBJETIVOS O objetivo geral deste estudo é ganhar conhecimento sobre os mecanismos moleculares responsáveis pela tolerância a salinidade observada em Gliricidia sepium (Jacq.) Steud. e Portulaca oleracea L. através de estratégias de análise individual e integrativa de transcritômica e metabolômica. 5 ORGANIZAÇÃO DA DISSERTAÇÃO A dissertação está organizada em quatro partes: • Parte 1: Capítulo 1 - Revisão sobre o tema Multi-Omics Integration (MOI) • Parte 2: Capítulo 2 – Artigo: “Integration of metabolomics and transcriptomics data to futher characterize Gliricidia sepium (Jacq.) Steud. under high salinity stress” • Parte 3: Capítulo 3 – Artigo: “Multi-Omics analysis of young Portulaca oleracea L. plants’ responses to high NaCl doses reveal insights on pathways and genes responsives to salinity stress in this halophyte species” • Parte 4: Considerações finais 34 REFERÊNCIAS AEBERSOLD R, MANN M. Mass spectrometry-based proteomics. Nature. Mar 13;422(6928):198- 207, 2003. DOI: 10.1038/nature01511 AEBERSOLD, R.; MANN, M. Mass-spectrometric exploration of proteome structure and function. Nature, 537(7620), 347–355, 2016. DOI:10.1038/nature19949 AIZAT, W. M.; GOH, H.-H.; BAHARUM. Omics Applications for Systems Biology. Advances in Experimental Medicine and Biology. S. N. 2018. DOI:10.1007/978-3-319-98758-3 ALON, U. An Introduction to Systems Biology: Design Principles of Biological Circuits. Second Edition, Chapman and Hall/CRC, 2015. AMADO, F., et al. Salivary peptidomics. Expert Review of Proteomics, 7(5), 709–721, 2010. DOI:10.1586/epr.10.48 BELHAJ, M. R., et al. Metabolomics and Lipidomics: Expanding the Molecular Landscape of Exercise Biology. Metabolites 11, no. 3: 151, 2021. DOI: https://doi.org/10.3390/metabo11030151 BERSANELLI, M.. et al. Methods for the integration of multi-omics data: mathematical aspects. BMC Bioinformatics 17, S15, 2016. DOI: https://doi.org/10.1186/s12859-015-0857-9 BINNEK E., As ômicas: integrando a bioinformação. Biotecnologia Ciência & Desenvolvimento. N 32 – janeiro/junho 2004. Disponível em: https://edisciplinas.usp.br/pluginfile.php/4119117/mod_resource/content/1/Estudos%20das%20%C3% B4micas.pdf BORSAI, O.; et al. The genus Portulaca as a suitable model to study the mechanisms of plant tolerance to drought and salinity. The EuroBiotech Journal, v. 2, n. 2, p. 104‐113, 2018. DOI: 10.2478/ebtj‐2018‐0014. BREITLING, R. What is systems biology? Front. Physiol.,1, 9, 2010. BRESLER, E. et al. Saline and sodics soils: principles‐dynamics‐ ‐modeling. Berlin: Springer‐ Verlag, 1982. 236 p. (Advanced series in agricultural Sciences). DOI: 10.1007/978‐3‐642‐68324‐4 BROWN, T. A. Genomes. 2nd edition. Oxford: Wiley-Liss; 2002. Disponível em: https://www.ncbi.nlm.nih.gov/books/NBK21128/ BUSTAMANTE, C.; CHENG, W.; MEJIA, Y. X. Revisiting the Central Dogma One Molecule at a Time. Cell, v 144, issue 4, 480-497, 2011. DOI: https://doi.org/10.1016/j.cell.2011.01.033. CASSAGO, A. L. L., et al. Metabolomics as a marketing tool for geographical indication products: a literature review. Eur Food Res Technol (2021). DOI: https://doi.org/10.1007/s00217-021- 03782-2 CAVILL, R., et al. Transcriptomic and metabolomic data integration. Briefings in Bioinformatics, 17(5), 891–901, 2016. DOI:10.1093/bib/bbv090 COSTA DOS SANTOS, G. et al. The remodel of the “central dogma”: a metabolomics interaction perspective. Metabolomics 17, 48, 2021. DOI: https://doi.org/10.1007/s11306-021-01800-8 CRAMER, G.R., et al. Effects of abiotic stress on plants: a systems biology perspective. BMC Plant Biol., 11, 163, 2011. CRICK, F. Central dogma of molecular biology. Nature 227.5258, 561-563, 1970. https://doi.org/10.1186/s12859-015-0857-9 35 DALDOUL, S., et al. Integration of omics and system biology approaches to study grapevine (Vitis vinifera L.) response to salt stress: a perspective for functional genomics - A review. OENO One, 48(3), 189–200, 2014. DOI: https://doi.org/10.20870/oeno-one.2014.48.3.1573 DAS, P., et al. Understanding salinity responses and adopting “omics-based” approaches to generate salinity tolerant cultivars of rice. Frontiers in Plant Science, 6, 2015. DOI:10.3389/fpls.2015.00712 DE VOS, R. C., et al. Untargeted large-scale plant metabolomics using liquid chromatography coupled to mass spectrometry. Nature Protocols, 2(4), 778–791, 2007. DOI: 10.1038/nprot.2007.95 DUDLEY, E. et al. Targeted metabolomics and mass spectrometry. Advances in Protein Chemistry and Structural Biology, 45–83, 2010. DOI:10.1016/b978-0-12-381264-3.00002-3 DUNN, W. B., et al. Systems level studies of mammalian metabolomes: the roles of mass spectrometry and nuclear magnetic resonance spectroscopy. Chem. Soc. Rev., 40(1), 387–426, 2011. DOI:10.1039/b906712b DUNN, W. B.; ELLIS, D. I. Metabolomics: Current analytical platforms and methodologies. TrAC Trends in Analytical Chemistry, 24(4), 285–294, 2005. DOI:10.1016/j.trac.2004.11.021 EBBELS, T. M. D.; CAVILL R . Bioinformatic methods in NMR-based metabolic profiling. Prog Nucl Magn Reson Spectrosc; 55 : 361 – 74, 2009. DOI:10.1016/j.pnmrs.2009.07.003 FAO. Advances in the assessment and monitoring of salinization and status of biosaline agriculture: report of an expert consultation held in Dubai, United Arab Emirates, 26–29. Rome, 2009. Disponível em: www.fao.org/3/i1220e/i1220.pdf. FIEHN, O. Combining Genomics, Metabolome Analysis, and Biochemical Modelling to Understand Metabolic Networks. Comparative and Functional Genomics, 2(3), 155–168, 2001. DOI:10.1002/cfg.82 FIOCCHI C: Integrating Omics: The Future of IBD? Dig Dis. 32(suppl 1):96-102, 2014. DOI: 10.1159/000367836 FLOWERS, T. et al. Halophytes. The Quarterly Review of Biology, v. 61, n. 3, p. 313‐337, 1986 FLOWERS, T.; COLMER, T. Salinity tolerance in halophytes. New Phytologist, v. 179, n. 4, p. 945- 963, 2008. FONDI, M.; LIÒ, P. Multi-omics and metabolic modelling pipelines: challenges and tools for systems microbiology. Microbiol. Res. 171, 52–64, 2015. DOI: 10.1016/j.micres.2015.01.003 GREEN, E.; WATSON, J.; COLLINS, F. Human Genome Project: Twenty-five years of big biology. Nature 526, 29–31, 2015. DOI: https://doi.org/10.1038/526029a GUPPY, J. L., et al. The State of “Omics” Research for Farmed Penaeids: Advances in Research and Impediments to Industry Utilization. Frontiers in Genetics. 2018. DOI: 10.3389/fgene.2018.00282 HO, W. W. H., et al. Integrative Multi-omics Analyses of Barley Rootzones under Salinity Stress Reveal Two Distinctive Salt Tolerance Mechanisms. Plant Communications, Volume 1, Issue 3, 2020. DOI: https://doi.org/10.1016/j.xplc.2020.100031. IBRAHIMOVA U., et al. Progress in understanding salt stress response in plants using biotechnological tools. Journal of Biotechnology, 329 , pp. 180-191, 2021. DOI: https://doi.org/10.1016/j.jbiotec.2021.02.007. http://www.fao.org/3/i1220e/i1220.pdf 36 IDEKER, T. Systems biology 101—what you need to know. Nature Biotechnology, 22(4), 473–475, 2004. DOI:10.1038/nbt0404-473 JAMIL, I. N., et al. Systematic Multi-Omics Integration (MOI) Approach in Plant Systems Biology. Frontiers in Plant Science, 11, 2020. DOI:10.3389/fpls.2020.00944 KABERA, J. N. et al. Plant Secondary Metabolites: Biosynthesis, Classification, Function and Pharmacological Properties. Journal of Pharmacy and Pharmacology, v. 2, p. 377-392. 2014. KLIPP, E. et al. Systems biology in practice: concepts, implementation and application. Wiley VCH; 2nd edition, 2014. KOONIN, E.V. Does the central dogma still stand?. Biol Direct 7, 27, 2012. DOI: https://doi.org/10.1186/1745-6150-7-27 KUMAR, A., et al. Salinity-induced Physiological and Molecular Responses of Halophytes. Research Developments in Saline Agriculture, 331–356, 2019. DOI:10.1007/978-981-13-5832-6_10 LEDERBERG J.; MCCRAY A. T. 'Ome Sweet 'Omics - A Genealogical Treasury of Words. Genealogical Treasury of Words. Scientist.; 15(7):8, 2001. LIANG, K.-H. Transcriptomics. Bioinformatics for Biomedical Science and Clinical Applications, 49–82, 2013. DOI:10.1533/9781908818232.49 LUCO, R. F. Et al. Epigenética em splicing alternativo de pré-mRNA. Cell 144, 16–26, 2011. MALDONADO, R. et al. Genomics and epigenomics of addiction. Am J Med Genet Part B. 186B: 128– 139, 2021. DOI: https://doi.org/10.1002/ajmg.b.32843 Milward, E. A.,et al. Transcriptomics. Encyclopedia of Cell Biology, 160–165, 2016. DOI:10.1016/b978-0-12-394447-4.40029-5 MISRA, B. B., et al. Integrated omics: tools, advances and future approaches. Journal of Molecular Endocrinology 62, 1, R21-R45, 2019. DOI: https://doi.org/10.1530/JME-18-0055 MORENO, J. C. et al. A Multi-OMICs Approach Sheds Light on the Higher Yield Phenotype and Enhanced Abiotic Stress Tolerance in Tobacco Lines Expressing the Carrot lycopene β-cyclase1 Gene. Frontiers in plant science vol. 12 624365, 2021. DOI:10.3389/fpls.2021.624365 NAGANO, T.; FRASER, P. No-Nonsense Functions for Long Noncoding RNAs. Cell, 145(2), 178– 181, 2011. DOI:10.1016/j.cell.2011.03.014 NURK, S. et al. The complete sequence of a human genome. 2021. DOI: https://doi.org/10.1101/2021.05.26.445798 OLIVER, S. (1998). Systematic functional analysis of the yeast genome. Trends in Biotechnology, 16(9), 373–378. DOI:10.1016/s0167-7799(98)01214-1 PALSSON, B. Metabolic systems biology. FEBS Letters, 583(24), 3900–3904, 2009. DOI:10.1016/j.febslet.2009.09.031 PARIHAR, P. et al. Effect of salinity stress on plants and its tolerance strategies: a review. Environ Sci Pollut Res., v. 22, n. 6, p. 4056-4075, 2015. DOI: 10.1007/s11356-014-3739-1 PINU, F. R. et al. Systems biology and multi-omics integration: Viewpoints from the metabolomics research community. Metabolites 9 (4), 76, 2019. DOI: 10.3390/metabo9040076 PIRAS, V. et al. Is central dogma a global property of cellular information flow? Frontiers in Physiology, 3, 2012. DOI:10.3389/fphys.2012.00439 37 PUCKER, B.; BROCKINGTON, S.F. Genome-wide analyses supported by RNA-Seq reveal non- canonical splice sites in plant genomes. BMC Genomics 19, 980, 2018. DOI: https://doi.org/10.1186/s12864-018-5360-z RAI, A. et al. A new era in plant functional genomics. Curr. Opin. Syst. Biol. 15, 58–67, 2019. DOI: 10.1016/j.coisb.2019.03.005 RAI, A. et al. Integrated omics analysis of specialized metabolism in medicinal plants. Plant J. 90 (4), 764–787, 2017. DOI: 10.1111/tpj.13485 ROBERTS, J. K. M. Plant Molecular Biology, 48(1/2), 143–154. 2002 DOI:10.1023/a:1013736322130 SCHMUTZ, J., et al. Quality assessment of the human genome sequence. Nature 429, 365–368, 2004. DOI: https://doi.org/10.1038/nature02390 SCHOSSLER, T. R. et al. Salinidade: Efeitos na fisiologia e na nutrição mineral de plantas. Enciclopédia Biosfera, Centro Científico Conhecer, Goiânia, v. 8, n. 15, p. 1563-1578, 2012 SEATH, C. P. et al. Reactive intermediates for interactome mapping. The Royal Society of Chemistry., 5, 2911-2926, 2021. DOI: 10.1039/D0CS01366H SHAHID, S. A. et al. Soil salinity: historical perspectives and a world overview of the problem. In: SHAHID, S. A.; ZAMAN, M.; HENG, L. Guideline for Salinity Assessment, Mitigation and Adaptation Using Nuclear and Related Techniques. Cham: Springer, 2018. 164 p. https://doi.org/10.1007/978‐3‐319‐96190‐3 SHEN, Q. et al. Multi-omics analysis reveals molecular mechanisms of shoot adaption to salt stress in Tibetan wild barley. BMC Genomics 17, 889, 2016. DOI: https://doi.org/10.1186/s12864- 016-3242-9 SHENDURE, J., et al. DNA sequencing at 40: past, present and future. Nature, 550(7676), 345– 353, 2017. DOI:10.1038/nature24286 SIBLEY, C. R., BLAZQUEZ, L., & ULE, J. Lessons from non-canonical splicing. Nature Reviews Genetics, 17(7), 407–421, 2016. DOI:10.1038/nrg.2016.46 STOTZ, G.C., et al. Global trends in phenotypic plasticity of plants. Ecology Letters, 00, 1– 15, 2021. DOI: https://doi.org/10.1111/ele.13827 URANO, K., et al. “Omics” analyses of regulatory networks in plant abiotic stress responses. Current Opinion in Plant Biology, 13(2), 132–138, 2010. DOI:10.1016/j.pbi.2009.12.006 URBANCZYK-WOCHNIAK, E. et al. Parallel analysis of transcript and metabolic profiles: a new approach in systems biology. EMBO reports, 4(10), 989–993, 2003. DOI: https://doi.org/10.1038/sj.embor.embor944 VARGAS, R. et al. Handbook for saline soil management. [Rome]: FAO, 2018. Disponível em: www.fao. org/3/i7318en/I7318EN.pdf VEENSTRA, T.D. Omics in Systems Biology: Current Progress and Future Outlook. Proteomics, 21: 2000235, 2021. DOI: https://doi.org/10.1002/pmic.202000235 WANG, Z., et al. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet 10, 57–63, 2009. DOI: https://doi.org/10.1038/nrg2484 WANICHTHANARAK K, FAHRMANN JF, GRAPOV D. Genomic, Proteomic, and Metabolomic Data Integration Strategies. Biomarker Insights. 2015. DOI:10.4137/BMI.S29511 https://doi.org/10.1007/978 https://doi.org/10.1186/s12864-016-3242-9 https://doi.org/10.1186/s12864-016-3242-9 https://doi.org/10.1038/sj.embor.embor944 https://doi.org/10.1002/pmic.202000235 https://doi.org/10.1038/nrg2484 38 WANICHTHANARAK, K., et al. Deciphering rice metabolic flux reprograming under salinity stress via in silico metabolic modeling. Computational and Structural Biotechnology Journal, 18, 3555–3566, 2020. DOI:10.1016/j.csbj.2020.11.023 WOLF, J.B.W. Principles of transcriptome analysis and gene expression quantification: an RNA- seq tutorial. Mol Ecol Resour, 13: 559-572, 2013. DOI: https://doi.org/10.1111/1755-0998.12109 https://doi.org/10.1111/1755-0998.12109 39 CAPÍTULO 2 Integração de dados metabolômicos e transcritômicos para melhor caracterizar Gliricidia sepium (Jacq.) Walp. sob estresse de alta salinidade A versão apresentada do presente artigo foi submetida a revista “The Plant Genome”, sendo uma versão preliminar e o conselho editorial do periódico poderá sugerir alterações. RESUMO Um dos estresses abióticos que mais ameaçam a agricultura é a salinidade do solo, um problema presente em mais de 100 países espalhados por todos os continentes. Devido ao aumento da demanda por produtos agrícolas, a pressão para o cultivo nesses solos tem aumentado. Gliricidia sepium (Jacq.) Walp. é uma árvore polivalente, cultivada para melhorar a fertilidade do solo, para fins medicinais, como madeira / lenha, como carvão e como sombra de plantações. Também é conhecido por sua capacidade de se adaptar a uma ampla variedade de solos, desde solos ácidos erodidos, solos arenosos, argila pesada, calcário e solos alcalinos. Os limites de tolerância à salinidade da gliricídia, bem como suas respostas ao estresse salino, ainda não são bem compreendidos. Os perfis de transcritoma e metaboloma da parte aérea de G. sepium foram realizados em plantas controle e com estresse salino em um delineamento inteiramente casualizado. As amostras do transcritoma foram submetidas ao RNA-Seq usando uma plataforma Illumina HiSeq e a estratégia “paired end”, e a análise dos dados foi feita com o OmicsBox versão 1.3. As amostras de metaboloma foram analisadas em um sistema UHPLC equipado com uma coluna de fase reversa. A espectrometria de massa de alta resolução (HRMS) foi realizada em um analisador Q-TOF usando fonte de eletrospray em ESI (+) - MS e ESI (-) - MS. Os dados adquiridos foram pré-processados usando o XCMS Online e posteriormente exportados para o MetaboAnalyst 4.0 para análise multivariada, anotação metabólica e observação da atividade da via. Omics Fusion, uma plataforma web para análise integrativa de dados ômicos, foi empregada para realizar a análise integrativa de transcritos e metabólitos. A análise dos conjuntos de dados do transcritoma e do metaboloma caracterizou a resposta da planta em três cenários: Efeito idade (plantas controle aos 2 e 45 dias sob estresse - DAT), estresse de curto prazo (plantas controle e estressadas aos 2 DAT) e estresse de longo prazo (plantas estressadas aos 2 e 45 DAT). Um grupo de 5.672 transcritos e 107 metabólitos foram submetidos à análise integrativa para integrar transcritos e metabólitos diferencialmente expressos na parte aérea de gliricídia sob estresse salino; a biossíntese do fenilpropanóide apareceu em primeiro lugar entre as vias mais afetadas, com 15 metabólitos e cinco transcritos 40 (três genes) diferencialmente expressos. A análise única e integrada dos perfis de transcritoma e metaboloma gerados neste estudo foi eficiente para correlacionar e diferenciar grupos de plantas de G. sepium submetidas ao estresse salino, revelando genes / transcritos, metabólitos e vias responsivas a este estresse. A análise dos metabólitos e genes diferencialmente expressos na via de biossíntese dos fenilpropanóides revelou que ele desempenha um papel no estresse de curto prazo. A análise do transcritoma identificou dois genes que codificam proteínas que podem desempenhar um papel na resposta da gliricídia tanto no estresse salino de curto quanto no de longo prazo. Palavras-chave: RNA-Seq, Quimiometria, Espectometria de Massa de Alta Resolução, Estresse Abiótico, Integratômica, Integração Multi-ômica. 41 ABSTRACT One of the abiotic stresses that threaten agriculture the most is soil salinity, a problem present in more than 100 countries spread across all continents. Due to the increase in demand for agricultural products, the pressure for cultivation in these soils has increased. Gliricidia sepium (Jacq.) Walp. is a multipurpose tree, cultivated for improvement of soil fertility, for medicinal purposes, as wood/firewood, as charcoal, and as a shade of plantations. It is also known for its ability to adapt to a wide range of soils ranging from eroded acidic soils, sandy soils, heavy clay, limestone, and alkaline soils. Gliricidia salinity tolerance limits, alongside its responses to salt stress, are not yet well understood. The transcriptome and metabolome profiles of G. sepium shoots were performed on control and salt-stressed plants in a completely randomized design. Transcriptome samples were subjected to RNA-Seq using an Illumina HiSeq platform and the paired-end strategy, and data analysis was done with OmicsBox version 1.3. Metabolome samples were analyzed on a UHPLC system equipped with a reversed-phase column. High- resolution mass spectrometry (HRMS) was performed on a Q-TOF analyzer using electrospray source in ESI(+)-MS and ESI(-)-MS. Acquired data were pre-processed using XCMS Online and further exported to MetaboAnalyst 4.0 for multivariate analysis, metabolic annotation, and pathway activity observation. Omics Fusion, the web platform for integrative analysis of Omics data, was employed for carrying out the integrative analysis of transcripts and metabolites. The analysis on transcriptome and metabolome data sets characterized the plant response under three scenarios: Age effect (control plants at 2 and 45 days under stress - DAT), short-term (control and stressed plants at 2 DAT), and long-term stress (stressed plants at 2 and 45 DAT). A group of 5,672 transcripts and 107 metabolites were submitted to integrative analysis to integrate transcripts and metabolites differentially expressed in gliricidia shoots under salt stress; the phenylpropanoid biosynthesis came in first among the most affected pathways with 15 metabolites as well as five transcripts (three genes) differentially expressed. The single and integrated analysis of the transcriptome and the metabolome profiles generated in this study were efficient to correlate and differentiate groups of G. sepium plants submitted to salinity stress, revealing genes/transcripts, metabolites, and pathways responsive to this stress. The analysis of the metabolites and genes differentially expressed in the phenylpropanoid biosynthesis pathway revealed that it plays a role in short-term stress. The single analysis of the transcriptome identified two genes coding for proteins that might play a role in gliricidia response at both the short- and long-term salt stress. 42 Keywords: RNA-Seq, Chemometrics, High Resolution Mass Spectrometry, Abiotic Stress, Integratomics, Multi-Omics Integration. 43 Integration of metabolomics and transcriptomics data to futher characterize Gliricidia sepium (Jacq.) Walp. under high salinity stress Thalliton Luiz Carvalho da Silva1§ Vivianny Nayse Belo Silva1§ Ítalo de Oliveira Braga1 Jorge Candido Rodrigues Neto2 André Pereira Leão4 José Antônio de Aquino Ribeiro4 Leonardo Fonseca Valadares4 Patrícia Verardi Abdelnur2,4 Carlos Antônio Ferreira de Sousa3 Manoel Teixeira Souza Júnior1,4,* 1 – Graduate Program of Plant Biotechnology, Federal University of Lavras, CP 3037, Lavras, MG, Zip Code 37200-000, Brazil 2 – Institute of Chemistry, Federal University of Goiás, Campus Samambaia, Goiânia, GO, Zip Code 74690‐900, Brazil 3 – Brazilian Agricultural Research Corporation, Embrapa Mid-North, Teresina, PI, Zip Code 64008-780, Brazil 4 – Brazilian Agricultural Research Corporation, Embrapa Agroenergy, Brasília, DF, Zip Code 70770‐901, Brazil § - These authors contributed equally to this study * - Corresponding author Keywords: RNA-Seq, Chemometrics, High Resolution Mass Spectrometry, Abiotic Stress, Integratomics, Multi-Omics Integration. 44 Abstract Introduction: One of the abiotic stresses that threaten agriculture the most is soil salinity, a problem present in more than 100 countries spread across all continents. Due to the increase in demand for agricultural products, the pressure for cultivation in these soils has increased. Gliricidia sepium (Jacq.) Walp. is a multipurpose tree, cultivated for improvement of soil fertility, for medicinal purposes, as wood/firewood, as charcoal, and as a shade of plantations. It is also known for its ability to adapt to a wide range of soils ranging from eroded acidic soils, sandy soils, heavy clay, limestone, and alkaline soils. Gliricidia salinity tolerance limits, alongside its responses to salt stress, are not yet well understood. Method: The transcriptome and metabolome profiles of G. sepium shoots were performed on control and salt-stressed plants in a completely randomized design. Transcriptome samples were subjected to RNA-Seq using an Illumina HiSeq platform and the paired-end strategy, and data analysis was done with OmicsBox version 1.3. Metabolome samples were analyzed on a UHPLC system equipped with a reversed-phase column. High-resolution mass spectrometry (HRMS) was performed on a Q-TOF analyzer using electrospray source in ESI(+)-MS and ESI(-)-MS. Acquired data were pre-processed using XCMS Online and further exported to MetaboAnalyst 4.0 for multivariate analysis, metabolic annotation, and pathway activity observation. Omics Fusion, the web platform for integrative analysis of Omics data, was employed for carrying out the integrative analysis of transcripts and metabolites. Results: The analysis on transcriptome and metabolome data sets characterized the plant response under three scenarios: Age effect (control plants at 2 and 45 days under stress - DAT), short-term (control and stressed plants at 2 DAT), and long-term stress (stressed plants at 2 and 45 DAT). A group of 5,672 transcripts and 107 metabolites were submitted to integrative analysis to integrate transcripts and metabolites differentially expressed in gliricidia shoots under salt stress; the phenylpropanoid biosynthesis came in first among the most affected pathways with 15 metabolites as well as five transcripts (three genes) differentially expressed. Conclusion: The single and integrated analysis of the transcriptome and the metabolome profiles generated in this study were efficient to correlate and differentiate groups of G. sepium plants submitted to salinity stress, revealing genes/transcripts, metabolites, and pathways responsive to this stress. The analysis of the metabolites and genes differentially expressed in the phenylpropanoid biosynthesis pathway revealed that it plays a role in short- term stress. The single analysis of the transcriptome identified two genes coding for proteins that might play a role in gliricidia response at both the short- and long-term salt stress. 45 1. Introduction: The world population is on track to reach between nine and ten billion persons by 2050, resulting from an increase of more than three billion individuals in the first half of the 21st century. This scenario has challenged the biomass production system to produce more food, feed, fiber, bioenergy, and ornamentals, among other bioproducts derived from plants, in a sustainable way. The increase in biomass production must occur while plants are affected by several more intense abiotic and biotic stresses resulted from changes in climatic conditions (FAO, 2011). One of the abiotic stresses that threaten agriculture the most is soil salinity, a problem present in more than 100 countries spread across all continents. Approximately 20% of all agricultural land in the world has either saline or sodic soils, and between 25% and 30% of the irrigated land area is affected by salt (Shahid et al., 2018). Gliricidia sepium (Jacq.) Walp., a medium-sized legume (10-15 m) that belongs to the Fabaceae family, is originated from Central America. It shows rapid growth and is one of the most well-known multipurpose trees. It is cultivated for improvement of soil fertility, for medicinal purposes, as wood/firewood, as charcoal, and as a shade of plantations (Rahman et al., 2019). At the economic level, the gliricidia role in improving water infiltration and increasing water retention capability of the soil, reducing soil erosion, and restoring and improving the soil quality, leading to a higher crop yield, is highlighted (Diouf et al., 2017). It is also known for its ability to adapt very well to a wide range of soils, from eroded acidic soils, sandy soils, heavy clay, limestone, and alkaline soils (Rahman et al., 2019). Gliricidia salinity tolerance limits, alongside its responses to salt stress, are not yet well understood (Rahman et al., 2019). Rahman and colleagues showed that seawater-induced salinity negatively affected several growth-related attributes in one-month-old gliricidia seedlings; postulating that proline, which showed enhanced accumulation under salinity stress, might help gliricidia plants to adjust to water deficit conditions. Proline participates in metabolic signaling and is known to be metabolized by its own family of enzymes responding to stress (Phang et al., 2010). Several studies are available about transcriptomics and metabolomics analysis in plants (Cavill et al., 2016; Jamil et al., 2020). Transcriptomics is a technology applied to characterize the transcriptome in a cell, tissue, or organism at any given time. Unlike the genome that tends to be static information, the transcriptome is variable; and is one of the links between the genome and the phenotype of an organism (Wang et al., 2009; Zhang et al., 2010). Metabolomics is a technology applied to characterize the complete set of small-molecule 46 chemicals found within a biological sample. Metabolites are functional products of metabolism, and their concentration levels vary according to genetic or physiological changes. Since it provides a better representation of an organism's phenotype than any other omic, metabolomics emerges as an efficient tool to fill the phenotype-genotype gap (Zampieri and Sauer, 2017). Due to the rise in accessibility to high throughput biological data from different omics, efforts to analyze these data separately have given rise to a more comprehensive view and with a focus on integrating different omics to obtain more robust knowledge of biological systems (Cavill et al., 2016; Jamil et al., 2020). The first successful integrative attempts using these two omics in fungi and plants date almost two decades (Askenazi et al. 2003; Urbanczyk- Wochniaket al. 2003; Hoefgen & Nikiforova, 2008). Since then, many groups have used distinct integrative approaches to gain insights into many different plant traits. Transcript and metabolite are not directly associated; however, the process of integrating them provides information that allows us to base the phenotypic data and measures provided by the metabolomics on the genetic data from the transcriptome (Cavill et al., 2016; Jamil et al., 2020). Yan and colleagues identified new target genes and metabolites by integrating data from these two omics in Tetrastigma hemsleyanum. These molecules led to a gain of efficiency of the anthocyanin metabolic pathway (Yan et al., 2020). Rai et al. (2020) also did it to identify genes involved in the biosynthetic pathways of the dominant groups of bioactive metabolites in Cornus officinalis, an important medicinal plant. In this study, we first carried out a morphophysiological characterization of the response of Gliricidia sepium to salinity stress, in both the short and long-term and at five different doses of NaCl. Then, used samples from the shoots of gliricidia plants to characterize the metabolomic profile in all these treatments. At third, generated the transcriptome profile in the short and long-term stress at 0.0 and 0.8 g of NaCl per 100 g of the substrate. At last, applied conceptual, element- and pathway-based strategies to integrate metabolome and transcriptome data. 2. Materials & Methods: 2.1. Plant material and growth conditions The accession of gliricidia [Gliricidia sepium (Jacq.) Steud.] used in this study belongs to the Gliricidia Collection at Embrapa Tabuleiros Costeiros (www.embrapa.br/en/tabuleiros- costeiros). After soaking the seeds in 2% sodium hypochlorite and Tween® 20 for 5 min under slow agitation, we washed them with sterile water and dried them on sterilized filter paper. http://www.embrapa.br/en/tabuleiros-costeiros http://www.embrapa.br/en/tabuleiros-costeiros 47 Then they were placed in a Petri dish with filter paper moistened with sterilized water until the radicle emission. Subsequently, each germinated seed was transferred individually to a 5 L plastic pot containing 4 kg of substrate previously prepared by mixing sterile soil, vermiculite, and a commercial substrate (Bioplant®), in the ratio 2:1:1 (v:v:v); and kept in a greenhouse for three months. 2.2. Experimental design and Saline stress Groups of three-month-old gliricidia plants were kept under control conditions or subjected to saline stress (0.4, 0.6, 0.8, and 1.0 g of NaCl per 100 g of substrate) for 2 (short- term stress) or 45 (long-term stress) days. The experimental design was completely randomized with 5 replicates (plants) per treatment. The NaCl was dissolved in deionized water to salinize the substrate. The amount of deionized water used corresponded to the difference between the amount of water previously present in the substrate and the amount of water necessary for the substrate to reach field capacity. Applying the right amount of water – up to the substrate field capacity – was a means of ensuring no leakage of the solution out of the pot and no loss of Na+ or Cl-. For details about moisture content, field capacity, and electric conductivity in the substrate, which were determined preliminarily, details are in Silva (2019). We replaced the water lost by evapotranspiration with deionized water in a daily basis, and monitored electric conductivity and water potential in the substrate solution at zero, 6, 35, and 45 days after imposing the treatments (DAT) for all replicates. 2.3. Biomass and mineral analysis After taking fresh weight (FW), the root and shoot were dried in an oven for 72 hours at 65ºC to a constant weight (dry weight – DW). The mineral analysis of samples (roots, shoot, and soil), collected at the end of the experiment, was done by Soloquímica (www.soloquimica.com.br). The data from the mineral analysis was initially analyzed using bidirectional analysis of variance (ANOVA). To compare the treatments with significant differences, we used the Tukey test (p <0.05). 2.4. Metabolomics analysis Shoots (leaves and stem) for metabolomics analysis were collected from all replicates at 2 and 45 DAT, immediately immersed in liquid nitrogen, and then stored at -80 °C until extraction of metabolites. Based on the results of the morphophysiological characterization, we selected the following treatments for metabolomics analysis: control plants at 2 and 45 DAT, stressed plants (0.4 and 0.8 g of NaCl per 100 g of substrate) at 2 and 45 DAT. 2.4.1. Chemicals and metabolites extraction http://www.soloquimica.com.br/ 48 Samples were grounded in liquid nitrogen before solvent extraction. The solvents methanol grade UHPLC, acetonitrile grade LC-MS, formic acid grade LC-MS and sodium hydroxide ACS grade LC-MS were from Sigma-Aldrich (St. Louis, MO, USA); and the water treated in a Milli-Q system (Millipore, Bedford, MA, USA). We employed a protocol adapted from the Max Planck Institute (Vargas et al., 2016; Rodrigues-Neto et al., 2018), known as All-in-One Extraction, to extract the metabolites. After transferring aliquots of 50 mg of grounded sample to 2 mL microtubes, added 1 ml of 1:3 (v:v) methanol: methyl tert-butyl ether at -20 °C, and then left for homogenization at 4 °C on an orbital shaker for 10 min, followed by an ultrasound treatment in an ice bath for another 10 min. Next, added 500 μL of 1:3 (v:v) methanol: water mixture (1:3) to each microtube before centrifugation (12,000 rpm, 4 °C for 5 min). After centrifugation, it generated three phases: an upper nonpolar (green), a lower polar (brown), and a remaining protein pellet. The apolar and polar fractions were transferred separately to 1.5 mL microtubes and vacuum dried in a Speed vac (Centrivap, Labconco, Kansa, MO, USA). 2.4.2. UHPLC-MS and UHPLC-MS/MS After resuspending the dry polar fraction by adding 500 μL of 1:3 (v:v) methanol: water mixture, it was transferred to a vial and analyzed by UHPLC-MS/MS. We used a UHPLC chromatographic system (Nexera X2, Shimadzu Corporation, Japan) equipped with an Acquity UPLC HSS T3 (1.8 μm, 2.1 x 150 mm) reverse phase column (Waters Technologies, Milford, MA), maintained at 35 °C. Solvent A was 0.1% (v/v) formic acid in water and solvent B was 0.1% (v/v) formic acid in acetonitrile / methanol (70/30, v/v). The gradient elution used, with a flow rate of 0.4 mL/min, was as follows: isocratic from 0 to 1 min (0% B), linear gradient from 1 to 3 min (5% B), from 3 to 10 min (50% B), and 10 to 13 min (100% B), isocratic from 13 to 15 min (100% B), followed by rebalancing in the initial conditions for 5 min. The rate of acquisition spectra was 3.00 Hz, monitoring a mass range from m/z 70-1200 (polar fraction) and m/z 300-1600 (lipidic fraction). Detection was performed by high-resolution mass spectrometry (HRMS) (MaXis 4G Q- TOF MS, Bruker Daltonics, Germany) using electrospray source in positive (ESI (+) - MS) and negative (ESI (-) - MS). The settings of the MS instrument were: final plate offset, 500 V; capillary voltage, 3800 V; nebulizer pressure, 4 bar; dry gas flow, 9 L/min, dry temperature, 200 °C. The rate of acquisition spectra was 3.00 Hz, monitoring a mass range of 70 to 1200 m/z. A sodium formate solution (10 mM HCOONa solution in 50/50 v/v isopropanol/water containing 0.2% formic acid) was injected directly through a 6-way valve at the beginning of each chromatographic run for external calibration. Ampicillin ([M+H] + m/z 350.11867 and 49 [M-H] - m/z 348.10288) was added to each sample and was used as an internal standard for peak normalization. Tandem mass spectrometry (MS/MS) parameters have been adjusted to improve mass fragmentation, with collision energy ranging from 20 to 50 eV, using a step method. Precursor ions were acquired using the 3.0 s cycle time. The general AutoMS settings were: mass range, m/z 70-1000 (polar fraction) and m/z 300-1600 (lipidic fraction); spectrum rate, 3 Hz; ionic, positive polarity; pre-pulse storage, 8 μs; funnel 1 RF, 250.0 Vpp. The UHPLC-MS and UHPLC-MS/MS data were acquired by HyStar Application version 3.2 (BrukerDatonics, Germany). 2.4.3. Metabolomics data analysis The raw data from UHPLC-MS were exported as mzMXL files, using DataAnalysis 4.2 software (Bruker Daltonics, Germany) and pre-processed using XCMS Online (Gowda et al., 2014; Tautenhahn et al., 2012), for peak detection, retention time correction and alignment of the metabolites detected in the UHPLC-MS analysis. Peak detection was performed using centWave peak detection (∆m / z = 10 ppm; minimum peak width, 5 s; maximum peak width, 20 s) and mzwid = 0.015, minfrac = 0.5, bw = 5 for alignment of retention time. The unpaired parametric t-test (Welch t-test) was used for statistical analysis. The processed data (csv file) were exported to MetaboAnalyst 4.0, and submitted to analysis in the Statistical Analysis module (Chong et al., 2019; Chong & Xia, 2020). Before the chemometric analysis, all data variables from the polar fraction were normalized by internal standard (ampicillin-rT = 7.9 min; [M+H], m/z = 350.11711, [M-H], m/z = 348.10212); and, all data variables from the lipidic fraction were normalized by internal standard (1,2- diheptadecanoyl-sn-glycero-3-phosphocholine = 4.85 min; [M+H] + m/z = 762.60063). All three sets of data were scaled using the pareto method. The differentially expressed peaks (DEP) were selected according to the following criteria: Variable Importance in Projection - VIP values ≥ 1, obtained from the PLS-DA model; adjusted P-value (FDR) ≤ 0.05, of the Welch t-test; and Log2 (Fold Change) ≠ 1. The selected DEPs were then submitted to analysis in the MS Peaks to Pathway module (Chong et al., 2019; Chong & Xia, 2020) and analyzed using the following parameters: molecular weight tolerance of 5 ppm; mixed ion mode; joint analysis using the mummichog algorithm (Li et al., 2013) with a P-value cutoff of 1.0 10-5 and Gene Set Enrichment Analysis - GSEA (Subramanian et al., 2005) algorithms, and the latest KEGG version of the Arabidopsis thaliana pathway library. In the case of a DEP with two or more matched forms (isotopes) and later a matched compound with two or more DEPs, the initial criterion of metabolite selection applied was the 50 mass difference comparing to the metabolite database – choosing the smallest one. The second criterion was the adduct study of each candidate back in its mass spectra. Then, we