banner
Lar / Notícias / Previsão de emenda aberrante em tecidos humanos
Notícias

Previsão de emenda aberrante em tecidos humanos

Sep 02, 2023Sep 02, 2023

Nature Genetics volume 55, páginas 861–870 (2023)Cite este artigo

13 mil acessos

1 Citações

174 Altmétrico

Detalhes das métricas

O splicing aberrante é uma das principais causas de doenças genéticas, mas sua detecção direta em transcriptomas é limitada a tecidos clinicamente acessíveis, como pele ou fluidos corporais. Embora os modelos de aprendizado de máquina baseados em DNA possam priorizar variantes raras para afetar o splicing, seu desempenho na previsão do splicing aberrante específico do tecido permanece não avaliado. Aqui geramos um conjunto de dados de referência de splicing aberrante, abrangendo mais de 8,8 milhões de variantes raras em 49 tecidos humanos do conjunto de dados Genotype-Tissue Expression (GTEx). Com 20% de recall, os modelos de última geração baseados em DNA atingem uma precisão máxima de 12%. Ao mapear e quantificar o uso do transcriptoma em todo o local de splice específico do tecido e modelar a competição de isoformas, aumentamos a precisão em três vezes no mesmo recall. A integração de dados de sequenciamento de RNA de tecidos clinicamente acessíveis em nosso modelo, AbSplice, trouxe precisão para 60%. Esses resultados, replicados em duas coortes independentes, contribuem substancialmente para a identificação de variantes não codificantes com perda de função e para o projeto e análise de diagnósticos genéticos.

A identificação de variantes de DNA com perda de função não codificantes é um grande gargalo na interpretação do genoma completo, pois é difícil prever a função fora das regiões codificantes . As variantes que alteram o splicing representam uma classe importante de variantes não codificantes de perda de função porque podem levar a isoformas de RNA drasticamente alteradas, por exemplo, induzindo mudanças de quadro ou ablações de domínios proteicos funcionalmente importantes. Se a variante alterar fortemente a escolha da isoforma de splicing, a abundância restante de isoformas funcionais de RNA pode ser tão reduzida que a função do gene é perdida. Devido à relevância do splicing para a interpretação de variantes, nomeadamente no diagnóstico de doenças raras e em oncologia, foram desenvolvidos algoritmos para prever se as variantes afectam o splicing2,3,4,5,6,7,8,9. No entanto, apenas recentemente, eventos de splicing aberrantes, isto é, grandes alterações raras no uso de isoformas de splice, foram chamados em tecidos humanos . Embora tenha sido proposto um método para priorizar a posteriori variantes raras causais candidatas para eventos de splicing aberrante observados, o problema direto, isto é, prever entre variantes raras quais resultarão em splicing aberrante, não foi abordado.

Aqui, pretendemos estabelecer modelos que prevejam se uma variante rara se associa a splicing aberrante em qualquer tecido humano. Primeiro, assumimos que apenas o DNA estava disponível e, posteriormente, consideramos os dados complementares de sequenciamento de RNA (RNA-seq) de tecidos clinicamente acessíveis (CATs) (Fig. 1).

Nós nos propusemos a prever se variantes raras se associam a splicing aberrante em 49 tecidos humanos. a, Estabelecemos um benchmark abrangente para splicing aberrante processando amostras GTEx com um chamador de splicing aberrante recentemente publicado com base no qual poderíamos avaliar e desenvolver preditores que poderiam tomar como entrada a sequência de DNA e, opcionalmente, dados de RNA-seq de CATs. b, o benchmarking revelou um desempenho modesto dos algoritmos usados ​​atualmente baseados apenas em DNA, uma melhoria substancial de desempenho ao integrar esses modelos com SpliceMap, um mapa quantitativo de splicing específico de tecido que desenvolvemos neste estudo, e melhorias adicionais ao incluir também medidas diretas de aberrantes emenda em tecidos acessíveis.

Criamos um benchmark usando o chamador de splicing aberrante FRASER (Find RAre Splicing Events in RNA-seq) em 16.213 amostras de RNA-seq do conjunto de dados Genotype-Tissue Expression (GTEx), abrangendo 49 tecidos e 946 indivíduos. Comparado com outros métodos de detecção de outliers de splicing, o FRASER mostrou consistentemente a maior concordância com preditores baseados em sequência e, portanto, foi posteriormente usado para nossas avaliações (Extended Data Fig. 1). Para cada indivíduo, consideramos cada gene codificador de proteína carregando pelo menos uma variante rara (frequência alélica menor (MAF) inferior a 0,1% com base no banco de dados de agregação de genoma (gnomAD)13 e encontrada em não mais que dois indivíduos no GTEx) e definimos tentar prever em qual tecido, se houver, esse gene está emendado de forma aberrante. Definimos um gene para ser emendado de forma aberrante em uma amostra se ele fosse chamado como um outlier de splicing significativo em todo o transcriptoma e com uma amplitude suficiente (porcentagem diferencial de emenda (Ψ) maior que 0,3; Métodos, e veja Dados Estendidos Fig. 1 para resultados com pontos de corte alternativos). Estudos anteriores relataram que até 75% dos eventos de splicing aberrante em amostras de RNA-seq GTEx não são replicados em tecidos e, portanto, podem refletir artefatos técnicos ou splicing aberrante que não são geneticamente conduzidos. Quantificamos o enriquecimento de outliers de splicing replicados em tecidos do mesmo indivíduo em relação à distância até a variante rara mais próxima e descobrimos que eles eram enriquecidos até uma distância de 250 pares de bases (pb) (Extended Data Fig. 2). Portanto, também exigimos que uma variante rara estivesse a menos de 250 pb de distância dos limites de qualquer íntron associado ao sítio de splice com splicing aberrante (Métodos e Dados Estendidos Fig. 3). Este filtro produziu resultados semelhantes aos da filtragem de eventos aberrantes replicados, com a vantagem extra de ser aplicável a coortes independentes que possuem uma única amostra por indivíduo (Dados Estendidos Fig. 4).

 0.8, MMSplice score > 2 (absolute score) and an AbSplice-DNA score > 0.2 in at least one tissue. Asterisks mark significance levels of two-sided Fisher tests of AbSplice-DNA compared with SpliceAI (*<0.05, **<10−4, ***<10−8). NS, not significant./p> 0.3) and then by significance level. This simple method yielded a markedly increased precision compared with the DNA-based models, up to nearly 40% recall (Fig. 5c and Extended Data Fig. 10a). However, RNA-based predictions remain limited to those splice sites expressed and spliced in the CAT. Therefore, we next trained models integrating AbSplice-DNA features together with RNA-seq-based features from CATs, including differential splicing amplitude estimates to leverage the splicing scaling law and the SpliceMaps (Methods). These models, which we call AbSplice-RNA, outperformed all other models (Fig. 5c and Extended Data Fig. 10a). We found that using fibroblasts only led to the same performance as using all CATs, reaching around 60% precision at 20% recall and amounting to a twofold improvement over AbSplice-DNA (Fig. 5c and Extended Data Fig. 10b). Those improvements were consistent across target tissues (Fig. 5d). As expected, AbSplice-RNA outperformed AbSplice-DNA for genes expressed in CATs and remained on par with it otherwise (Extended Data Fig. 10c). Altogether, these results establish a formal way to integrate direct measurements of aberrant splicing along with sequence-based models to predict aberrant splicing in a tissue of interest./p> 0.3). The same filters were applied to the splicing efficiency metrics./p> 0.3) lower than the remaining genes, and further ranked genes within each of these two groups by increasing P value./p>

 0.3, FDR < 0.05, 126,308 aberrant events) b, Filter 2: same as a, but restricting to genes that are aberrantly spliced in at least two different tissues from the same individual (32,886 aberrant events). c, Filter 3: same as a, but restricting to genes that have a rare variant within 250 bp of the splice sites (22,766 aberrant events). While the results are best with Filter 3, the relative improvements in terms of precision at the same recall between the methods is the same as with Filter 2. In particular, having restricted to variants 250 bp away from any detected split read boundary (Filter 3) did not bias our analysis for the splice-site centric method MMSplice over SpliceAI. d, After applying Filter 3, outliers were stratified into ‘replicated’ (14,030 aberrant events), that is appearing in at least two different tissues of the same individual, and ‘not replicated’ (8,736 aberrant events). All models showed a significantly higher performance for aberrant splicing events replicated in two or more samples compared to those reported in a single sample only./p> 0.3) across tissues./p> 1 (transcript per million). AbSplice-RNA improves for genes expressed in fibroblasts and remains on par with AbSplice-DNA for genes not expressed in fibroblasts./p>