73 coisas memoráveis sobre o verão de 73
May 16, 2023Relatório da indústria global e chinesa de OEM/ODM/EMS de eletrônicos automotivos de 2023: em meio à evolução das arquiteturas E/E, a fronteira entre PCs e veículos desaparecerá gradualmente na era zonal
May 18, 2023Automatizando Inspeções de Fabricação Aeroespacial
May 20, 2023Hesai Technology fornecerá lidar para robôs de armazém Cratus planejados
May 22, 2023Segurança de empilhadeiras: AGVs para o resgate
May 24, 2023Previsão de emenda aberrante em tecidos humanos
Nature Genetics volume 55, páginas 861–870 (2023)Cite este artigo
13 mil acessos
1 Citações
174 Altmétrico
Detalhes das métricas
O splicing aberrante é uma das principais causas de doenças genéticas, mas sua detecção direta em transcriptomas é limitada a tecidos clinicamente acessíveis, como pele ou fluidos corporais. Embora os modelos de aprendizado de máquina baseados em DNA possam priorizar variantes raras para afetar o splicing, seu desempenho na previsão do splicing aberrante específico do tecido permanece não avaliado. Aqui geramos um conjunto de dados de referência de splicing aberrante, abrangendo mais de 8,8 milhões de variantes raras em 49 tecidos humanos do conjunto de dados Genotype-Tissue Expression (GTEx). Com 20% de recall, os modelos de última geração baseados em DNA atingem uma precisão máxima de 12%. Ao mapear e quantificar o uso do transcriptoma em todo o local de splice específico do tecido e modelar a competição de isoformas, aumentamos a precisão em três vezes no mesmo recall. A integração de dados de sequenciamento de RNA de tecidos clinicamente acessíveis em nosso modelo, AbSplice, trouxe precisão para 60%. Esses resultados, replicados em duas coortes independentes, contribuem substancialmente para a identificação de variantes não codificantes com perda de função e para o projeto e análise de diagnósticos genéticos.
A identificação de variantes de DNA com perda de função não codificantes é um grande gargalo na interpretação do genoma completo, pois é difícil prever a função fora das regiões codificantes . As variantes que alteram o splicing representam uma classe importante de variantes não codificantes de perda de função porque podem levar a isoformas de RNA drasticamente alteradas, por exemplo, induzindo mudanças de quadro ou ablações de domínios proteicos funcionalmente importantes. Se a variante alterar fortemente a escolha da isoforma de splicing, a abundância restante de isoformas funcionais de RNA pode ser tão reduzida que a função do gene é perdida. Devido à relevância do splicing para a interpretação de variantes, nomeadamente no diagnóstico de doenças raras e em oncologia, foram desenvolvidos algoritmos para prever se as variantes afectam o splicing2,3,4,5,6,7,8,9. No entanto, apenas recentemente, eventos de splicing aberrantes, isto é, grandes alterações raras no uso de isoformas de splice, foram chamados em tecidos humanos . Embora tenha sido proposto um método para priorizar a posteriori variantes raras causais candidatas para eventos de splicing aberrante observados, o problema direto, isto é, prever entre variantes raras quais resultarão em splicing aberrante, não foi abordado.
Aqui, pretendemos estabelecer modelos que prevejam se uma variante rara se associa a splicing aberrante em qualquer tecido humano. Primeiro, assumimos que apenas o DNA estava disponível e, posteriormente, consideramos os dados complementares de sequenciamento de RNA (RNA-seq) de tecidos clinicamente acessíveis (CATs) (Fig. 1).
Nós nos propusemos a prever se variantes raras se associam a splicing aberrante em 49 tecidos humanos. a, Estabelecemos um benchmark abrangente para splicing aberrante processando amostras GTEx com um chamador de splicing aberrante recentemente publicado com base no qual poderíamos avaliar e desenvolver preditores que poderiam tomar como entrada a sequência de DNA e, opcionalmente, dados de RNA-seq de CATs. b, o benchmarking revelou um desempenho modesto dos algoritmos usados atualmente baseados apenas em DNA, uma melhoria substancial de desempenho ao integrar esses modelos com SpliceMap, um mapa quantitativo de splicing específico de tecido que desenvolvemos neste estudo, e melhorias adicionais ao incluir também medidas diretas de aberrantes emenda em tecidos acessíveis.
Criamos um benchmark usando o chamador de splicing aberrante FRASER (Find RAre Splicing Events in RNA-seq) em 16.213 amostras de RNA-seq do conjunto de dados Genotype-Tissue Expression (GTEx), abrangendo 49 tecidos e 946 indivíduos. Comparado com outros métodos de detecção de outliers de splicing, o FRASER mostrou consistentemente a maior concordância com preditores baseados em sequência e, portanto, foi posteriormente usado para nossas avaliações (Extended Data Fig. 1). Para cada indivíduo, consideramos cada gene codificador de proteína carregando pelo menos uma variante rara (frequência alélica menor (MAF) inferior a 0,1% com base no banco de dados de agregação de genoma (gnomAD)13 e encontrada em não mais que dois indivíduos no GTEx) e definimos tentar prever em qual tecido, se houver, esse gene está emendado de forma aberrante. Definimos um gene para ser emendado de forma aberrante em uma amostra se ele fosse chamado como um outlier de splicing significativo em todo o transcriptoma e com uma amplitude suficiente (porcentagem diferencial de emenda (Ψ) maior que 0,3; Métodos, e veja Dados Estendidos Fig. 1 para resultados com pontos de corte alternativos). Estudos anteriores relataram que até 75% dos eventos de splicing aberrante em amostras de RNA-seq GTEx não são replicados em tecidos e, portanto, podem refletir artefatos técnicos ou splicing aberrante que não são geneticamente conduzidos. Quantificamos o enriquecimento de outliers de splicing replicados em tecidos do mesmo indivíduo em relação à distância até a variante rara mais próxima e descobrimos que eles eram enriquecidos até uma distância de 250 pares de bases (pb) (Extended Data Fig. 2). Portanto, também exigimos que uma variante rara estivesse a menos de 250 pb de distância dos limites de qualquer íntron associado ao sítio de splice com splicing aberrante (Métodos e Dados Estendidos Fig. 3). Este filtro produziu resultados semelhantes aos da filtragem de eventos aberrantes replicados, com a vantagem extra de ser aplicável a coortes independentes que possuem uma única amostra por indivíduo (Dados Estendidos Fig. 4).