banner
Lar / Notícias / Uma estrutura automatizada para avaliação de modelos de aprendizagem profunda para previsões de sites de emenda
Notícias

Uma estrutura automatizada para avaliação de modelos de aprendizagem profunda para previsões de sites de emenda

Sep 13, 2023Sep 13, 2023

Scientific Reports volume 13, Artigo número: 10221 (2023) Citar este artigo

955 acessos

2 Altmétrico

Detalhes das métricas

É apresentada uma nova estrutura para a avaliação automatizada de vários detectores de locais de splice baseados em aprendizagem profunda. A estrutura elimina atividades demoradas de desenvolvimento e experimentação para diferentes bases de código, arquiteturas e configurações para obter os melhores modelos para um determinado conjunto de dados de site de splice de RNA. O splicing de RNA é um processo celular no qual os pré-mRNAs são processados ​​em mRNAs maduros e usados ​​para produzir múltiplos transcritos de mRNA a partir de uma única sequência genética. Desde o avanço das tecnologias de sequenciamento, muitas variantes de locais de splice foram identificadas e associadas às doenças. Portanto, a previsão do local de splice do RNA é essencial para a descoberta de genes, anotação do genoma, variantes causadoras de doenças e identificação de potenciais biomarcadores. Recentemente, os modelos de aprendizagem profunda tiveram um desempenho altamente preciso na classificação de sinais genômicos. Rede Neural Convolucional (CNN), Long Short-Term Memory (LSTM) e sua versão bidirecional (BLSTM), Gated Recurrent Unit (GRU) e sua versão bidirecional (BGRU) são modelos promissores. Durante a análise de dados genômicos, o recurso de localidade da CNN ajuda onde cada nucleotídeo se correlaciona com outras bases em sua vizinhança. Em contraste, o BLSTM pode ser treinado bidirecionalmente, permitindo que dados sequenciais sejam processados ​​nas direções direta e reversa. Portanto, ele pode processar dados genômicos codificados em 1-D de maneira eficaz. Embora ambos os métodos tenham sido utilizados na literatura, faltava uma comparação de desempenho. Para comparar modelos selecionados sob condições semelhantes, criamos um modelo para uma série de redes com cinco níveis diferentes. Como estudo de caso, comparamos as capacidades de aprendizagem dos modelos CNN e BLSTM como blocos de construção para previsão de locais de splice de RNA em dois conjuntos de dados diferentes. No geral, a CNN teve melhor desempenho com \(92\%\) precisão (\(6\%\) melhoria), \(89\%\) pontuação F1 (\(8\%\) melhoria) e \(96\ %\) AUC-PR (\(4\%\) melhoria) na previsão do local de splice humano. Da mesma forma, um desempenho superior com \(96\%\) precisão (\(11\%\) melhoria), \(94\%\) pontuação F1 (\(16\%\) melhoria) e \(99\ %\) AUC-PR (\(7\%\) melhoria) é alcançada na previsão do local de splice de C. elegans. No geral, nossos resultados mostraram que a CNN aprende mais rápido que o BLSTM e o BGRU. Além disso, a CNN tem melhor desempenho na extração de padrões de sequência do que BLSTM e BGRU. Até onde sabemos, nenhuma outra estrutura foi desenvolvida explicitamente para avaliar modelos de detecção de emendas para decidir o melhor modelo possível de maneira automatizada. Assim, a estrutura proposta e o modelo ajudariam a selecionar diferentes modelos de aprendizagem profunda, como CNN vs. BLSTM e BGRU, para análise de sites de splice ou tarefas de classificação semelhantes e em diferentes problemas.

Os esforços de anotação do genoma humano se beneficiam dos recentes avanços nos estudos de sequenciamento e transcriptômica de RNA, enquanto a detecção de locais de splice se tornou uma questão de pesquisa significativa. No entanto, não há orientação para selecionar o melhor modelo para esta tarefa. Aqui apresentamos uma nova estrutura para avaliação automatizada de vários detectores de locais de splice baseados em aprendizado profundo. A estrutura elimina o desenvolvimento demorado, fornecendo experimentos automatizados para diferentes modelos, arquiteturas e configurações para obter o melhor modelo para um determinado conjunto de dados de site de splice de RNA. A identificação da localização precisa é um desafio crítico nas anotações do genoma humano. Portanto, determinar os limites exon-íntron dos genes é essencial para identificar uma estrutura genética. Os locais de splice determinam os limites éxon-íntron e íntron-éxon que regulam o splicing de RNA, um processo de modificação pós-tradução que converte moléculas de pré-mRNA em mRNAs maduros.

Além disso, mRNAs alternativos podem ser obtidos a partir da mesma sequência genética através do processo conhecido como splicing alternativo. Portanto, o reconhecimento correto do local de splice é fundamental para a formação adequada da estrutura proteica. Os locais de splice são normalmente compostos por quatro nucleotídeos conservados: a sequência doadora GT (GU para pré-mRNA) na região 5' (nos limites éxon-íntron) e a sequência aceitadora AG na extremidade 3' (nos limites íntron-éxon). ) como na Fig. 11. Os locais de splice que contêm sequências GT-AG são chamados de locais de splice canônicos. Da mesma forma, os locais de splice não contêm dímeros GT-AG chamados locais de splice não canônicos.