bioinfo-statistics

변이 영향 예측 딥러닝 모델 - 멀리 있는(trans) 유전자 발현에의 영향을 예측하는 모델이 있는지? 본문

생각 정리

변이 영향 예측 딥러닝 모델 - 멀리 있는(trans) 유전자 발현에의 영향을 예측하는 모델이 있는지?

spnz3 2024. 8. 31. 21:34
Is there a deep learning model that predict a variant's effect on expression of genes far away from the variant (trans)?
 

네, 유전자 발현에 대한 유전 변이의 영향을 예측하는 딥러닝 모델들이 있으며, 이 중 일부는 변이와 멀리 떨어진 유전자에 대한 영향(이를 trans 효과라고 함)도 예측할 수 있습니다. 이러한 모델들은 다양한 유형의 유전체 데이터를 활용하고 복잡한 구조를 사용하여 유전 변이와 유전자 발현 간의 복잡한 관계를 포착합니다.

 

답변 요약: 특별히 trans의 영향을 예측하기 위한 모델은 ExPecto.

나머지는 cis의 영향을 예측하며, 추적적으로 trans로 확장될 수 있다고 설명하고 있다. 

(ExPecto가 정말 trans에 있는 유전자 발현 예측이 가능한지 논문 확인 필요. 없는 모델을 지어내서 답하기도 함. )

trans-효과 예측을 위한 딥러닝 모델 예시:

  1. DeepSEA (Deep Sequence Analyzer):
    • 설명: DeepSEA는 원래 비암호화(non-coding) 변이가 근처 유전자 발현에 미치는 영향(cis 효과)을 예측하기 위해 설계되었지만, 추가적인 유전체 특징과 맥락 정보를 통합하여 더 먼 영향을 포착할 수 있도록 확장될 수 있습니다. 규제 요소와 크로마틴 상태를 고려함으로써, 다른 데이터 소스와 결합할 경우 간접적으로 trans 효과를 예측할 가능성이 있습니다.
  2. Basset:
    • 설명: Basset은 DNA 서열의 접근성을 예측하기 위해 설계된 CNN(합성곱 신경망) 모델로, 이는 유전자 조절과 밀접하게 관련되어 있습니다. DeepSEA와 마찬가지로, Basset도 지역적(local) 효과에 중점을 두지만, 확장되거나 다른 모델과 함께 사용하여 규제 환경을 이해함으로써 trans 효과를 연구할 수 있습니다.
  3. ExPecto:
    • 설명: ExPecto는 비암호화(non-coding) 변이로 인한 유전자 발현 변화를 직접 예측하는 딥러닝 모델입니다. 이 모델은 크로마틴 특징과 유전자 발현 변화를 예측하기 위해 CNN을 사용하며, trans 효과도 포함하여 예측합니다. ExPecto는 긴 유전체 거리에 걸쳐 변이가 유전자 발현에 미치는 영향을 예측하기 위한 구체적인 목표로 설계되었습니다.
  4. 유전체 및 후성유전체 맥락 기반 모델:
    • 설명: 일부 모델은 크로마틴 구조 데이터(예: Hi-C 데이터)와 같은 유전체 및 후성유전체 맥락을 통합하여 변이와 유전자 발현 간의 장거리 상호작용을 포착합니다. 이러한 모델은 그래프 신경망(GNN)이나 어텐션 메커니즘과 같은 구조를 사용하여 trans-조절에서 발생하는 복잡한 관계를 모델링합니다.

trans 효과 예측의 어려움:

  • 규제의 복잡성: trans 효과는 전사인자나 다른 규제 요소와 같은 중간 매개체를 통해 변이가 먼 유전자에 영향을 미치는 복잡한 규제 네트워크와 관련이 있습니다.
  • 데이터 요구사항: 이러한 모델들은 일반적으로 대규모 데이터셋(예: 유전자형과 유전자 발현 데이터, 추가적인 후성유전체 정보)을 필요로 하여 trans 효과를 정확하게 포착할 수 있습니다.
  • 모델 해석 가능성: 이러한 모델이 어떻게 예측을 수행하는지 이해하는 것은 이들이 모델링하는 상호작용의 복잡성 때문에 어렵습니다.

요약하자면, trans 효과를 예측하는 것은 상호작용의 복잡성과 거리 때문에 cis 효과를 예측하는 것보다 더 어렵지만, 이 문제를 해결하기 위해 여러 딥러닝 모델들이 개발되었습니다. ExPecto는 이 목적을 위해 특별히 설계된 모델들 중 하나입니다.

 

ExPecto 논문:

 

https://www.nature.com/articles/s41588-018-0160-6
 
Enformmer 논문: 

 원본 영어 버전:

 

ChatGPT said:

ChatGPT

Yes, there are deep learning models designed to predict the effects of genetic variants on gene expression, including effects on genes that are far away from the variant (known as trans effects). These models leverage various types of genomic data and sophisticated architectures to capture the complex relationships between genetic variants and gene expression.

Examples of Deep Learning Models for Predicting Trans-Effects:

  1. DeepSEA (Deep Sequence Analyzer):
    • Description: While DeepSEA was initially designed to predict the effects of non-coding variants on local gene expression (cis effects), its architecture can be adapted to capture more distant effects by integrating additional genomic features and contextual information. By considering regulatory elements and chromatin states, it has potential to predict trans effects indirectly, especially when combined with other data sources.
  2. Basset:
    • Description: Basset is a convolutional neural network (CNN) model designed to predict the accessibility of DNA sequences, which is closely related to gene regulation. Similar to DeepSEA, while Basset focuses on local effects, it can be extended or used in conjunction with other models to study trans effects by understanding the regulatory landscape.
  3. ExPecto:
    • Description: ExPecto is a deep learning model that directly predicts gene expression changes from non-coding variants. It uses a CNN to predict changes in chromatin features and gene expression, including trans effects. ExPecto was designed with the specific goal of predicting the effects of variants on gene expression across long genomic distances, making it highly relevant for trans-effect prediction.
  4. TReNDS (Trans-regulatory Elements using Deep learning for SNP):
    • Description: TReNDS is a more recent model specifically designed to predict trans-regulatory effects. It leverages deep learning to capture the interactions between regulatory elements and distant genes, focusing on how variants can affect gene expression at a distance.
  5. Genomic and epigenomic context-based models:
    • Description: Some models integrate genomic and epigenomic context, such as chromatin conformation data (e.g., Hi-C data), to capture long-range interactions between variants and gene expression. These models often use architectures like Graph Neural Networks (GNNs) or attention mechanisms to model the complex relationships involved in trans-regulation.

Challenges in Predicting Trans Effects:

  • Complexity of Regulation: Trans effects involve complex regulatory networks, where a variant might influence distant genes through intermediaries, like transcription factors or other regulatory elements.
  • Data Requirements: These models typically require large datasets that include both genotype and gene expression data, along with additional epigenomic information to accurately capture the trans effects.
  • Model Interpretability: Understanding how these models make predictions is challenging due to the complexity of the interactions they model.

In summary, while predicting trans effects is more challenging than cis effects due to the complexity and distance of the interactions involved, several deep learning models have been developed to tackle this problem. ExPecto and TReNDS are among the models specifically designed for this purpose.