EN 生科百年 内網 新内網

檢測到您當前使用浏覽器版本過于老舊,會導緻無法正常浏覽網站;請您使用電腦裡的其他浏覽器如:360、QQ、搜狗浏覽器的極速模式浏覽,或者使用谷歌、火狐等浏覽器。

下載Firefox

Nature Communications | 高歌課題組提出人類轉錄調控元件建模與相關非編碼變異功能解析方法

日期: 2025-01-04

細胞是生物體生命活動的基本單元,生命活動的正常進行依賴于精确的基因表達調控過程,而基因轉錄調控過程則是基因表達調控中的重要環節。人類基因組中約98%的區域為非編碼區,其中約80%的區域可能涉及基因轉錄調控過程。基因的時空特異性表達依賴于複雜的基因調控網絡,涉及多種順式調控元件,并且往往以組合的方式共同發揮調控作用。針對高等真核生物多層次、跨尺度的複雜基因調控模式,如何有效鑒定基因組中的調控元件并挖掘轉錄調控規律是亟待解決的重要挑戰。

針對上述挑戰,2024年12月30日,北京大學/昌平實驗室高歌課題組于Nature Communications在線發表題為Quantifying the regulatory potential of genetic variants via a hybrid sequence-oriented model with SVEN的研究論文,通過引入多尺度混合模型,逐層學習序列中的調控信息,進而量化建模特定調控元件及其組合對下遊基因表達的影響。在此基礎上,構建了人類轉錄調控相關非編碼變異功能解析方法SVEN,能夠針對不同類型的變異(包括大尺度的結構變異和小尺度的SNV/indel等),在超過350個組織和細胞系中實現複雜非編碼基因組變異的功能預測與機制解析,為從序列水平深入理解細胞調控圖譜提供了有價值的方法學基礎與數據儲備。

為充分利用現有數據并提升模型的準确性,SVEN采用了一種不同于傳統“單一大模型”的構建方式,創新性地引入了基于序列的多尺度混合模型架構:基于來自ENCODE的超過400種組織和細胞系的組學數據,通過結合針對特征的個體模型(feature-oriented separate models)和針對類的整體模型(class-oriented holistic models),以一組“小模型”分别學習基因組調控序列的特征(如轉錄因子結合、DNA開放性和組蛋白修飾),而後再通過隐空間投影去除冗餘的特征信息,實現了對多個組織和細胞系中基因轉錄水平的量化建模(圖1)。

圖3 SVEN可準确預測結構變異對基因轉錄水平影響

SVEN全部實現代碼已經開源發布:https://github.com/gao-lab/SVEN

beat365官方网站博士生王宇(已畢業,現為昌平實驗室博士後)為該論文第一作者,梁楠在實驗驗證方面提供大力支持。該研究得到了國家重點研發計劃、蛋白質與植物基因研究國家重點實驗室、北京未來基因診斷高精尖創新中心和昌平實驗室的資助。計算分析工作于昌平實驗室高性能計算平台、北京大學太平洋高性能計算平台與北京大學高性能計算校級公共平台完成。

論文鍊接:https://doi.org/10.1038/s41467-024-55392-7