EN 生科百年 内網 新内網

檢測到您當前使用浏覽器版本過于老舊,會導緻無法正常浏覽網站;請您使用電腦裡的其他浏覽器如:360、QQ、搜狗浏覽器的極速模式浏覽,或者使用谷歌、火狐等浏覽器。

下載Firefox

Mol Biol Evol | 高歌課題組提出基因丢失鑒定新方法

日期: 2023-05-29

作為細胞中基本的功能單位,蛋白編碼基因(Protein-coding genes,以下簡稱基因)可以通過轉錄-翻譯過程指導合成對于生命活動至關重要的蛋白質,進而影響生命體的生理/病理性狀。因此,基因的演化與生物體的表型演化息息相關,是介導物種特異性表型及其環境适應的重要動力之一。

容易想到,在演化過程中生物體可以獲得新的基因來執行新的功能;因此,自上世紀後期至今,新基因(Gene Birth)已成為相關領域的研究熱點。另一方面,萬物皆有生有滅,與不斷湧現的新基因相對,現有的蛋白編碼基因也可能因突變等失去原有的功能并進而從基因組中丢失。然而,受限于可用數據等多方面因素,對基因丢失(Gene Loss)及其影響長期以來尚缺乏系統研究。

近日,北京大學生物醫學前沿創新中心(BIOPIC)、北京未來基因診斷高精尖創新中心(ICG)、beat365官方网站生物信息中心(CBI)、蛋白質與植物基因研究國家重點實驗室高歌課題組在期刊Molecular Biology and Evolution上發表了題為 “Genome-wide identification of gene loss events suggests loss relics as a potential source of functional lncRNAs in humans”的生物信息學論文,在前期工作基礎上提出了新的基因丢失鑒定方法LOST & FOUND,并基于該方法對人類中的基因丢失及其影響進行了系統解析

為精準鑒定基因丢失事件,高歌團隊提出了新的基因丢失鑒定方法LOST & FOUND。LOST & FOUND的具體處理流程如圖1所示。LOST & FOUND結合了全基因組比對以及多物種中的直系同源基因數據,并運用最大簡約法等處理方法來對基因丢失進行鑒定識别。基于多物種直系同源基因關系的推斷可使LOST & FOUND避免将參考物種中的基因獲得事件錯誤識别為待研究物種中的基因丢失事件。而全基因組比對的使用則可充分考慮基因及其上下遊區段的同源性,有利于LOST & FOUND識别由大片段删除等方式造成的基因丢失事件。

1 LOST & FOUND方法流程圖

基于該方法,團隊在人類基因組中共鑒定到155個基因丢失事件。其中,有88個基因丢失事件在人類基因組内含有同源區段殘骸(relics)。有趣的是,通過将基因丢失殘骸與長非編碼RNA區段進行比較,團隊發現,在人類基因組中,有33個基因丢失事件的發生與長非編碼RNA的起源相關,并将該部分通過基因丢失起源的長非編碼RNA命名為derived lncRNA。

綜合多方面的注釋,團隊發現,derived lncRNA與其它長非編碼RNA不同,其往往有着更高的表達量、更低的組織表達特異性、更長的轉錄本結構以及更強的序列保守性(圖 2 A-F)。基于GWAS、共表達、已有實驗檢索等功能性分析的結果則表明,這部分derived lncRNA與生長發育、免疫、生殖以及抑癌作用等過程的調控均有關系。同時,超過一半的derived lncRNA均受到了正選擇的作用。

2 Derived lncRNAs的序列、表達與演化特征

綜上,高歌團隊開發了新的基因丢失鑒定方法并通過該方法系統性研究了人類基因組中基因丢失的發生與影響。值得注意的是,高歌團隊在人類基因組中發現了33個基因丢失事件與長非編碼RNA的起源相關,且這部分長非編碼RNA可能具有重要功能。結合前期已發表工作1-3這些結果提示在多個物種中,演化過程中古老的蛋白編碼基因有可能“再生”為新的長非編碼RNA來發揮作用,在基因生-死、編碼-非編碼等看似對立的概念之間建立起了有趣的聯系

博士生溫正揚為該論文第一作者,高歌研究員為該論文通訊作者。該研究得到了蛋白質與植物基因研究國家重點實驗室、北京未來基因診斷高精尖創新中心等的資助。計算分析工作于北京大學高性能計算校級公共平台和北京大學太平洋高性能計算平台完成。

論文鍊接:

Wen, Z. Y., Kang, Y. J., Ke, L., Yang, D. C. & Gao, G. Genome-Wide Identification of Gene Loss Events Suggests Loss Relics as a Potential Source of Functional lncRNAs in Humans. Mol Biol Evol 40 (2023).

https://academic.oup.com/mbe/article/40/5/msad103/7151558


參考文獻:

1          Duret, L., Chureau, C., Samain, S., Weissenbach, J. & Avner, P. The Xist RNA gene evolved in eutherians by pseudogenization of a protein-coding gene. Science 312, 1653-1655 (2006). https://doi.org:10.1126/science.1126316

2          Zhao, Y. et al. Identification and analysis of unitary loss of long-established protein-coding genes in Poaceae shows evidences for biased gene loss and putatively functional transcription of relics. BMC Evol Biol 15, 66 (2015). https://doi.org:10.1186/s12862-015-0345-x

3          Hezroni, H. et al. A subset of conserved mammalian long non-coding RNAs are fossils of ancestral protein-coding genes. Genome Biol. 18, 162 (2017). https://doi.org:10.1186/s13059-017-1293-0