檢測到您當前使用浏覽器版本過于老舊,會導緻無法正常浏覽網站;請您使用電腦裡的其他浏覽器如:360、QQ、搜狗浏覽器的極速模式浏覽,或者使用谷歌、火狐等浏覽器。
生命是細胞有序排列構成的整體。單個細胞在脫離生物體後難以獨立發揮功能。因此需要聯合細胞所處的微環境和空間位置來全面理解細胞功能。随着近年來空間組學技術的迅猛發展,已經基于多種技術平台産生了大量來自不同組織、器官的空間組數據,如何精準表征這些快速增長的海量大規模異質數據不僅是相應計算模型方法開發的基礎,也是有效解析其中蘊含豐富生物醫學信息的前提。
針對上述挑戰,北京大學/昌平實驗室高歌課題組提出了面向大規模異質性空間轉錄組學切片的表征與解析方法PASSAGE。有别于當前方法主要關注于單個或數個切片中細胞級别特征,PASSAGE提出的基于多層次注意力的大規模異構空間組學表征方法從空間組切片(slice)、細胞與分子多個層次進行不同粒度的表征學習與解析,有效增強了計算效率和可擴展性。具體來說,PASSAGE在基于圖注意力自編碼器的細胞級表征基礎上設計了注意池化層(attention pooling layer),将同一切片的所有細胞加權融合成切片級表征,而後通過由表型信息指導的對比學習策略對切片級表示進行優化,并進而采用非負矩陣分解方法獲得基因級别的注意力分數,從而實現對特定表型關聯空間組學特征的有效解析(圖1)。
圖 1 PASSAGE模型的結構示意圖
如針對來自兩個不同空轉平台(ST,Visium)、42個不同病人的103張乳腺組織與乳腺癌切片,PASSAGE不僅有效處理了不同樣本之間存在的批次效應,從而準确識别出不同病人切片中與乳腺癌組織相關的空間區域(圖2a)。與此同時,PASSAGE引入的分子水平注意力表征可從注意池化層權重中獲得與表型高度相關的基因集,如乳腺癌案例中識别的基因在之前的乳腺癌研究中已被發現與疾病進程高度相關,從而增強了模型的生物學可解釋性(圖2b)。
圖2 A) PASSAGE在乳腺癌案例中成功學習到良好的切片級表征與所識别的表型關聯空間特征 B) PASSAGE在乳腺癌案例中成功學習到與表型關聯空間特征高度關聯的基因集
值得指出的是,上述多尺度表征學習架構使得PASSAGE可以有效實現針對大規模異質性空間轉錄組學數據的表型相關組學特征系統解析,一張常規4090消費級别GPU卡的算力即可達到平均每分鐘600個空間點/細胞的處理速度。
本研究由中國科學院廣州生物醫藥與健康研究院彭廣敦實驗室研究生郭臣凱于高歌實驗室進行訪學期間,與實驗室博士生夏辰睿合作完成。北京大學/昌平實驗室高歌教授、曹智傑博士和中國科學院廣州生物醫藥與健康研究院彭廣敦研究員為該論文共同通訊作者。研究工作得到了國家自然科學基金(32270854)、中國博士後科學基金特别資助(2023T160009)、國家自然科學基金青年學生基礎研究項目(博士研究生,323B2017)、以及基因功能研究與操控全國重點實驗室、北京未來基因診斷高精尖創新中心和昌平實驗室的支持。相關論文2025年2月5日于期刊Small Methods Single-cell and Spatial transcriptomics專輯應邀在線發表,全部代碼均已開源發布于https://github.com/gao-lab/PASSAGE。