糖組學人工智能的實施始于 20 世紀 90 年代的質譜分析流程,其中應用機器學習算法來預測糖肽片段強度 [2]。隨著對蛋白質糖基化模式的日益重視,研究人員希望通過研究 N-糖基化和較少研究的 O-糖基化的氨基酸序列來更詳細地表征糖基化位點。盡管已知聚糖連接發生在絲氨酸或蘇氨酸的氧上,但鄰近氨基酸對 O-糖基化的作用尚未闡明。
在第一代人工智能工具時代,糖基化位點數據集是從組織樣本和活檢中的蛋白質中收集的,這些數據可在UniPep [3] 和N-GlycositeAtlas [4] 等數據庫中獲取。此外,還開發了NetNGlyc [5] 和YinOYang [6] 等人工神經網絡工具,以使用已知的聚糖數據作為訓練集來預測新的 N- 和 O- 糖基化位點。 2005年至2015年間,神經網絡的預測能力通過支持向量機和隨機森林算法得到了提高。基于這些算法,GlycoMine等軟件解決方案[7]使用基于氨基酸序列以及聚糖的結構和功能特征的多層預測來改進糖基化位點預測。
如今,隨著基因組學、轉錄組學、蛋白質組學以及計算方法的結合,人工智能對糖生物學的影響不斷擴大,極大地增強了位點預測和聚糖分析。例如,Moon 等人。開發了一種隨機森林算法,該算法采用聚糖立體異構體的空間和電子參數來準確預測特定異構體的選擇性結合[8]。安東尼庫迪斯等人。在基于系統的方法中使用人工神經網絡,其中開發了化學計量模型來預測糖基化酶通量和隨后的聚糖豐度[9]。
與此同時,其他平臺,例如Glycowork,專注于處理廣泛的聚糖數據,以揭示生物體特異性的聚糖譜 [10]。
除了位點預測和分析之外,人工智能工具還有助于更好地理解聚糖和細胞表型之間的復雜關系。秦等人。引入了一種算法,該算法使用單細胞 SUGAR-seq 數據來預測導致 N-聚糖分支的基因以及不同分支對小鼠模型中 T 細胞亞型的影響 [12]。有趣的是,這些基因在細胞亞型之間的差異表達分析中并未被發現,這凸顯了深度學習在表型分析中的價值。
另一個令人興奮的工具是GlyCompareCT,顧名思義,它通過將不同數據集中的聚糖基序分解為聚糖子結構來比較它們的組成和豐度 [13]。這允許用戶從子結構生成完整的圖案集。 GlyCompareCT 基于 Python 的特性使其成為一個用戶友好的工具,可以通過命令行運行。
雖然多種糖信息學工具可以有助于我們對糖基化的理解,但需要做更多的工作將下一代機器學習整合到糖生物學中。特別是,深度學習工具在處理大型非結構化數據集時非常有用。AlphaFold [14] 是利用深度學習來預測蛋白質結構(包括其可能的折疊狀態)的開創性項目之一。也就是說,該平臺只能處理蛋白質序列,因此缺乏對糖基化和其他翻譯后修飾的預見性。
最近,深度學習方法開始用于從序列數據推斷糖基轉移酶的結構和功能。陶哈萊等人。開發了一個工作流程,使用監督式深度學習從蛋白質序列推斷糖基轉移酶的折疊狀態,這使他們能夠預測其糖供體特異性[15]。隨后,新的工具,如GlyNet [16]、SweetTalk [17] 和glyBERT [18] 開始出現,對支鏈和非線性聚糖的合成具有改進的預測價值。相同的工具也可用于預測蛋白質糖基化位點[19]。
糖生物學的主要挑戰之一是缺乏廣泛的糖組學數據,這阻礙了新聚糖結構的發現。下一代人工智能模型可以通過結合聚糖結構之外的新功能來克服這個問題。這些特征可以從組學數據中提取,這些數據提供有關上游(例如前體單糖)和下游過程(對信號通路的影響)的信息。由于幾種聚糖可以共享共同的合成步驟或表現出類似的下游效應,因此這些知識可以顯著擴大預測聚糖的范圍[20]。
最后,可以利用機器學習工具聯盟來了解宿主與病原體的相互作用。特別是,預見跨物種傳播的能力可以幫助規避未來流行病的影響。首先,評估不同物種的相似聚糖結構可以揭示宿主受體-聚糖相互作用,從而允許病毒進入,從而了解哪些生物體容易受到病毒入侵。它還可以揭示病原體如何利用糖基化來模仿宿主聚糖來逃避免疫反應。此外,輸入的組合,例如人類和所研究的動物之間的聚糖相似性和系統發育距離,可以告訴我們導致宿主轉向人類的致病突變的可能性。初步模型,例如SweetNet,利用下一代機器學習工具(例如圖卷積神經網絡)來識別流感病毒和輪狀病毒上的聚糖受體,同時揭示結合特異性[21]。這種方法可以推廣到其他幾種病毒蛋白,以解釋它們如何在人類中傳播。
人工智能模型的持續開發和多組學的整合對于解決糖生物學中的各種問題具有不可估量的價值。這些包括但不限于糖基轉移酶結構、蛋白質上的糖基化位點、復雜聚糖對細胞功能的影響、病原體-宿主相互作用和免疫腫瘤學(即腫瘤微環境)。從人工智能模型中獲得的新見解將幫助研究人員進行更有針對性的研究,以了解糖基化在健康和疾病中的作用。