阿爾法摺疊革命何去何從?

AI預測人類白介素12蛋白與其受體結合的結構

圖片來源:Ian Haydon,威斯康星大學蛋白質設計醫學研究

人體核孔複合體的俯視圖,這是人體細胞中最大的分子機器

圖片來源:《自然》網站

【科技創新世界潮】

十多年來,德國馬克斯普朗克生物物理研究所分子生物學家馬丁貝克及其同事一直試圖拼湊出世界上最難的拼圖遊戲之一:人類細胞中最大分子機器的詳細模型。這個龐然大物被稱爲核孔複合體,控制着分子進出細胞核的流動,而細胞核正是基因組所在之處。每個細胞中都存在數百個這樣的複合物,每個都由超過1000種蛋白組成,它們形成一個環,鑲嵌在覈膜上。

這1000塊拼圖由30多種蛋白質構建塊組成,它們以多種方式交織在一起。讓拼圖更難的是,實驗確定的這些構建塊的三維結構是來自許多物種的結構大雜燴,並不能總是很好地融合在一起。而且,拼圖的終極目標,即核孔複合體的低分辨率三維視圖缺乏足夠的細節,人們無法知道需要有多少塊能精確地拼在一起。

2016年,貝克團隊報告了一個模型,它覆蓋了核孔複合體約30%以及30個構建塊的約一半,稱爲Nup蛋白。2021年7月,深度思維公司公開了一款名爲阿爾法摺疊2的人工智能(AI)工具該軟件可從蛋白質的基因序列中預測其三維結構,並且大部分情況下是精確的。這改變了貝克的任務,以及成千上萬其他生物學家的研究。

在某些情況下,AI爲科學家節省了時間;在其他情況下,它使以前難以想象或極不現實的研究成爲可能。儘管它有侷限性,但它的發展已經不可阻擋。

“一鳴驚人”的成功

2020年12月,阿爾法摺疊引起了轟動。當時,它在一場名爲“蛋白質結構預測關鍵評估”的比賽中大放異彩。而阿爾法摺疊2的預測平均而言已與大多數實驗數據不相上下。

在阿爾法摺疊算法廣泛開源之前,美國華盛頓大學醫學院蛋白質設計研究所研究人員開發了AI工具RoseTTAFold,其擁有可媲美阿爾法摺疊2的蛋白質結構預測超高準確度,而且速度更快、所需計算機處理能力更低。

2021年7月15日,深度思維宣佈,它已經使用阿爾法摺疊預測了幾乎每一種人類製造的蛋白質的結構,以及其他20種被廣泛研究的生物的整個蛋白質組(比如小鼠和大腸桿菌),共計超過36.5萬個結構。深度思維還將這些數據公開發布到歐洲生物信息學研究所維護的數據庫中,這個數據庫已擴展到近100萬個結構。

今年,深度思維計劃發佈總計超過1億個結構預測。這幾乎佔所有已知蛋白質的一半,是蛋白質數據庫(PDB)結構庫中實驗確定的蛋白質數量的數百倍。阿爾法摺疊還部署了深度學習神經網絡,目前已經接受了PDB和其他數據庫中的數十萬個實驗確定的蛋白質結構和序列的訓練。

從結構角度解答新科學問題

阿爾法摺疊解決結構的能力給生物學家們留下了深刻的印象。“只要一種蛋白質捲曲成單一的明確的三維結構,阿爾法摺疊的預測就很難被推翻。”瑞典斯德哥爾摩大學蛋白質生物信息學家阿恩・埃洛夫鬆說,“這是一種一鍵解決方案,你可能會得到最佳模型。”

英國倫敦大學學院計算生物學家克里斯汀・奧倫戈團隊正在利用其確定新的蛋白質種類,並發現了數百、甚至數千個潛在的新蛋白質家族,擴大了科學家對蛋白質外觀和功能的瞭解。在另一項工作中,該團隊正在搜索從海洋和廢水中收集的DNA序列數據庫,試圖識別新的分解塑料的酶。

美國哈佛大學進化生物學家謝爾蓋奧夫欽尼科夫表示,將任何蛋白質編碼的基因序列轉化爲可靠結構的能力都非常可貴。研究人員通過比較基因序列,以確定生物及其基因在不同物種之間的關係。但對於遠親基因,僅通過比較,可能找不到進化上的近親,因爲序列發生了太大的變化。而通過比較蛋白質結構,其變化速度往往不如基因序列那麼快,研究人員或能揭示被忽視的古老關係。這爲研究蛋白質的進化和生命起源提供了一個絕佳的機會。

存在一定侷限性

目前已有嘗試證明,阿爾法摺疊不具備預測蛋白質新突變後果的能力,因爲沒有與進化相關的序列來檢驗。

研究人員表示,許多蛋白質具有多種構象,並與DNA和RNA等配體、脂肪分子和鐵等礦物質一起發揮作用,但阿爾法摺疊的預測是針對孤立結構,它不能真正處理那些可在不同構象中採用不同結構的蛋白質。

美國哥倫比亞大學的計算生物學家穆罕默德・庫雷希說,開發下一代神經網絡將是一個巨大的挑戰。目前還無法獲得大量的數據來捕捉蛋白質動力學,或者蛋白質可能與之相互作用的數萬億個較小分子的形狀。

歐洲生物信息學研究所計算生物學家珍妮特・桑頓認爲,阿爾法摺疊最大的影響之一可能只是說服生物學家對計算和理論方法的見解持更開放的態度。“對我來說,這場革命就是觀念的改變”。

但阿爾法摺疊革命激發了歐洲分子生物學實驗室結構建模師揚・科辛斯基的遠大夢想。他設想,受阿爾法摺疊啓發的工具不僅可用來對單個蛋白質和複合體進行建模,還可用來對整個細胞器甚至細胞進行建模,直到完整單個蛋白質分子,“這是我們在接下來的幾十年裡要追尋的夢想”。