在使用殷賦云計算平臺的時候,有不少用戶對于如何選擇蛋白晶體結構存在疑問。本篇就這個話題做一些經驗分享。任何標準都有一個適用范圍。我們在這里只討論用于分子對接的蛋白晶體結構的選擇原則和方法。
1. 確定蛋白種屬在實驗當中,研究人員通常使用動物模型(如小鼠)來研究人源蛋白。這樣做有許多原因,比如:
1) 無法獲得(提純分離)人源蛋白;
2) 需要在體內考察蛋白的功能,但無法直接進行人體臨床試驗;
3) 使用動物蛋白更方便、更便宜;
4) 其他限制因素。
而計算模擬則便利很多。如果我們真正的研究對象是人體,則一般情況下應當使用人源蛋白。但是,如果需要根據對接計算的結果去指導實驗或解釋實驗現象,或者開展后續實驗(如定點突變)對計算結果進行驗證,那么,原則上應當讓計算用的蛋白種屬與實驗一致,否則氨基酸序列可能對應不上。
比如,在UniprotKB數據庫(https://www.uniprot.org/)輸入基因名1DH1,得到以下結果。然后,根據我們確定的種屬查詢相應的蛋白。
(UniprotKB數據庫蛋白查詢結果)
假設我們要研究人的蛋白,那么,可以在RCSB Protein Data Bank數據庫中搜索它的Entry name(1DHC_HUMAN)。另一方面,PDB數據庫也會給出每個晶體結構的種屬信息。
(PDB詳情頁的蛋白種屬信息)
做任何研究都應當對研究對象有充分了解。UniprotKB數據庫為我們整合了蛋白的相關知識,我們可以通過它獲得重要的信息。比如,了解蛋白的功能是什么,序列有多長,結合位點在哪里,有哪些蛋白結構。
(UniprotKB蛋白詳情頁,了解蛋白功能與結構信息)
(蛋白的結合區域信息)
對于某些蛋白,RCSB PDB數據庫可能存在許多晶體結構。這種情況下,應當選擇包含完整口袋的晶體結構。比如,當我們尋找1DH1基因的蛋白(Isocitrate dehydrogenase [NADP] cytoplasmic,Uniprot AC: IDHC_HUMAN)時,找到許多晶體結構。以4UMX和4UMY為例,如果查看三維結構,我們會發現4UMY有較多殘基缺失。最關鍵的是,一大段組成口袋的殘基缺失了,導致口袋的形狀改變(對比4UMX可知)。相反,4UMX則較為完整。因此,我們不應選擇4UMY,而應選擇4UMX作為候選結構。
(口袋完整與殘基缺失的蛋白對比)
很多時候,蛋白晶體結構中不只是蛋白,還可能有核酸、多肽、輔酶、小分子化合物(抑制劑、拮抗劑、激動劑、底物)、助溶劑、表面活性劑、金屬離子和水分子以及其他分子;除了目標蛋白,可能還有其他蛋白。在PDB數據庫的蛋白詳情頁內有詳細記錄,我們需要了解各組分是什么物質,各自的作用是什么,哪個是共晶配體。
(蛋白晶體結構中各組分的信息)
一些很小的分子,數量很多的分子,結合在很淺的蛋白表面的分子,通常不會是配體分子(但也有例外)。還有一些名稱非常常見的,比如:GOL、ACT、PEG、SO4等等,這些只是蛋白結晶所需要的或者在溶液中存在的分子,不是真正意義上的配體分子。
仍然以4UMX為例,通過查詢它的詳細記錄(https://www.rcsb.org/structure/4UMX),我們了解到NAP是輔酶,VVS是小分子配體,GOL是助溶劑分子而已。那么,我們應當以VVS的結合位置為對接口袋,而不應以NAP為對接位點。考慮到NAP與VVS有直接的相互作用,我們應當在對接時保留NAP,把它作為受體的一部分參與對接。
常見的輔酶還有:ADP、ATP、NAD+、NADH、NADP+、NADPH、HEME。
5. 選擇共晶配體相似的晶體結構當有多個蛋白晶體結構可選,并且很多是包含共晶配體的,我們可以選擇共晶配體與要對接的化合物在結構上比較相似的那個。因為蛋白與配體在結合過程中,會發生“誘導契合”效應。有的蛋白的口袋柔性較大,這種效應更加明顯,蛋白跟不同配體結合時,口袋會有所改變。更為極端的是,有可能存在“開”和“合”等不同狀態。而對接過程中,蛋白結構是剛性不變的。因此,選擇口袋形狀合適的晶體結構會有利于對接。
6. 選擇分辨率高的晶體結構蛋白晶體結構的質量指標之一是resolution,它表示晶體結構模型中的原子位置的不確定程度。在有許多晶體結構可選的情況下,我們選擇分辨率高的,即resolution數值小的。一般來說,resolution < 2 Å就足夠好了。但這不是最重要的選擇標準,很多人一上來就根據這條規則過濾掉大部分蛋白,這是不夠嚴謹、合理的。因為這樣有可能導致被過濾掉的低分辨率蛋白中包含共晶配體,而剩下的高分辨率蛋白中卻沒有配體的情況。此時選擇高分辨率蛋白就無法確定口袋的位置(雖然可以通過低分辨率蛋白來了解口袋位置,但仍然不便于定位口袋)和獲得適合的口袋形狀。
(蛋白結構分辨率resolution)
值得注意的是,晶體結構由于分辨率問題,通常不含氫原子,只有個別超高分辨率的文件,才能看到氫原子的確切位置。相反,核磁結構通常含有氫原子,且有較多構象(它是溶液中的狀態),但不含配體分子。在蛋白分辨率的選擇問題上,我們應有合理的依據,而非教條主義、人云亦云。
總結事實上,如何選擇蛋白晶體結構,是個帕累托最優問題。我們需要綜合判斷,選擇最適合于當前研究的晶體結構。上述內容雖然是針對分子對接計算來講的,但同樣適用于其他計算模擬的情況。