
LeDock是蘇黎世大學(xué)Zhao HongTao在博士期間開發(fā)的一款分子對(duì)接軟件,專為快速準(zhǔn)確地將小分子靈活對(duì)接到蛋白質(zhì)而設(shè)計(jì)。
LeDock優(yōu)于大部分商業(yè)軟件,在Astex多樣性集合上實(shí)現(xiàn)了大于90%的構(gòu)象預(yù)測(cè)準(zhǔn)確度,對(duì)接時(shí)間最快僅需三秒。
LeDock同時(shí)支持Windows、Linux和MacOS三大操作系統(tǒng)。
Linux版支持大規(guī)模虛擬篩選,需要通過代碼操作才能實(shí)現(xiàn)目標(biāo)。
Windows版的圖形界面極大簡(jiǎn)化了藥物化學(xué)家常見多重復(fù)雜的對(duì)接過程,但每次任務(wù)只能對(duì)接一個(gè)分子,效率極低,只適用于少量對(duì)接場(chǎng)景。
如果考慮到不少用戶還有分子庫(kù)相關(guān)的需求,無論哪種版本,對(duì)用戶來說,都有點(diǎn)難搞。
今天我們就通過一個(gè)LeDock實(shí)證來聊聊,怎么幫助大家愉快地(不寫代碼)提高大規(guī)模分子對(duì)接效率(少點(diǎn)手動(dòng)),甚至還能解決一些別的問題(一些爽點(diǎn)),擴(kuò)大實(shí)驗(yàn)的空間和范圍,放飛研發(fā)人員的想象力。
科研這件事,還是需要有點(diǎn)兒想象空間的。
用戶需求
某藥企藥物化合部想使用LeDock進(jìn)行20萬分子對(duì)接任務(wù),但本地只有兩臺(tái)48核的工作站。
如果按Windows版的一對(duì)一串行對(duì)接模式,假設(shè)按1分鐘一個(gè)算吧,不吃不喝不睡不關(guān)機(jī),也要對(duì)接138天。如果再加上中間出錯(cuò)修改、參數(shù)配置、分子庫(kù)處理,無數(shù)次重復(fù)手動(dòng)操作步驟,就,沒法算了。。。
如果用Linux版,這一時(shí)長(zhǎng)就取決于兩個(gè)點(diǎn):本地?fù)碛械馁Y源數(shù)量和IT能力的高低。
所以,他們有以下幾個(gè)問題:
1. 基于現(xiàn)實(shí)條件,怎么快速達(dá)成用LeDock跑20萬分子對(duì)接任務(wù)這個(gè)目標(biāo)?
2. 能不能使用更友好的圖形界面來進(jìn)行操作?甚至把一些工作流程固定,下次直接就能用,還可以分享給同事?
3. 能不能幫忙準(zhǔn)備分子庫(kù)?
實(shí)證目標(biāo)
1、能否讓用戶擁有Windows版和Linux版的雙重優(yōu)點(diǎn),不用寫代碼,也能實(shí)現(xiàn)大規(guī)模虛擬篩選?
2、LeDock任務(wù)能否在fastone云平臺(tái)大規(guī)模運(yùn)行且效率顯著提升?
3、用戶很多常見復(fù)雜的手動(dòng)操作,能不能自動(dòng)化進(jìn)行?
4、是否能為用戶提供開箱即用的分子庫(kù)?
實(shí)證參數(shù)
產(chǎn)品類型:
速石FCC-E產(chǎn)品
操作系統(tǒng)及應(yīng)用:
LeDock Linux版
適用場(chǎng)景:
研究配體和受體(藥物分子)相互作用的模擬方法
云端硬件配置:本任務(wù)屬于CPU密集型任務(wù),對(duì)內(nèi)存的需求不高,因此我們選擇了高性價(jià)比的云端計(jì)算優(yōu)化型實(shí)例(CPU/內(nèi)存=1:2)。
用戶完整工作流程圖
用戶打開應(yīng)用,提交蛋白質(zhì)pdb文件,選擇分子庫(kù)文件和資源后,由fastone平臺(tái)進(jìn)行分子對(duì)接并打分,用戶可直接查看結(jié)果,提取目標(biāo)分子,進(jìn)行下一步化合物研究。

實(shí)證過程
一、開箱即用,一鍵定位&加密的分子庫(kù)
1. 開箱即用的分子庫(kù)
對(duì)接開始前,用戶除了蛋白質(zhì)pdb文件,還需要準(zhǔn)備分子庫(kù)文件。分子庫(kù)大多來自海外,其本身的大小和數(shù)據(jù)質(zhì)量,直接影響著后續(xù)虛擬篩選階段的命中率。對(duì)用戶來說,需要將分子庫(kù)從外網(wǎng)下載到本地,有些數(shù)據(jù)量動(dòng)輒幾十T,如果還涉及分子結(jié)構(gòu)從2D轉(zhuǎn)換到3D等復(fù)雜處理,運(yùn)算量相當(dāng)大,要么耗時(shí)間,要么耗錢。
我們已經(jīng)準(zhǔn)備好開箱即用的分子庫(kù)供用戶使用,包括:Zinc、DrugBank、Maybridge、Enamine等。

因?yàn)長(zhǎng)eDock僅支持mol2格式,fastone平臺(tái)會(huì)在對(duì)接前,自動(dòng)將sdf格式轉(zhuǎn)換成多分子mol2格式文件,同時(shí)完成拆分,使單個(gè)分子對(duì)應(yīng)一個(gè)mol2文件。否則,直接把多分子mol2文件放進(jìn)去對(duì)接,只會(huì)讀取第一個(gè)分子。
2. 一鍵定位&加密的分子庫(kù)索引系統(tǒng)
用戶篩選完分子后,還要在20萬個(gè)分子的原始庫(kù)里迅速定位并提取出來。這難度不亞于只知道書名但要在圖書館里找書,茫茫書海,大海撈針。
我們的分子庫(kù)索引系統(tǒng)就派上了大用場(chǎng)。
這套索引和圖書館索引系統(tǒng)類似,將原始分子名字通過加密轉(zhuǎn)換成唯一ID, ID相當(dāng)于GPS定位,表示該分子在原始庫(kù)里的具體位置。
比如,某分子的唯一ID為“A-G22-18578”,即表示他位于分子庫(kù)A區(qū)G22柜的第18578個(gè),可以輕松將分子提取出來。

這道索引系統(tǒng)相當(dāng)于為原始分子庫(kù)做了一道數(shù)據(jù)加密和定位系統(tǒng),除了用戶沒人知道最終提取出來的是哪些分子,既保護(hù)了數(shù)據(jù)的安全性,又讓用戶能迅速定位到某個(gè)分子。
二、云端大規(guī)模業(yè)務(wù)驗(yàn)證
200000個(gè)分子上云
用戶使用fastone平臺(tái),在云端調(diào)度768核計(jì)算資源,成功對(duì)接200000個(gè)分子,從中篩選出了300個(gè)分子,進(jìn)行下一步的化合物研究。此次任務(wù)對(duì)接共耗時(shí)3.5小時(shí),平均對(duì)接一個(gè)分子只需45S。
這里要說明一下,這個(gè)45S不是純分子對(duì)接時(shí)間,是包括了用戶的整個(gè)工作流程所有操作在內(nèi)的。而且,不同分子之間的對(duì)接時(shí)長(zhǎng)是不一樣的,時(shí)間會(huì)被對(duì)接得慢的分子拉長(zhǎng),無法直接橫向?qū)Ρ取1热缬脩粼谶M(jìn)行3萬分子對(duì)接的時(shí)候,平均時(shí)長(zhǎng)卻達(dá)到了90S。
實(shí)證過程:
1. 云端調(diào)度48核計(jì)算優(yōu)化型實(shí)例運(yùn)算一組LeDock任務(wù)(對(duì)接約200000個(gè)分子),耗時(shí)3262.6分鐘;
2. 云端調(diào)度96核計(jì)算優(yōu)化型實(shí)例運(yùn)算一組LeDock任務(wù)(對(duì)接約200000個(gè)分子),耗時(shí)1630.8分鐘;
3. 云端調(diào)度192核計(jì)算優(yōu)化型實(shí)例運(yùn)算一組LeDock任務(wù)(對(duì)接約200000個(gè)分子),耗時(shí)815.1分鐘;
4. 云端調(diào)度384核計(jì)算優(yōu)化型實(shí)例運(yùn)算一組LeDock任務(wù)(對(duì)接約200000個(gè)分子),耗時(shí)407.2分鐘;
5. 云端調(diào)度768核計(jì)算優(yōu)化型實(shí)例運(yùn)算一組LeDock任務(wù)(對(duì)接約200000個(gè)分子),耗時(shí)203.3分鐘。

從圖上可以看出,LeDock任務(wù)在云端的線性擴(kuò)展性表現(xiàn)良好,當(dāng)云端資源增加到768核之后,運(yùn)算時(shí)間縮短到了3個(gè)多小時(shí),極大地提升了運(yùn)行效率。
即使當(dāng)分子數(shù)量增加到2800萬這個(gè)量級(jí),我們調(diào)用10萬核CPU資源,在AutoDock Vina這個(gè)應(yīng)用上也同樣表現(xiàn)優(yōu)秀,可參考《提速2920倍!用AutoDock Vina對(duì)接2800萬個(gè)分子》
三、自動(dòng),自動(dòng),全是自動(dòng)
1. 單機(jī)模式VS并行化
我們把跑分子對(duì)接這個(gè)任務(wù)分成三種不同的IT難度等級(jí) :
沒有難度:單機(jī)單CPU核,單任務(wù)。
中等難度:單機(jī)多CPU核,多任務(wù)。
王者難度:多機(jī)多CPU核,多任務(wù)。
想要對(duì)三種難度等級(jí)深入了解,看這里《揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事》
如果按照“沒有難度”這個(gè)等級(jí),200000個(gè)分子串行排隊(duì),一個(gè)任務(wù)跑1分鐘,我們開頭已經(jīng)算過了,基本沒什么現(xiàn)實(shí)可操作性。
我們直接將你帶飛到"王者難度",在n臺(tái)n核的機(jī)器上跑,效率提升n*n倍,理論上n可以無限大。這個(gè)數(shù)字用戶可以自行設(shè)定。

2. 一次設(shè)定,跑完20萬個(gè)任務(wù)
怎么把一些工作流程固定,不用一次次重新設(shè)定,下次直接一鍵使用。甚至還可以分享給其他同事,提高大家的工作效率?
到了速石傳統(tǒng)藝能項(xiàng)目—自定義模板出馬的時(shí)候了。
我們將用戶跑LeDock的工作流程固定成一套模板:
step 1:用戶提交蛋白質(zhì)pdb文件;
step 2:用戶選擇sdf格式分子庫(kù)文件;
step 3:fastone平臺(tái)自動(dòng)將sdf格式轉(zhuǎn)換為mol2格式分子庫(kù)文件;
step 4:fastone平臺(tái)自動(dòng)進(jìn)行多分子拆分;
step 5:fastone平臺(tái)將蛋白質(zhì)、參數(shù)文件與mol2格式分子進(jìn)行對(duì)接;
step 6:fastone平臺(tái)掃描所有已完成對(duì)接的分子,進(jìn)行打分;
step 7:用戶查看打分結(jié)果;
step 8:用戶篩選并從分子庫(kù)里提取出分子,進(jìn)行下一步化合物研究。
用戶在這個(gè)模板的基礎(chǔ)上,自行調(diào)整各項(xiàng)參數(shù),就能按這個(gè)流程一路跑下去了。
一次設(shè)定,反復(fù)使用,省時(shí)省力,還不用擔(dān)心以后不小心出錯(cuò)。
這套自定義模板不但能分享,還可以跨應(yīng)用設(shè)定,可以展開看看《1分鐘告訴你用MOE模擬200000個(gè)分子要花多少錢》
3. 自動(dòng)檢查文件完整性
這個(gè)自動(dòng)檢查包括兩個(gè)部分:
第一,用戶上傳配置文件的同時(shí),速石平臺(tái)內(nèi)置的檢查程序,會(huì)自動(dòng)檢查文件完整性。
每個(gè)步驟需要用到的文件量很可能不一致,如果用戶運(yùn)行到第五六步了,才發(fā)現(xiàn)某個(gè)上傳文件有問題,應(yīng)該會(huì)非常崩潰。
第二,對(duì)接完成后,我們會(huì)對(duì)完成打分的文件數(shù)和初始文件庫(kù)做日志校驗(yàn),看數(shù)據(jù)是否有丟失。平常情況下,用戶可能很難察覺。
在這種大規(guī)模任務(wù)下,自動(dòng)檢查程序能大大降低用戶任務(wù)返工率,以及協(xié)助用戶判斷運(yùn)行過程中是否有問題。有些問題靠人力可能無力檢查。
4. 兩種場(chǎng)景下的重復(fù)提交任務(wù)功能和自動(dòng)監(jiān)控告警
放著機(jī)器通宵跑任務(wù)時(shí)總會(huì)幻想:第二天一早,任務(wù)已經(jīng)跑完了,完美。
現(xiàn)實(shí)是:任務(wù)才跑了10%。

任務(wù)出錯(cuò),進(jìn)度條卡住,可能會(huì)有兩種情形:
第一種:每個(gè)任務(wù)之間獨(dú)立,彼此沒有關(guān)聯(lián)。
一般任務(wù)數(shù)量越多,失敗的任務(wù)數(shù)量大概率也會(huì)變多,比如對(duì)接1萬個(gè)分子,有可能會(huì)有50個(gè)失敗任務(wù);20萬個(gè)分子,可能有1000個(gè)失敗任務(wù)。
第二種:每個(gè)任務(wù)間有明確的先后處理順序,必須從A任務(wù)按序跑到Z。
假如到F任務(wù)就失敗了,整個(gè)任務(wù)就此停滯,涼涼。
自動(dòng)檢查任務(wù)狀態(tài)并對(duì)失敗任務(wù)及時(shí)重復(fù)提交的功能,就是這種場(chǎng)景的克星,尤其是第二種,不然等待著你的,大概就是通宵,同時(shí)睜大你的雙眼了。我們的任務(wù)監(jiān)控告警功能,還會(huì)時(shí)刻監(jiān)控任務(wù)狀態(tài),通過IM及時(shí)通知用戶,任務(wù)出現(xiàn)異常或已經(jīng)完成。
我們還見到過一種特殊情況,Amber用GPU跑任務(wù)速度快,CPU較慢,但使用GPU計(jì)算時(shí)存在10%-15%的失敗概率。一旦任務(wù)失敗,需要調(diào)度CPU重新計(jì)算。
能否及時(shí)且自動(dòng)地處理失敗任務(wù),將極大影響運(yùn)算周期。如果想了解我們?cè)趺磻?yīng)對(duì)的,請(qǐng)點(diǎn)擊《155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算》
實(shí)證小結(jié)
1、LeDock 大規(guī)模云端篩選毫無壓力,運(yùn)行效率呈線性顯著提升;
2、fastone平臺(tái)能提供開箱即用,且能一鍵定位&加密的分子庫(kù);
3、fastone 能為用戶定制自定義模板,一次設(shè)定,反復(fù)使用,界面友好;
4、fastone平臺(tái)提供的自動(dòng)化檢查程序和重復(fù)提交任務(wù)功能,極大降低用戶的工作量;
5、用戶在20萬個(gè)分子對(duì)接任務(wù)中,篩選出了300個(gè)分子,進(jìn)行下一步的化合物研究工作。
本次生信行業(yè)云實(shí)證系列Vol.12就到這里。
關(guān)于fastone云平臺(tái)在其他應(yīng)用上的表現(xiàn),可以點(diǎn)擊以下應(yīng)用名稱查看:
HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ MOE │ LS-DYNA │ Virtuoso│ COMSOL
- END -
我們有個(gè)生物/化學(xué)計(jì)算云平臺(tái)
集成多種CAE/CFD應(yīng)用,大量任務(wù)多節(jié)點(diǎn)并行
應(yīng)對(duì)短時(shí)間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來幾個(gè)月甚至幾年,現(xiàn)在只需幾小時(shí)
5分鐘快速上手,拖拉點(diǎn)選可視化界面,無需代碼
支持高級(jí)用戶直接在云端創(chuàng)建集群
掃碼免費(fèi)試用,送200元體驗(yàn)金,入股不虧~

更多電子書 歡迎掃碼關(guān)注小F(ID:imfastone)獲取

你也許想了解具體的落地場(chǎng)景:
這樣跑COMSOL,是不是就可以發(fā)Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?
1分鐘告訴你用MOE模擬200000個(gè)分子要花多少錢
LS-DYNA求解效率深度測(cè)評(píng) │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事
155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算
怎么把需要45天的突發(fā)性Fluent仿真計(jì)算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對(duì)接2800萬個(gè)分子
從4天到1.75小時(shí),如何讓Bladed仿真效率提升55倍?
從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?
關(guān)于為應(yīng)用定義的云平臺(tái):
Uni-FEP on fastone|速石科技攜手深勢(shì)科技,助力創(chuàng)新藥物研發(fā)提速
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動(dòng)白皮書
創(chuàng)新藥研發(fā)九死一生,CADD/AIDD是答案嗎?
國(guó)內(nèi)超算發(fā)展近40年,終于遇到了一個(gè)像樣的對(duì)手
花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500
【大白話】帶你一次搞懂速石科技三大產(chǎn)品:FCC、FCC-E、FCP
