欧美在线一二三四,香港性生活视频,深夜爽爽动态图无遮无挡 http://m.661934.com/blog Thu, 09 May 2024 02:50:29 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.3 http://m.661934.com/blog/wp-content/uploads/2019/08/cropped-logo-32x32.png EDA云實(shí)證 Archives - 速石科技BLOG http://m.661934.com/blog 32 32 EDA云實(shí)證Vol.13:暴力堆機(jī)器之王——Calibre http://m.661934.com/blog/eda-calibre/ http://m.661934.com/blog/eda-calibre/#respond Wed, 28 Jun 2023 02:16:47 +0000 http://m.661934.com/blog/?p=5126 Siemens的Calibre是業(yè)內(nèi)權(quán)威的版圖驗(yàn)證軟件,被各大Foundry廠廣泛認(rèn)可。用戶可以直接在Virtuoso界面集成Calibre接口,調(diào)用版圖驗(yàn)證結(jié)果數(shù)據(jù),使用起來(lái)極為方便。今天,我們就來(lái)聊聊這 …

The post EDA云實(shí)證Vol.13:暴力堆機(jī)器之王——Calibre appeared first on 速石科技BLOG.]]>

Siemens的Calibre是業(yè)內(nèi)權(quán)威的版圖驗(yàn)證軟件,被各大Foundry廠廣泛認(rèn)可。用戶可以直接在Virtuoso界面集成Calibre接口,調(diào)用版圖驗(yàn)證結(jié)果數(shù)據(jù),使用起來(lái)極為方便。
今天,我們就來(lái)聊聊這款軟件。

版圖驗(yàn)證是芯片設(shè)計(jì)中非常重要的一環(huán),一共包括三個(gè)環(huán)節(jié)。
DRC(Design Rule Check):檢查版圖是否符合Foundry廠的制造工藝規(guī)則,確保芯片能被正確生產(chǎn)出來(lái);
LVS(Layout Versus Schematic):版圖工程師需要將畫好的版圖與原理圖對(duì)比,確保兩者所有連接保持一致;
寄生參數(shù)提取(Parasitic Extraction):將版圖中的寄生參數(shù)提取出來(lái),在Virtuoso中反饋結(jié)果,前端工程師會(huì)進(jìn)行后仿驗(yàn)證,重新評(píng)估電路特性并進(jìn)行修改,保證流片正確。

這三個(gè)環(huán)節(jié)分別由Calibre的DRC、LVS、PEX三種工具來(lái)完成。

Calibre任務(wù)典型特性
重內(nèi)存,可拆分,適合暴力堆機(jī)器

Calibre任務(wù)有兩大特性:

1、重內(nèi)存需求,2T或4T的超大型內(nèi)存機(jī)器都有可能登場(chǎng)

版圖文件很大,需要處理的數(shù)據(jù)量非常大,但本身的邏輯判斷并不復(fù)雜,所以通常不剛需高主頻機(jī)型,但要求多核、大內(nèi)存的機(jī)器。CPU與內(nèi)存的比例通常能達(dá)到1:4或1:8,極端情況下這個(gè)比例會(huì)更高,2T或4T的超大型內(nèi)存機(jī)器都有可能登場(chǎng)。

我們?cè)谙旅鎯善恼吕镒屑?xì)盤過(guò)模擬&數(shù)字芯片設(shè)計(jì)全流程的業(yè)務(wù)場(chǎng)景、常用EDA工具、資源類型、算力需求、典型場(chǎng)景

芯片設(shè)計(jì)五部曲之一 | 聲光魔法師——模擬IC
芯片設(shè)計(jì)五部曲之二 | 圖靈藝術(shù)家——數(shù)字IC

2、可拆分,無(wú)關(guān)聯(lián),適合暴力堆機(jī)器

我們?cè)?strong>模擬這篇文里寫過(guò)版圖驗(yàn)證就像是一個(gè)“大家來(lái)找茬“的游戲。
在運(yùn)行任務(wù)的時(shí)候,Calibre會(huì)把版圖切分成相互沒有邏輯關(guān)系的塊狀分區(qū),這些分區(qū)之間彼此沒有相關(guān)性,互不干擾,所以可以同時(shí)進(jìn)行。
切得越細(xì),同時(shí)檢查的人更多,效率就越高。

三體里的切法大家還記得吧,一字橫切。
而芯片只能豎著切,可以十字切法。橫切會(huì)影響到芯片層與層之間的連接關(guān)系。

暴力堆機(jī)器也是有技術(shù)含量的

1、 首先,要有光,你得有大內(nèi)存的機(jī)器

我們的全球資源池可以根據(jù)用戶需求在全球范圍內(nèi)調(diào)度海量云端異構(gòu)資源。GPU、TPU、FPGA,要啥都有。

其中,FCC-B產(chǎn)品提供準(zhǔn)動(dòng)態(tài)資源池,擁有行業(yè)特需的大內(nèi)存機(jī)型,具有較低的整體擁有成本。而且,可以擴(kuò)展到FCC-E使用彈性資源。
總之,大內(nèi)存的機(jī)器,沒有問(wèn)題。

那么,萬(wàn)一不是一直不夠,是偶爾不夠怎么辦呢?
我們有一個(gè)小技巧,專門應(yīng)用于這種內(nèi)存峰值場(chǎng)景

Swap,交換分區(qū),就是在內(nèi)存不夠的情況下,操作系統(tǒng)先把內(nèi)存中暫時(shí)不用的數(shù)據(jù),存到硬盤的交換空間,騰出內(nèi)存來(lái)讓別的程序運(yùn)行。
比如跑一組Calibre任務(wù)需要10小時(shí),其中9個(gè)小時(shí)的內(nèi)存使用量都在200G左右,只有1個(gè)小時(shí)達(dá)到了260G。

如果選擇256G內(nèi)存的機(jī)型配置,任務(wù)必崩無(wú)疑。
但要是為了這1小時(shí)不到10G的內(nèi)存溢出而全程使用512G的配置,成本翻倍,未免有點(diǎn)太不劃算了。
使用Swap交換分區(qū)就可以無(wú)縫填補(bǔ)這一空缺,非常匹配這種內(nèi)存峰值場(chǎng)景。

Swap的具體使用案例,戳這篇:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

注意:此方法不適合長(zhǎng)期使用,磁盤的速度和內(nèi)存相比慢了好幾個(gè)數(shù)量級(jí),如果不停讀寫 Swap,對(duì)系統(tǒng)整體性能有影響。

2、 怎么把這些機(jī)器組隊(duì)管理起來(lái)?

有了機(jī)器,下一步當(dāng)然是要把它們利用起來(lái)。
Calibre默認(rèn)支持單機(jī)多核并行跑任務(wù),這意味著只要機(jī)器足夠大,就可以同時(shí)處理很多任務(wù)。
但是,當(dāng)你的大機(jī)器不夠多,或者根本拿不到大機(jī)器的時(shí)候,就很苦惱了。

我們的方法是:將所有機(jī)器組成一個(gè)集群——多機(jī)多核的方式同時(shí)跑多個(gè)任務(wù)

關(guān)于單機(jī)、單核、單任務(wù)、多任務(wù)、集群化、并行化進(jìn)一步的定義與區(qū)別,可以看這篇:揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事

集群自動(dòng)化管理,少量大機(jī)器需要,大量小機(jī)器就更需要了。
為啥?

理由一,能方便地自動(dòng)化運(yùn)維整個(gè)集群
比如軟件安裝配置、資源監(jiān)控、集群管理等工作,是需要IT一臺(tái)臺(tái)機(jī)器去逐一手動(dòng)操作,還是鼠標(biāo)點(diǎn)幾下就可以完成?

理由二,能快速方便地分配業(yè)務(wù),提高資源利用率
比如,臨時(shí)需要將一批機(jī)器從團(tuán)隊(duì)A劃撥給團(tuán)隊(duì)B使用,有沒有什么辦法可以讓IT快速方便地進(jìn)行配置?比如,因?yàn)橘Y源使用的不透明和缺乏有序管理,會(huì)出現(xiàn)不同人對(duì)同一資源的爭(zhēng)搶,任務(wù)排隊(duì)等現(xiàn)象。同時(shí),你會(huì)發(fā)現(xiàn)資源利用率還是不高。

3、怎么讓機(jī)器自動(dòng)化干活,不用人操心?

自動(dòng)化干活可太有必要了。
否則,那么多任務(wù),那么多機(jī)器,需要多少雙手和眼睛才能忙得過(guò)來(lái)?

來(lái),我們給你“手”和“眼睛”。

首先是我們的“手”——Auto-Scale功能
來(lái)看一下本地手動(dòng)跑任務(wù)Auto-Scale自動(dòng)化跑任務(wù)的區(qū)別:

基于我們自主研發(fā)的調(diào)度器——Fsched,Auto-Scale自動(dòng)伸縮功能自動(dòng)化創(chuàng)建集群,自動(dòng)監(jiān)控用戶提交的任務(wù)數(shù)量和資源需求,動(dòng)態(tài)按需地開啟與關(guān)閉所需算力資源,做到分鐘級(jí)彈性伸縮,在提升效率的同時(shí)有效降低成本。

更多療效,戳這篇:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

有了“手”干活,還得有“眼睛”盯著防止出錯(cuò)。
我們能多維度監(jiān)控任務(wù)狀態(tài),提供基于EDA任務(wù)層的監(jiān)控、告警、數(shù)據(jù)統(tǒng)計(jì)分析功能與服務(wù)。

如果沒有這雙“眼睛”,可能出現(xiàn)哪些問(wèn)題?戳這篇:【案例】95后占半壁江山的浙桂,如何在百家爭(zhēng)鳴中快人一步
未來(lái)我們還會(huì)有一篇文章專門討論EDA領(lǐng)域基于業(yè)務(wù)的監(jiān)控功能,敬請(qǐng)期待哦~

你看,不僅可以自動(dòng)化跑任務(wù),還能時(shí)刻幫你盯著任務(wù)是否出錯(cuò)。

來(lái),我們小暴力一下

先說(shuō)結(jié)論:

我們?cè)?strong>單臺(tái)大機(jī)器和多臺(tái)小機(jī)器組合場(chǎng)景下分別跑了同一組Calibre任務(wù)。

單臺(tái)大機(jī)器場(chǎng)景下,隨著核數(shù)的增加,任務(wù)耗時(shí)呈現(xiàn)明顯的線性下降關(guān)系,整體性能曲線非常貼近基準(zhǔn)線(單機(jī)核數(shù)有上限,本次實(shí)證中,我們使用的最大單機(jī)為128核,并根據(jù)32核、64核、128核的耗時(shí)規(guī)律預(yù)估了256核單機(jī)的耗時(shí)數(shù)據(jù),僅供參考)。

多臺(tái)小機(jī)器組合場(chǎng)景下,隨著機(jī)器數(shù)量的翻倍,任務(wù)耗時(shí)同樣線性下降,但在后期倍數(shù)關(guān)系上有所損耗,多機(jī)性能曲線略低于基準(zhǔn)線和單機(jī)性能曲線。

實(shí)證過(guò)程:
1、使用fastone云平臺(tái)調(diào)度32核、64核、128核單機(jī)分別運(yùn)行一組Calibre任務(wù),耗時(shí)分別為14小時(shí)57分49秒、7小時(shí)30分28秒、3小時(shí)50分11秒;
2、按上條實(shí)證數(shù)據(jù),預(yù)估使用fastone云平臺(tái)調(diào)度256核單機(jī)運(yùn)行一組Calibre任務(wù)的耗時(shí)為1小時(shí)58分6秒;
3、使用fastone云平臺(tái)調(diào)度2、4、8臺(tái)32核機(jī)器分別運(yùn)行一組Calibre任務(wù),耗時(shí)分別7小時(shí)43分51秒、4小時(shí)6分14秒、2小時(shí)15分34秒。

還有大家關(guān)心的Intel第四代機(jī)器
我們也搞來(lái)跑了一下

在上一節(jié)中,我們使用的均為第三代英特爾至強(qiáng)可擴(kuò)展處理器,而在2023年1月11日,英特爾正式推出了第四代至強(qiáng)可擴(kuò)展處理器。
我們立馬搞來(lái)跑了一遍,為了對(duì)比參照,我們還拉上了第二代和第三代,并且把核數(shù)都按比例換算為48核。

實(shí)證過(guò)程:
1、使用fastone云平臺(tái)調(diào)度48核第二代英特爾處理器運(yùn)行一組Calibre任務(wù),耗時(shí)10小時(shí)46分26秒;
2、使用fastone云平臺(tái)調(diào)度48核第三代英特爾處理器運(yùn)行一組Calibre任務(wù),耗時(shí)9小時(shí)56分13秒,相比第二代提升7.77%;
3、使用fastone云平臺(tái)調(diào)度48核第四代英特爾處理器運(yùn)行一組Calibre任務(wù),耗時(shí)8小時(shí)18分43秒,相比第三代提升16.35%,比第二代提升22.85%。

可以看到每一代都有提升,且型號(hào)越新,提升幅度越大,三代比二代提升了7.77%,四代比三代提升了16.35%。
而在價(jià)格上,目前四代和三代的類似機(jī)型換算一下,幾乎是相同的。

實(shí)證小結(jié)

1、Calibre DRC/LVS/PEX不剛需高主頻機(jī)型,但要求多核、大內(nèi)存的機(jī)器,任務(wù)可拆分,適合暴力堆機(jī)器;
2、fastone云平臺(tái)的全球動(dòng)態(tài)資源池、集群自動(dòng)化管理能力、自動(dòng)化跑任務(wù)并監(jiān)控告警的功能可完美匹配Calibre的需求;
3、隨著計(jì)算資源的提升,Calibre的任務(wù)耗時(shí)呈現(xiàn)明顯的線性關(guān)系,其中單機(jī)整體性能曲線非常貼近基準(zhǔn)線,多機(jī)效果后期會(huì)略有折損;
4、最新型號(hào)的處理器可以大幅提升Calibre的效率,可根據(jù)項(xiàng)目周期與實(shí)際預(yù)算綜合考量機(jī)型配置。

本次EDA云實(shí)證系列Vol.13就到這里了。
下一期,我們聊ADS,也可能是ALPS。看心情~~~

關(guān)于fastone云平臺(tái)在各種EDA應(yīng)用上的表現(xiàn),可以點(diǎn)擊以下應(yīng)用名稱查看:
HSPICE │ OPC │ VCS │ Virtuoso
速石科技芯片設(shè)計(jì)五部曲,前三部先睹為快:
模擬IC 數(shù)字IC 算法仿真


- END -


我們有個(gè)IC設(shè)計(jì)研發(fā)云平臺(tái)
IC設(shè)計(jì)全生命周期一站式覆蓋
調(diào)度器Fsched國(guó)產(chǎn)化替代、專業(yè)IT-CAD服務(wù)
100+行業(yè)客戶落地實(shí)踐
支持海內(nèi)外多地協(xié)同研發(fā)與辦公

多層安全框架層層保障

掃碼免費(fèi)試用,送200元體驗(yàn)金,入股不虧~

更多EDA電子書
歡迎掃碼關(guān)注小F(ID:iamfastone)獲取

你也許想了解具體的落地場(chǎng)景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫(kù)+全流程自動(dòng)化,3.5小時(shí)完成20萬(wàn)分子對(duì)接
這樣跑COMSOL,是不是就可以發(fā)Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

1分鐘告訴你用MOE模擬200000個(gè)分子要花多少錢
LS-DYNA求解效率深度測(cè)評(píng) │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事
155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算
怎么把需要45天的突發(fā)性Fluent仿真計(jì)算縮短到4天之內(nèi)?

5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對(duì)接2800萬(wàn)個(gè)分子

從4天到1.75小時(shí),如何讓Bladed仿真效率提升55倍?
從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?


關(guān)于為應(yīng)用定義的云平臺(tái):
最強(qiáng)省錢攻略——IC設(shè)計(jì)公司老板必讀
芯片設(shè)計(jì)五部曲之三 | 戰(zhàn)略規(guī)劃家——算法仿真
芯片設(shè)計(jì)五部曲之二 | 圖靈藝術(shù)家——數(shù)字IC
芯片設(shè)計(jì)五部曲之一 | 聲光魔法師——模擬IC
【案例】速石X騰訊云X燧原:芯片設(shè)計(jì)“存算分離”混合云實(shí)踐
ICCAD2022】首次公開亮相!國(guó)產(chǎn)調(diào)度器Fsched,半導(dǎo)體生態(tài)1.0,上百家行業(yè)用戶最佳實(shí)踐
解密一顆芯片設(shè)計(jì)的全生命周期算力需求
居家辦公=停工?nonono,移動(dòng)式EDA芯片設(shè)計(jì),帶你效率起飛
缺人!缺錢!趕時(shí)間!初創(chuàng)IC設(shè)計(jì)公司如何“絕地求生”?
續(xù)集來(lái)了:上回那個(gè)“吃雞”成功的IC人后來(lái)發(fā)生了什么?
一次搞懂速石科技三大產(chǎn)品:FCC、FCC-E、FCP
速石科技成三星Foundry國(guó)內(nèi)首家SAFE?云合作伙伴
EDA云平臺(tái)49問(wèn)
億萬(wàn)打工人的夢(mèng):16萬(wàn)個(gè)CPU隨你用
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500

The post EDA云實(shí)證Vol.13:暴力堆機(jī)器之王——Calibre appeared first on 速石科技BLOG.]]>
http://m.661934.com/blog/eda-calibre/feed/ 0
EDA云實(shí)證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率? http://m.661934.com/blog/vol10auto-scale/ Wed, 11 Aug 2021 11:07:03 +0000 http://m.661934.com/blog/?p=2233 這是我們EDA云實(shí)證的第四期。 本期實(shí)證的主角是——Virtuoso。 半導(dǎo)體行業(yè)中使用范圍最廣的EDA應(yīng)用之一。 1991年Virtuoso技術(shù)正式發(fā)布,最初作為掩模設(shè)計(jì)師的版圖工具,是Opus平臺(tái)的一部 …

The post EDA云實(shí)證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率? appeared first on 速石科技BLOG.]]>
這是我們EDA云實(shí)證的第四期。

本期實(shí)證的主角是——Virtuoso。

半導(dǎo)體行業(yè)中使用范圍最廣的EDA應(yīng)用之一。

1991年Virtuoso技術(shù)正式發(fā)布,最初作為掩模設(shè)計(jì)師的版圖工具,是Opus平臺(tái)的一部分,主要功能包括電路設(shè)計(jì)與仿真、版圖設(shè)計(jì)、設(shè)計(jì)驗(yàn)證,以及模擬/數(shù)字混合設(shè)計(jì)等。

近30年來(lái),Virtuoso產(chǎn)品已和最初有很大不同,但其核心仍然是版圖編輯器。

應(yīng)用工具層面。Cadence一直致力于優(yōu)化EDA應(yīng)用算法和性能,提高自動(dòng)化水平,將Virtuoso逐漸升級(jí)和擴(kuò)展為集合多項(xiàng)新技術(shù)的系統(tǒng)設(shè)計(jì)平臺(tái)。

從應(yīng)用到云資源層,就由我們來(lái)發(fā)揮了

我們針對(duì)EDA應(yīng)用云原生適配,為IC研發(fā)設(shè)計(jì)人員提供一整套即開即用,快速上手的IC研發(fā)設(shè)計(jì)環(huán)境,系統(tǒng)性大幅提升研發(fā)效率

我們到底是怎么做到的?

研發(fā)效率具體提高在哪些方面?

什么是即開即用的IC研發(fā)設(shè)計(jì)環(huán)境?好用嗎?改變?cè)瓉?lái)習(xí)慣嗎?

以下是今天的正文:

用戶需求

某芯片設(shè)計(jì)公司做數(shù)模混合芯片,經(jīng)常使用Virtuoso調(diào)用Spectre完成仿真任務(wù),需要趕MPW shuttle,即將面臨多項(xiàng)目同時(shí)進(jìn)行、項(xiàng)目關(guān)鍵時(shí)間節(jié)點(diǎn)相同的困境。

公司CEO并不想單純靠增加本地機(jī)器來(lái)解決目前問(wèn)題,一方面考慮到會(huì)對(duì)企業(yè)造成比較大的現(xiàn)金流壓力,另一方面公司并沒有專門的IT和CAD團(tuán)隊(duì)。他對(duì)能不能用云解決現(xiàn)有問(wèn)題十分重視,也直接和云廠商交流過(guò),對(duì)我們的云上自動(dòng)化和Auto-Scale功能很感興趣。

實(shí)證目標(biāo)

1、fastone平臺(tái)是否支持在云端使用Virtuoso運(yùn)行仿真任務(wù)?
2、通過(guò)平臺(tái)使用Virtuoso和本地差別大嗎?
3、Auto-Scale自動(dòng)化伸縮具體怎么實(shí)現(xiàn)的?
4、Slurm調(diào)度器行不行?

實(shí)證參數(shù)

平臺(tái):fastone企業(yè)版產(chǎn)品

應(yīng)用:Cadence Virtuoso

適用場(chǎng)景:數(shù)模混合電路設(shè)計(jì)及仿真

云端硬件配置:Spectre仿真主要需要的是計(jì)算密集型CPU,所以平臺(tái)推薦的是計(jì)算優(yōu)化型云端實(shí)例

調(diào)度器:Slurm(關(guān)于調(diào)度器,下文會(huì)詳細(xì)講解)

技術(shù)架構(gòu)圖:

auto-scale

一整套即開即用的IC研發(fā)設(shè)計(jì)環(huán)境
操作像吃了德芙般順滑

用戶對(duì)于在本地單機(jī)使用Virtuoso運(yùn)行仿真任務(wù),已經(jīng)非常熟悉。而對(duì)于在云上跑,用戶依然有以下疑問(wèn):

什么叫一整套?從哪一步到哪一步?

云上使用Virtuoso,操作方式會(huì)改變嗎?會(huì)不會(huì)很麻煩?

我們?yōu)橛脩籼峁┑漠a(chǎn)品,從登錄桌面、打開應(yīng)用、配置仿真、提交任務(wù)、自動(dòng)上云開機(jī)運(yùn)行任務(wù)并自動(dòng)關(guān)機(jī)、查看結(jié)果進(jìn)行調(diào)試……用戶所需要的操作與本地幾乎完全一致,每一步只需在平臺(tái)上使用鼠標(biāo)簡(jiǎn)單點(diǎn)選即可完成。

virtueso

我們說(shuō)的“一整套”,就是這個(gè)意思。

至于操作方式會(huì)不會(huì)改變?

拿訪問(wèn)集群舉例。用戶訪問(wèn)集群,既可以通過(guò)命令行,也可以通過(guò)WebVNC圖形界面方式直接訪問(wèn)。


手動(dòng)模式訪問(wèn)集群,一共有五步,往往還需要請(qǐng)IT先配置環(huán)境 

1、在云端開一臺(tái)機(jī)器;
2、在云端安裝VNC服務(wù)并進(jìn)行配置,有幾個(gè)用戶使用就需要配置幾個(gè)賬號(hào);
3、在本地安裝VNC服務(wù)并進(jìn)行配置;
4、在云端開啟VNC服務(wù);5、用戶使用各自賬號(hào)登錄客戶端VNC訪問(wèn)云端。


我們?yōu)樗杏脩?strong>免費(fèi)提供WebVNC功能,自動(dòng)化創(chuàng)建到訪問(wèn)集群:
1、通過(guò)Web瀏覽器登錄fastone平臺(tái);
2、在Web界面新建集群、配置資源;
3、在已創(chuàng)建的集群點(diǎn)擊WebVNC遠(yuǎn)程桌面圖標(biāo)(同時(shí)提供WebSSH遠(yuǎn)程命令行功能);
4、跳轉(zhuǎn)到虛擬桌面,可在該桌面中操作Virtuoso。

虛擬桌面,virtuoso

我們還提供了統(tǒng)一的用戶認(rèn)證,不同用戶可以直接訪問(wèn)VNC,無(wú)需重新配置。

這種操作方式給用戶提供了熟悉的操作環(huán)境,使其能夠快速地遠(yuǎn)程自動(dòng)化訪問(wèn)集群,避免了大量的手動(dòng)部署,使用體驗(yàn)更好。 

在數(shù)據(jù)傳輸上,我們同樣為用戶提供了不改變操作習(xí)慣的DM工具,用戶無(wú)需在多套認(rèn)證系統(tǒng)之間切換,使用統(tǒng)一的身份認(rèn)證即可傳輸數(shù)據(jù),并自動(dòng)關(guān)聯(lián)云端集群進(jìn)行計(jì)算,具體看這里《CAE云實(shí)證Vol.8:LS-DYNA求解效率深度測(cè)評(píng) │ 六種規(guī)模,本地VS云端5種不同硬件配置

當(dāng)然,好處遠(yuǎn)遠(yuǎn)不止這些。

Auto-Scale自動(dòng)伸縮就像仙女棒 變大變小變漂亮

fastone通過(guò)Auto-Scale功能實(shí)現(xiàn)自動(dòng)化創(chuàng)建集群的過(guò)程,可以實(shí)現(xiàn)自動(dòng)監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動(dòng)態(tài)按需地開啟所需算力資源,在提升效率的同時(shí)有效降低成本。 

怎么讓仙女棒發(fā)揮作用? 

先來(lái)設(shè)置一下:

auto-scale

下圖就是開啟Auto-Scale功能后,用戶某項(xiàng)目一周之內(nèi)所調(diào)用云端計(jì)算資源的動(dòng)態(tài)情況。

其中橙色曲線為OD實(shí)例的使用狀況,紅色曲線為SPOT的使用狀況。

OD:On-Demand,按需實(shí)例。針對(duì)短期彈性需求,按小時(shí)計(jì)費(fèi),但價(jià)格比較高。

SPOT:可被搶占實(shí)例,又稱競(jìng)價(jià)實(shí)例。價(jià)格最低可達(dá)到按需實(shí)例價(jià)格的10%,相當(dāng)于秒殺,手快有手慢無(wú),隨時(shí)可能被搶占中斷,需要有一定的技術(shù)實(shí)力才能使用。

spot,云端資源計(jì)算

兩個(gè)重點(diǎn):
第一、從圖中可以看到整個(gè)階段算力波峰為約3500核,而波谷只有650核左右。用戶使用資源是存在明顯的波峰波谷周期的。Auto-Scale功能可以根據(jù)任務(wù)運(yùn)算情況動(dòng)態(tài)開啟云端資源,并在波峰過(guò)去后自動(dòng)關(guān)閉,讓資源的使用隨著用戶的需求自動(dòng)擴(kuò)張及縮小,最大程度匹配任務(wù)需求。
當(dāng)然,用戶也可以選擇自己對(duì)最大最小值進(jìn)行設(shè)置,加以限制。


這一方面節(jié)約了用戶成本,不需要時(shí)刻保持最高峰使用資源;

另一方面也最大限度保證了任務(wù)最大效率運(yùn)行。
比如跑100個(gè)corner的仿真,以前只能同時(shí)跑10個(gè),要花10天,現(xiàn)在可以同時(shí)跑100個(gè),只要1天就可以完成。這兩種方式成本相同,為用戶節(jié)約出了顯著的時(shí)間差大大縮短了任務(wù)運(yùn)行周期,提升了研發(fā)效率。

第二、我們的Auto-Scale功能支持對(duì)不同計(jì)費(fèi)模式(OD、SPOT)實(shí)例進(jìn)行自動(dòng)伸縮,OD按需實(shí)例價(jià)格通常為SPOT實(shí)例的3-10倍。

Auto-Scale功能可以根據(jù)不同的用戶策略,比如成本最優(yōu)還是時(shí)間優(yōu)先,自動(dòng)化跨區(qū)、跨類型為用戶調(diào)度云資源,完成計(jì)算任務(wù)

至于不同策略具體怎么落地執(zhí)行?相比時(shí)間優(yōu)先策略,成本優(yōu)先怎么做到降低成本最多達(dá)67%-90%?在這篇實(shí)證《生信云實(shí)證Vol.3:提速2920倍!用AutoDockVina對(duì)接2800萬(wàn)個(gè)分子》里體現(xiàn)得十分明顯。

autodock vina

不僅限于運(yùn)行任務(wù)期間,其實(shí)早在創(chuàng)建集群的時(shí)候,自動(dòng)化Auto-Scale過(guò)程就已經(jīng)開始了。在這篇Bladed實(shí)證里,fastone平臺(tái)在任務(wù)的不同階段采取不同的策略應(yīng)對(duì),除任務(wù)運(yùn)行時(shí)間內(nèi)全部云資源滿負(fù)荷運(yùn)作以外,在數(shù)據(jù)處理和結(jié)果數(shù)據(jù)上傳階段均只開啟了1-2臺(tái)機(jī)器,而其他準(zhǔn)備過(guò)程不需要開啟機(jī)器。

數(shù)據(jù)上傳,數(shù)據(jù)處理,

習(xí)慣了LSF/SGESlurm調(diào)度器到底行不行?

為什么選擇Slurm調(diào)度器?


Virtuoso應(yīng)用原生支持的調(diào)度器有LSF和SGE。LSF作為商業(yè)軟件,由IBM提供商業(yè)支持,是半導(dǎo)體行業(yè)最常用的調(diào)度器軟件。曾經(jīng)衍生出的開源版Openlava在2016后IBM發(fā)起的版權(quán)訴訟之后,2018年正式被禁用。

SGE商業(yè)版在去年已經(jīng)隨Univa被Altair收購(gòu)。類似的,免費(fèi)開源版已經(jīng)長(zhǎng)期無(wú)維護(hù)和更新,也存在版權(quán)風(fēng)險(xiǎn)。
LSF和SGE均按核時(shí)收費(fèi),價(jià)格不菲,如果在云端大規(guī)模使用,價(jià)格驚人,而且都需要購(gòu)買單獨(dú)的Resource Connector或Navops Launch產(chǎn)品才能支持在云上使用。
Slurm作為調(diào)度器四大流派里唯一的純開源派,就不受規(guī)模和費(fèi)用的限制了。而且Slurm擁有容錯(cuò)率高、支持異構(gòu)資源、高度可擴(kuò)展等優(yōu)點(diǎn),每秒可提交超過(guò)1000個(gè)任務(wù),且由于是開放框架,高度可配置,擁有超過(guò)100種插件,因此適用性相當(dāng)強(qiáng)。所以我們優(yōu)先選擇Slurm。


關(guān)于這四家主流調(diào)度器:LSF/SGE/Slurm/PBS以及它們的9個(gè)演化版本,可以看這篇文章《億萬(wàn)打工人的夢(mèng):16萬(wàn)個(gè)CPU隨你用》,我們進(jìn)行了整體梳理和盤點(diǎn),尤其是對(duì)云的支持方面劃了重點(diǎn)。

我們是怎么實(shí)現(xiàn)的?
答案是:SGE Wrapper。

Wrapper是什么呢?可以看看下圖,可以看到同樣的命令在不同的調(diào)度器之間有不同的實(shí)現(xiàn)方式:

調(diào)度器,slurm

而Wrapper就像不同調(diào)度器命令語(yǔ)言中的翻譯器,我們相當(dāng)于通過(guò)這個(gè)翻譯器,把Slurm語(yǔ)言翻譯成了Virtuoso聽得懂的SGE語(yǔ)言,于是應(yīng)用就能正常運(yùn)行啦。

Virtuoso

關(guān)于不同調(diào)度器的使用效果。我們?cè)?jīng)在Proteus?OPC實(shí)證場(chǎng)景四中分別使用SGE和Slurm在云端和本地分別調(diào)度2000核/5000核運(yùn)行相同OPC任務(wù)。

調(diào)度器,sge

結(jié)論是:對(duì)于計(jì)算結(jié)果無(wú)影響。 

關(guān)于調(diào)度器如何在多機(jī)器多任務(wù)的情況下提升資源利用率,并進(jìn)行自動(dòng)化管理,可以看這篇《EDA云實(shí)證Vol.7:揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事》 

任務(wù)監(jiān)控還能搞出省錢大招?

根據(jù)我們對(duì)整個(gè)任務(wù)消耗資源狀態(tài)的監(jiān)控,發(fā)現(xiàn)運(yùn)算該組任務(wù)所使用的內(nèi)存大部分時(shí)間在5G以下,但會(huì)有極短的一段時(shí)間(不超過(guò)半小時(shí))達(dá)到17.5G。

任務(wù)監(jiān)控,任務(wù)運(yùn)算

從上圖中可以看到,Swap剩余量在短時(shí)間內(nèi)從8.6G跌到了7.1G,隨后很快回升到了8.38G,也就是說(shuō)如果沒有Swap,運(yùn)行內(nèi)存的瞬時(shí)缺口約為1.5G,勢(shì)必造成任務(wù)失敗。

Swap,交換分區(qū),就是在內(nèi)存不夠的情況下,操作系統(tǒng)先把內(nèi)存中暫時(shí)不用的數(shù)據(jù),存到硬盤的交換空間,騰出內(nèi)存來(lái)讓別的程序運(yùn)行。

如果配置16G的內(nèi)存,任務(wù)最后會(huì)因此失敗。
但如果選擇配置32G內(nèi)存,著實(shí)有點(diǎn)浪費(fèi),畢竟也就超了一點(diǎn)點(diǎn)。
而同等CPU資源下,配備32G內(nèi)存的價(jià)格普遍要比16G貴1.4-1.9倍

cpu資源

正是由于完備的監(jiān)控和任務(wù)性能評(píng)估機(jī)制,我們建議用戶在云端運(yùn)算時(shí)配備16G內(nèi)存,同時(shí)使用Swap功能渡過(guò)這段內(nèi)存波峰,以達(dá)到最高的性價(jià)比。

實(shí)證小結(jié)

1、fastone平臺(tái)支持在云端使用Virtuoso調(diào)用Spectre運(yùn)行仿真任務(wù);

2、用戶使用這套研發(fā)設(shè)計(jì)環(huán)境能閉環(huán)完成Virtuoso運(yùn)行任務(wù),且基本不改變用戶習(xí)慣;

3、fastone平臺(tái)的云上自動(dòng)化模式和Auto-Scale功能能有效幫用戶縮短研發(fā)周期,同時(shí)降低使用成本;

4、Slurm調(diào)度器不會(huì)影響計(jì)算結(jié)果,是更具性價(jià)比及擴(kuò)展性的選擇;

5、fastone平臺(tái)擁有完備的監(jiān)控及任務(wù)性能評(píng)估機(jī)制。

本次EDA實(shí)證系列Vol.10就到這里了。下一期我們聊HFSS。

關(guān)于fastone云平臺(tái)在不同應(yīng)用上的具體表現(xiàn),可以點(diǎn)擊以下應(yīng)用名稱查看:HSPICE │ Bladed │ Vina │ OPC │ Fluent │ Amber │ VCS │ LS-DYNA │ MOE


- END -


我們有個(gè)為應(yīng)用定義的EDA云平臺(tái)
集成多種EDA應(yīng)用,大量任務(wù)多節(jié)點(diǎn)并行
應(yīng)對(duì)短時(shí)間爆發(fā)性需求,連網(wǎng)即用跑任務(wù)快,
原來(lái)幾個(gè)月甚至幾年,現(xiàn)在只需幾小時(shí)
5分鐘快速上手,拖拉點(diǎn)選可視化界面,
無(wú)需代碼支持高級(jí)用戶直接在云端創(chuàng)建集群

掃碼免費(fèi)試用,送200元體驗(yàn)金,入股不虧~

更多電子書歡迎掃碼關(guān)注小F(ID:imfastone)獲取

你也許想了解具體的落地場(chǎng)景:

1分鐘告訴你用MOE模擬200000個(gè)分子要花多少錢
LS-DYNA求解效率深度測(cè)評(píng) │ 六種規(guī)模,本地VS云端5種不同硬件配置
揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事
155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算
怎么把需要45天的突發(fā)性Fluent仿真計(jì)算縮短到4天之內(nèi)?

5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對(duì)接2800萬(wàn)個(gè)分子

從4天到1.75小時(shí),如何讓Bladed仿真效率提升55倍?
從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?

關(guān)于為應(yīng)用定義的云平臺(tái):

AI太笨了……暫時(shí)
速石科技成三星Foundry國(guó)內(nèi)首家SAFE?云合作伙伴
Ansys最新CAE調(diào)研報(bào)告找到阻礙仿真效率提升的“元兇”,竟然是Ta……
【2021版】全球44家頂尖藥企AI輔助藥物研發(fā)行動(dòng)白皮書
EDA云平臺(tái)49問(wèn)
國(guó)內(nèi)超算發(fā)展近40年,終于遇到了一個(gè)像樣的對(duì)手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500

為應(yīng)用定義的云平臺(tái) fastone
The post EDA云實(shí)證Vol.10:Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率? appeared first on 速石科技BLOG.]]>
EDA云實(shí)證Vol.7:揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事 http://m.661934.com/blog/eda-synopsys-vcs/ Fri, 26 Mar 2021 08:52:58 +0000 http://m.661934.com/blog/?p=1623 新思科技(Synopsys)家的VCS,在半導(dǎo)體行業(yè)使用率極高,背景我們就不多說(shuō)了。 對(duì)經(jīng)常跑EDA或其他算力密集型任務(wù)的用戶來(lái)說(shuō),在深度掌握本行業(yè)業(yè)務(wù)知識(shí)及熟練運(yùn)用常見EDA工具以外,通 …

The post EDA云實(shí)證Vol.7:揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事 appeared first on 速石科技BLOG.]]>
新思科技(Synopsys)家的VCS,在半導(dǎo)體行業(yè)使用率極高,背景我們就不多說(shuō)了。

對(duì)經(jīng)常跑EDA或其他算力密集型任務(wù)的用戶來(lái)說(shuō),在深度掌握本行業(yè)業(yè)務(wù)知識(shí)及熟練運(yùn)用常見EDA工具以外通常還需要在技能樹上點(diǎn)上一門技能——IT,就是怎么(順利)使用機(jī)器把手里的任務(wù)給(高效)跑完

他們的IT技能升級(jí)打怪之旅一般分為三個(gè)階段:

第一階段:?jiǎn)螜C(jī)單CPU核,單任務(wù)
第二階段:?jiǎn)螜C(jī)多CPU核,多任務(wù)
第三階段:多機(jī)多CPU核,多任務(wù)

據(jù)我們觀察,很多用戶都已經(jīng)處在第二階段。
但是,依然有部分用戶尚處在第一階段,比如我們今天的實(shí)證主角。

我們之前的六篇實(shí)證都直接一步到位——上云后。

HSPICE │ Bladed │Vina │OPC │Fluent │Amber

今天我們看看上云前的幕后系列,又名:搬桌子的故事

用戶需求

某IC設(shè)計(jì)公司運(yùn)行EDA仿真前端設(shè)計(jì)和后端設(shè)計(jì)的分析任務(wù),進(jìn)行機(jī)電一體芯片技術(shù)的開發(fā)。現(xiàn)有機(jī)房設(shè)備較為老舊,共有8臺(tái)單機(jī),需要同時(shí)服務(wù)數(shù)字和模擬兩個(gè)研發(fā)部門。
隨著公司業(yè)務(wù)的發(fā)展,相關(guān)部門負(fù)責(zé)人幾乎同時(shí)反饋業(yè)務(wù)峰值時(shí)計(jì)算資源嚴(yán)重不足,排隊(duì)現(xiàn)象嚴(yán)重。

實(shí)證目標(biāo)

1、fastone平臺(tái)是否能有效提升VCS任務(wù)運(yùn)行效率?
2、fastone平臺(tái)是否能有效提升本地機(jī)器資源利用率?
3、fastone平臺(tái)是否支持大規(guī)模VCS任務(wù)自動(dòng)化穩(wěn)定運(yùn)行?

實(shí)證參數(shù)

平臺(tái):fastone企業(yè)版產(chǎn)品
應(yīng)用:Synopsys VCS
適用場(chǎng)景:數(shù)模混合電路仿真
系統(tǒng):Red Hat Enterprise release 5.7(Tikanga)

實(shí)證結(jié)果

我們先來(lái)看看用戶自己跑20000個(gè)任務(wù)和我們來(lái)跑的效果:

大規(guī)模任務(wù)驗(yàn)證 20000個(gè)任務(wù)

我們將本地機(jī)房的8臺(tái)單機(jī)構(gòu)建為一個(gè)統(tǒng)一管理的集群,運(yùn)行20000個(gè)VCS任務(wù)的時(shí)間是用戶自己所需時(shí)間的約1/50。

本地機(jī)房8臺(tái)服務(wù)器構(gòu)建為一個(gè)計(jì)算集群,運(yùn)行20000個(gè)VCS任務(wù)

實(shí)證過(guò)程:

1、用戶使用一臺(tái)單機(jī)C1運(yùn)行20000個(gè)VCS任務(wù),耗時(shí)40485分鐘;
2、將本地機(jī)房的所有8臺(tái)單機(jī)構(gòu)建為集群A,使用集群A運(yùn)行20000個(gè)VCS任務(wù),耗時(shí)809分鐘。

VCS仿真計(jì)算任務(wù),1臺(tái)服務(wù)器單機(jī)單核運(yùn)算和集群并行計(jì)算的運(yùn)算效率對(duì)比

用戶按常理推斷,本地機(jī)房共有8臺(tái)單機(jī),將所有機(jī)器一起來(lái)運(yùn)行大規(guī)模VCS任務(wù)的時(shí)間大概應(yīng)該是使用一臺(tái)機(jī)器機(jī)耗時(shí)的6-7倍(理想值為8倍,但由于存在長(zhǎng)尾任務(wù),存在一定差異)。

但實(shí)證中50倍的提升大大超出了他們的預(yù)期。
中間發(fā)生了什么? 

回到我們開頭說(shuō)的三個(gè)階段——

第一階段:?jiǎn)螜C(jī)單CPU核,單任務(wù)

單任務(wù)狀態(tài)下的單機(jī)單核,就是一個(gè)任務(wù)只在一臺(tái)機(jī)器上的一個(gè)CPU上跑。不管這臺(tái)機(jī)器其實(shí)有幾個(gè)CPU,反正就只用一個(gè)。資源利用率極其低下,可以說(shuō)是暴殄天物。

再細(xì)一點(diǎn),這里其實(shí)還有個(gè)1.5階段:?jiǎn)螜C(jī)多CPU核,單任務(wù)。效果類似。

假設(shè)給你幾個(gè)人(CPU核),完成一個(gè)叫做“搬桌子”的任務(wù)。
單任務(wù)的處理方式分為單進(jìn)程和多進(jìn)程: 

單進(jìn)程的處理方式是:不管你有幾個(gè)人,同一時(shí)間永遠(yuǎn)只有1個(gè)人在搬整張桌子,其他人在圍觀。

VCS仿真計(jì)算任務(wù),1臺(tái)服務(wù)器單機(jī)單核運(yùn)算

多進(jìn)程的處理方式是:
先拆桌子。比如把一張桌子拆成4個(gè)零部件,分給4個(gè)人來(lái)同時(shí)搬,有的搬桌子腿,有的搬桌面等等,搬得最慢的人決定任務(wù)的完成速度。
但是,哪怕你有8個(gè)人,一次也只有4個(gè)人在搬。
搬完一張桌子再搬下一張,依次往復(fù)。

VCS仿真計(jì)算任務(wù),1臺(tái)服務(wù)器運(yùn)算,任務(wù)拆解

補(bǔ)充一個(gè)背景信息:2009年4月,新思科技就發(fā)布了VCS的多核技術(shù),通過(guò)將耗時(shí)的計(jì)算處理動(dòng)態(tài)地分配至多個(gè)CPU內(nèi)核來(lái)突破芯片驗(yàn)證的瓶頸,從而提高驗(yàn)證的速度。
也就是說(shuō),應(yīng)用十多年前就支持單任務(wù)多進(jìn)程了,現(xiàn)在這個(gè)技術(shù)的名字叫Fine-Grained Parallelism,F(xiàn)GP。

VCS多核技術(shù),Fine-Grained Parallelism,FGP

第二階段:?jiǎn)螜C(jī)多CPU核,多任務(wù)

多任務(wù)狀態(tài)下的單機(jī)多核,就是多個(gè)任務(wù)能同時(shí)在一臺(tái)機(jī)器上的數(shù)個(gè)CPU上跑,受制于單臺(tái)機(jī)器的最大核數(shù),目前最多也就96個(gè)核了。 

我們繼續(xù)講“搬桌子”。

上一階段的多進(jìn)程處理方式,存在一個(gè)明顯的問(wèn)題。哪怕你有8個(gè)人,一次也只有4個(gè)人在搬。搬完一張桌子再搬下一張。
這就很不合理了。 

于是我們?cè)诖嘶A(chǔ)上改進(jìn)了一下。
在你有8個(gè)人的情況下,一張桌子4個(gè)人搬,我們可以同時(shí)搬兩張桌子啦。這樣可以明顯加快任務(wù)的完成速度。
但是,單臺(tái)機(jī)器的總CPU核數(shù)就是上限了。

VCS仿真計(jì)算任務(wù),1臺(tái)服務(wù)器單機(jī)計(jì)算

當(dāng)然這一階段還是會(huì)存在一些問(wèn)題,會(huì)出現(xiàn)有人突然跳出來(lái)跟你搶人或者你也搞不清楚哪些人現(xiàn)在有空來(lái)幫你。

因?yàn)橘Y源使用的不透明和缺乏有序管理,會(huì)出現(xiàn)不同人對(duì)同一資源的爭(zhēng)搶,任務(wù)排隊(duì)等現(xiàn)象。同時(shí),你會(huì)發(fā)現(xiàn)資源利用率還是不高。
不少用戶已經(jīng)處在這一階段。 

我們看看從第一階段到第二階段的實(shí)際VCS驗(yàn)證效果:

應(yīng)用并行化驗(yàn)證 400個(gè)任務(wù)

對(duì)VCS進(jìn)行多任務(wù)并行化處理后,一臺(tái)單機(jī)運(yùn)行相同VCS任務(wù)的時(shí)間縮短為原先的15%-16%,極大提升了運(yùn)行效率。

實(shí)證過(guò)程:
1、使用一臺(tái)單機(jī)C1(8核)運(yùn)行400個(gè)VCS任務(wù),耗時(shí)806分鐘;
2、使用一臺(tái)單機(jī)C2(8核)運(yùn)行400個(gè)VCS任務(wù),耗時(shí)793分鐘;
3、對(duì)VCS應(yīng)用進(jìn)行多任務(wù)并行化處理后,使用一臺(tái)單機(jī)C1(8核)運(yùn)行400個(gè)VCS任務(wù),耗時(shí)130分鐘;
4、對(duì)VCS應(yīng)用進(jìn)行多任務(wù)并行化處理后,使用一臺(tái)單機(jī)C2(8核)運(yùn)行400個(gè)VCS任務(wù),耗時(shí)122分鐘。

Synopsys VCS任務(wù)運(yùn)行,2臺(tái)8核服務(wù)器運(yùn)算效率對(duì)比-多任務(wù)并行化處理

第三階段:多機(jī)多CPU核,多任務(wù)

多任務(wù)狀態(tài)下的多機(jī)多核,就是多個(gè)任務(wù)能同時(shí)在數(shù)臺(tái)機(jī)器的數(shù)個(gè)CPU上跑,這個(gè)我們稱之為集群化管理,一般都需要有調(diào)度器的參與。

關(guān)于調(diào)度器的相關(guān)知識(shí),看這里:億萬(wàn)打工人的夢(mèng):16萬(wàn)個(gè)CPU隨你用

前面講到我們已經(jīng)可以同時(shí)安排搬兩張桌子啦。但其實(shí),如果你的機(jī)器足夠多,人(CPU核)足夠多,你完全可以同時(shí)搬更多的桌子。

VCS仿真計(jì)算,多任務(wù)并行計(jì)算,大規(guī)模集群計(jì)算需要調(diào)度器

這個(gè)時(shí)候,必然要面臨一個(gè)如何調(diào)兵遣將的問(wèn)題。

這么多機(jī)器,這么多任務(wù),怎么順利一一配置、啟動(dòng)、關(guān)閉,提高整體資源利用率,最好還能自動(dòng)化管理等等。這就需要一點(diǎn)技術(shù)了。

至于云上資源的大規(guī)模動(dòng)態(tài)化調(diào)度和管理,要更加高階一點(diǎn)。

在《生信云實(shí)證Vol.3:提速2920倍!用AutoDockVina對(duì)接2800萬(wàn)個(gè)分子》中,我們最多調(diào)用了10萬(wàn)核CPU資源對(duì)整個(gè)VS數(shù)據(jù)庫(kù)進(jìn)行虛擬篩選。

Synopsys VCS計(jì)算任務(wù),云端大規(guī)模計(jì)算集群調(diào)度與管理

當(dāng)集群達(dá)到如此規(guī)模之后,手動(dòng)管理是不可想象的。
而且云上資源跟本地不同,往往是個(gè)動(dòng)態(tài)使用的過(guò)程,有時(shí)候甚至要搶
更不用說(shuō)還要考慮不同用戶在不同階段的策略和需求

我們看看從第二階段到第三階段的實(shí)際VCS驗(yàn)證效果:

集群化驗(yàn)證 400個(gè)任務(wù)

由2臺(tái)單機(jī)構(gòu)建的集群運(yùn)行相同VCS任務(wù)的時(shí)間為單機(jī)的約60%,并實(shí)現(xiàn)了自動(dòng)化資源管理。

實(shí)證過(guò)程:
1、使用一臺(tái)單機(jī)C1(8核)運(yùn)行400個(gè)VCS任務(wù),耗時(shí)130分鐘;
2、使用一臺(tái)單機(jī)C2(8核)運(yùn)行400個(gè)VCS任務(wù),耗時(shí)122分鐘;
3、將C1和C2構(gòu)建為集群B,使用集群B運(yùn)行400個(gè)VCS任務(wù),耗時(shí)75分鐘。

Synopsys VCS任務(wù)運(yùn)行,2臺(tái)8核服務(wù)器集群

 最后,我們回顧一下,我們到底做了哪些事: 

應(yīng)用并行化:從單任務(wù)到多任務(wù)
fastone幫助用戶實(shí)現(xiàn)了應(yīng)用并行化,可以充分使用一臺(tái)單機(jī)上的全部CPU資源,確保了最大的計(jì)算效率。 

資源集群化:從單機(jī)到集群
fastone幫助用戶實(shí)現(xiàn)了集群化管理,讓多臺(tái)機(jī)器能夠并行化運(yùn)行VCS任務(wù),實(shí)現(xiàn)了數(shù)據(jù)、應(yīng)用、資源的統(tǒng)一化管理。 

規(guī)模自動(dòng)化:從400個(gè)任務(wù)到20000個(gè)任務(wù)
用戶希望在面臨大規(guī)模VCS任務(wù)時(shí),上述方案的穩(wěn)定性能夠得到充分驗(yàn)證。
fastone幫助用戶充分驗(yàn)證了20000個(gè)VCS任務(wù)場(chǎng)景下,能夠自動(dòng)化規(guī)模化地調(diào)度資源高效完成任務(wù),滿足用戶需求。 

到現(xiàn)在為止,我們成功幫助用戶從單機(jī)單任務(wù)單進(jìn)程運(yùn)行的階段大幅度跨越到了大規(guī)模任務(wù)自動(dòng)化集群化運(yùn)行階段。
萬(wàn)事俱備,下一步,上云。

我們的前兩篇EDA云實(shí)證可以了解一下:
從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?》
5000核大規(guī)模OPC上云,效率提升53倍

本次EDA行業(yè)云實(shí)證系列Vol.7就到這里了。
下一期的EDA云實(shí)證,我們聊Virtuoso。 

請(qǐng)保持關(guān)注哦!  

- END -


我們有個(gè)為應(yīng)用定義的云平臺(tái)
集成多種應(yīng)用,大量任務(wù)多節(jié)點(diǎn)并行
應(yīng)對(duì)短時(shí)間爆發(fā)性需求,連網(wǎng)即用
跑任務(wù)快,原來(lái)幾個(gè)月甚至幾年,現(xiàn)在只需幾小時(shí)
5分鐘快速上手,拖拉點(diǎn)選可視化界面,無(wú)需代碼
支持高級(jí)用戶直接在云端創(chuàng)建集群

掃碼免費(fèi)試用,送200元體驗(yàn)金,入股不虧~

云計(jì)算平臺(tái)免費(fèi)試用

更多電子書歡
迎掃碼關(guān)注小F(ID:imfastone)獲取

你也許想了解具體的落地場(chǎng)景:

155個(gè)GPU!多云場(chǎng)景下的Amber自由能計(jì)算
怎么把需要45天的突發(fā)性Fluent仿真計(jì)算縮短到4天之內(nèi)?
5000核大規(guī)模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對(duì)接2800萬(wàn)個(gè)分子

從4天到1.75小時(shí),如何讓Bladed仿真效率提升55倍?
從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?

你可能感興趣:

2小時(shí),賬單47萬(wàn)!「Milkie Way公司破產(chǎn)未遂事件」復(fù)盤分析
【2021】全球44家頂尖藥企AI輔助藥物研發(fā)行動(dòng)白皮書
EDA云平臺(tái)49問(wèn)
國(guó)內(nèi)超算發(fā)展近40年,終于遇到了一個(gè)像樣的對(duì)手

幫助CXO解惑上云成本的迷思,看這篇就夠了
靈魂畫師,在線科普多云平臺(tái)/CMP云管平臺(tái)/中間件/虛擬化/容器是個(gè)啥
花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500

為應(yīng)用定義的云-行業(yè)軟件上云-云原生的概念
The post EDA云實(shí)證Vol.7:揭秘20000個(gè)VCS任務(wù)背后的“搬桌子”系列故事 appeared first on 速石科技BLOG.]]>
EDA云實(shí)證Vol.4:5000核大規(guī)模OPC上云,效率提升53倍 http://m.661934.com/blog/eda-opc-20201118/ Wed, 18 Nov 2020 06:52:19 +0000 http://m.661934.com/blog/?p=896 上一篇《EDA云實(shí)證Vol.1:從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?》 里,我們幫一家Design House提高了使用HSPICE進(jìn)行芯片設(shè)計(jì)仿真的效率。 而設(shè)計(jì)好的集成電路圖案需要通過(guò) …

The post EDA云實(shí)證Vol.4:5000核大規(guī)模OPC上云,效率提升53倍 appeared first on 速石科技BLOG.]]>
上一篇《EDA云實(shí)證Vol.1:從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍? 里,我們幫一家Design House提高了使用HSPICE進(jìn)行芯片設(shè)計(jì)仿真的效率

而設(shè)計(jì)好的集成電路圖案需要通過(guò)光刻機(jī)轉(zhuǎn)印到晶圓上才能完成制造,這就是芯片制造中最重要的一個(gè)步驟——光刻

在先進(jìn)工藝特別是 FinFET 工藝中,計(jì)算光刻已經(jīng)成為光刻工藝研發(fā)的核心。

光學(xué)鄰近效應(yīng)校正(Optical Proximity Correction,OPC)屬于計(jì)算光刻技術(shù)的一種,主要是利用軟件和高性能計(jì)算,來(lái)模擬仿真光刻過(guò)程中的光學(xué)和化學(xué)過(guò)程,通過(guò)仿真建立精確的計(jì)算模型,然后調(diào)整圖形的邊沿不斷仿真迭代,直到逼近理想的圖形,最終加速工藝研發(fā)周期的目標(biāo)。

OPC仿真建模,光學(xué)鄰近效應(yīng)校正,Optical Proximity Correction示意圖

這一過(guò)程對(duì)計(jì)算資源的需求隨著模型的精確度呈指數(shù)級(jí)別增長(zhǎng)。

舉個(gè)例子,一款7nm芯片需要高達(dá)100層的光罩,每層光罩?jǐn)?shù)據(jù)都需要使用EDA工具進(jìn)行OPC的過(guò)程。整個(gè)過(guò)程對(duì)硬件算力要求很高,EDA工具需要運(yùn)行在幾千核的服務(wù)器CPU上,動(dòng)輒就是幾十萬(wàn)核時(shí)。

我們通過(guò)今天的實(shí)證驗(yàn)證了如何在不同場(chǎng)景下,大幅幫用戶縮短OPC運(yùn)行時(shí)間,同時(shí)確保云端和本地計(jì)算結(jié)果的完全一致性和計(jì)算性能的穩(wěn)定性。

這次實(shí)證涉及的場(chǎng)景很細(xì)致,既有License服務(wù)器的配置地點(diǎn),又有不同調(diào)度器,還一一對(duì)云上計(jì)算結(jié)果和本地做了數(shù)據(jù)對(duì)比,使用的計(jì)算資源數(shù)量跨度也很大,從80-5000核不等,非常細(xì)致,極具參考性。

實(shí)證背景信息

A社是一家大型IC設(shè)計(jì)公司,隨著近年業(yè)務(wù)規(guī)模不斷擴(kuò)大,OPC相關(guān)計(jì)算需求增大。
但A社本地機(jī)房空間不足,原先傳統(tǒng)托管IDC模式也難以滿足彈性需求,導(dǎo)致大量任務(wù)出現(xiàn)排隊(duì),無(wú)法及時(shí)輸出成果,拖慢了整個(gè)IC研發(fā)進(jìn)程。
公司希望在本地建設(shè)和IDC托管之外,尋求具備彈性的大規(guī)模算力來(lái)滿足業(yè)務(wù)高峰期的需求,來(lái)滿足業(yè)務(wù)擴(kuò)展需求。

實(shí)證目標(biāo)

1、OPC任務(wù)能否在云端有效運(yùn)行?
2、fastone平臺(tái)能否滿足業(yè)務(wù)彈性資源需求,有效減少OPC運(yùn)行時(shí)間?
3、License Server配置在本地和云端對(duì)計(jì)算性能/一致性/穩(wěn)定性是否有影響?
4、fastone能否支持不同調(diào)度器SGE/Slurm?使用不同調(diào)度器對(duì)計(jì)算性能/一致性/穩(wěn)定性是否有影響?
5、fastone平臺(tái)的云端輸出計(jì)算結(jié)果是否與本地完全一致?

實(shí)證參數(shù)

平臺(tái):
fastone企業(yè)版產(chǎn)品

應(yīng)用:
Synopsys Proteus?OPC

適用場(chǎng)景:
在提交設(shè)計(jì)到制造之前,模擬仿真光學(xué)鄰近效應(yīng)校正,從理論上探索增大最小可分辨特征尺寸(Minimum Resolvable Feature size,MRF)和工藝窗口(Process Window,PW)的途徑,指導(dǎo)工藝參數(shù)的優(yōu)化。

License配置:
本次實(shí)證分別驗(yàn)證了License Server部署在本地和云端的表現(xiàn)。

云端硬件配置:
本次實(shí)證涉及的考察因素比較多,尤其是本地和云上進(jìn)行了同步一對(duì)一對(duì)比。用戶希望和本地硬件配置盡量保持一致,有更好的可比性,所以選擇了跟本地接近的內(nèi)存密集型實(shí)例機(jī)型。

調(diào)度器:
本次實(shí)證同時(shí)采用了SGE和Slurm兩種調(diào)度器。

技術(shù)架構(gòu)圖:

fastone EDA云平臺(tái),OPC仿真計(jì)算,混合云技術(shù)架構(gòu)圖

兩個(gè)紅框表示EDA License Server分別部署在本地或云端。

應(yīng)A社對(duì)于數(shù)據(jù)保密的要求,
本實(shí)證所有數(shù)據(jù)均經(jīng)過(guò)處理。

實(shí)證場(chǎng)景一

5000核大規(guī)模OPC業(yè)務(wù)上云驗(yàn)證

結(jié)論:
1、云端調(diào)度5000核計(jì)算資源運(yùn)算一組OPC任務(wù),耗時(shí)為80核計(jì)算資源運(yùn)算耗時(shí)的0.019倍,相當(dāng)于從一個(gè)月縮短到13.8小時(shí);
2、公有云廠商大內(nèi)存型資源數(shù)量不算多,單個(gè)區(qū)域想要一次性獲取高達(dá)5000核的內(nèi)存型實(shí)例很難實(shí)現(xiàn)。fastone平臺(tái)的Auto-Scale功能可在較短時(shí)間內(nèi),根據(jù)用戶需求,自動(dòng)化跨區(qū)調(diào)度到大量目標(biāo)類型計(jì)算資源。

實(shí)證過(guò)程:
1、云端調(diào)度80核計(jì)算資源運(yùn)算一組任務(wù),耗時(shí)為x;
2、云端調(diào)度5000核計(jì)算資源運(yùn)算一組任務(wù),耗時(shí)為0.019x。

云端調(diào)度80核與5000核的計(jì)算耗時(shí)

關(guān)于通過(guò)fastone平臺(tái)的Auto-Scale功能基于用戶時(shí)間優(yōu)先策略和成本優(yōu)先策略自動(dòng)調(diào)度本區(qū)域及其他區(qū)域的目標(biāo)類型或相似類型實(shí)例資源,這篇文章《生信云實(shí)證Vol.3:提速2920倍!用AutoDock Vina對(duì)接2800萬(wàn)個(gè)分子》里有詳細(xì)說(shuō)明。

fastone平臺(tái)Auto-Scale智能調(diào)度系統(tǒng),實(shí)例資源自動(dòng)調(diào)度

實(shí)證場(chǎng)景二

License Server配置在本地VS云端
云上VS本地:計(jì)算性能/一致性/穩(wěn)定性驗(yàn)證

結(jié)論:
1、License Server部署在本地和云端對(duì)于計(jì)算結(jié)果無(wú)影響;
2、云端和本地分別運(yùn)行相同OPC任務(wù):
計(jì)算性能:云上計(jì)算時(shí)間均優(yōu)于本地;
一致性:云端和本地計(jì)算結(jié)果均完全一致;
穩(wěn)定性:集群運(yùn)行均無(wú)中斷,GUI啟動(dòng)均正常。

License Server部署在本地和云端OPC仿真計(jì)算結(jié)果無(wú)影響

實(shí)證過(guò)程:
1、License Server部署在本地,云上調(diào)度80/240/480/1600/3200/5000核計(jì)算資源運(yùn)行OPC任務(wù),本地同步運(yùn)行80/240/480/1600/3200/5000核相同OPC任務(wù);
2、License Server部署在云端,云上調(diào)度80/240/480/1600/3200/5000核計(jì)算資源運(yùn)行OPC任務(wù),本地同步運(yùn)行80/240/480/1600/3200/5000核相同OPC任務(wù)。

實(shí)證場(chǎng)景三

License Server配置在本地VS云端
云端擴(kuò)展性驗(yàn)證

結(jié)論一:
License Server配置在本地,使用云端資源運(yùn)算OPC任務(wù),性能隨資源增加線性提升。

License Server在本地配置,OPC計(jì)算任務(wù)上云

注:參考值分別為:80核-1、240核-0.3333、480核-0.1667、1600核-0.05、3200核-0.025,5000核-0.016。

實(shí)證過(guò)程:
將License Server部署在本地:
1、云端調(diào)度80核計(jì)算資源運(yùn)算Case1,耗時(shí)為x;
2、云端調(diào)度240核計(jì)算資源運(yùn)算Case1,耗時(shí)為0.3375x;
3、云端調(diào)度480核計(jì)算資源運(yùn)算Case1,耗時(shí)為0.1679x;
4、云端調(diào)度1600核計(jì)算資源運(yùn)算Case1,耗時(shí)為0.0518x;
5、云端調(diào)度3200核計(jì)算資源運(yùn)算Case1,耗時(shí)為0.0285x;
6、云端調(diào)度5000核計(jì)算資源運(yùn)算Case1,耗時(shí)為0.0216x;
7、云端調(diào)度80核計(jì)算資源運(yùn)算Case2,耗時(shí)為y;
8、云端調(diào)度240核計(jì)算資源運(yùn)算Case2,耗時(shí)為0.3389y;
9、云端調(diào)度480核計(jì)算資源運(yùn)算Case2,耗時(shí)為0.1682y;
10、云端調(diào)度1600核計(jì)算資源運(yùn)算Case2,耗時(shí)為0.0529y;
11、云端調(diào)度3200核計(jì)算資源運(yùn)算Case2,耗時(shí)為0.0300y;
12、云端調(diào)度5000核計(jì)算資源運(yùn)算Case2,耗時(shí)為0.0230y。

結(jié)論二:
License Server配置在云端,使用云端資源運(yùn)算OPC任務(wù),性能隨資源增加線性提升。

License Server在云端配置,OPC計(jì)算任務(wù)在云上跑

注:參考值分別為:80核-1、240核-0.3333、480核-0.1667、1600核-0.05、3200核-0.025,5000核-0.016。

實(shí)證過(guò)程:
將License Server部署在云端:
1、云端調(diào)度80核計(jì)算資源運(yùn)算Case1,耗時(shí)為x;
2、云端調(diào)度240核計(jì)算資源運(yùn)算Case1,耗時(shí)為0.3346x;
3、云端調(diào)度480核計(jì)算資源運(yùn)算Case1,耗時(shí)為0.1672x;
4、云端調(diào)度1600核計(jì)算資源運(yùn)算Case1,耗時(shí)為0.0515x;
5、云端調(diào)度3200核計(jì)算資源運(yùn)算Case1,耗時(shí)為0.0270x;
6、云端調(diào)度5000核計(jì)算資源運(yùn)算Case1,耗時(shí)為0.0191x;
7、云端調(diào)度80核計(jì)算資源運(yùn)算Case2,耗時(shí)為y;
8、云端調(diào)度240核計(jì)算資源運(yùn)算Case2,耗時(shí)為0.3390y;
9、云端調(diào)度480核計(jì)算資源運(yùn)算Case2,耗時(shí)為0.1691y;
10、云端調(diào)度1600核計(jì)算資源運(yùn)算Case2,耗時(shí)為0.0588y;
11、云端調(diào)度3200核計(jì)算資源運(yùn)算Case2,耗時(shí)為0.0329y;
12、云端調(diào)度5000核計(jì)算資源運(yùn)算Case2,耗時(shí)為0.0262y。

實(shí)證場(chǎng)景四

不同調(diào)度器驗(yàn)證:SGE VS Slurm
云端2000核/5000核

結(jié)論:
1、分別使用SGE和Slurm調(diào)度云端2000核/5000核運(yùn)行相同OPC任務(wù),對(duì)于計(jì)算結(jié)果無(wú)影響;
2、云端和本地使用不同調(diào)度器分別運(yùn)行相同OPC任務(wù):
計(jì)算性能:云上計(jì)算時(shí)間均優(yōu)于本地;
一致性:云端和本地計(jì)算結(jié)果均完全一致;
穩(wěn)定性:集群運(yùn)行均無(wú)中斷,GUI啟動(dòng)均正常。

OPC仿真計(jì)算-不同核數(shù)不同調(diào)度器的性能表現(xiàn)

實(shí)證過(guò)程:
1、使用SGE調(diào)度器,云上調(diào)度2000核計(jì)算資源運(yùn)算一組OPC任務(wù),本地同步運(yùn)行2000核相同OPC任務(wù);
2、使用SGE調(diào)度器,云上調(diào)度5000核計(jì)算資源運(yùn)算一組OPC任務(wù),本地同步運(yùn)行5000核相同OPC任務(wù);
3、使用Slurm調(diào)度器,云上調(diào)度2000核計(jì)算資源運(yùn)算一組OPC任務(wù),本地同步運(yùn)行2000核相同OPC任務(wù);
4、使用Slurm調(diào)度器,云上調(diào)度5000核計(jì)算資源運(yùn)算一組OPC任務(wù),本地同步運(yùn)行5000核相同OPC任務(wù)。

這篇文章《億萬(wàn)打工人的夢(mèng):16萬(wàn)個(gè)CPU隨你用》里,我們基于這四家主流調(diào)度器:LSF/SGE/Slurm/PBS以及它們的9個(gè)演化版本進(jìn)行了梳理和盤點(diǎn),尤其是對(duì)云的支持方面劃了重點(diǎn)。可以了解一下。

實(shí)證小結(jié)

1、Proteus?OPC任務(wù)在云端能有效運(yùn)行;
2、fastone平臺(tái)能夠大幅度縮短OPC任務(wù)運(yùn)行時(shí)間;
3、License Server配置在本地和云端,對(duì)計(jì)算性能/一致性/穩(wěn)定性沒有影響;
4、fastone平臺(tái)使用不同調(diào)度器SGE/Slurm,對(duì)計(jì)算性能/一致性/穩(wěn)定性沒有影響;
5、云端和本地運(yùn)行相同OPC任務(wù),對(duì)計(jì)算結(jié)果沒有影響。

本次EDA行業(yè)Cloud HPC實(shí)證系列Vol.4就到這里了。

在下一期實(shí)證中,我們將對(duì)Virtuoso使用速石平臺(tái)進(jìn)行驗(yàn)證。請(qǐng)保持關(guān)注哦!  

- END -

我們有個(gè)【在線體驗(yàn)版】,掃碼即可注冊(cè),2分鐘自動(dòng)開通。即刻就能獲得TOP500這種超級(jí)算力,你就不想試一下?你想要的我們可能都有,還送300元體驗(yàn)金,入股不虧~

掃碼免費(fèi)試用

速石科技-SaaS計(jì)算云平臺(tái)試用

《半導(dǎo)體行業(yè)云解決方案白皮書》
有興趣可以掃碼添加小F微信(ID: imfastone)獲取

半導(dǎo)體行業(yè)云解決方案白皮書


你也許想了解具體的落地場(chǎng)景:

生信云實(shí)證Vol.3:提速2920倍!用AutoDock Vina對(duì)接2800萬(wàn)個(gè)分子

CAE云實(shí)證Vol.2:從4天到1.75小時(shí),如何讓Bladed仿真效率提升55倍?

EDA云實(shí)證Vol.1:從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍?

15小時(shí)虛擬篩選10億分子,《Nature》+HMS驗(yàn)證云端新藥研發(fā)未來(lái)


關(guān)于云端高性能計(jì)算平臺(tái):

國(guó)內(nèi)超算發(fā)展近40年,終于遇到了一個(gè)像樣的對(duì)手

幫助CXO解惑上云成本的迷思,看這篇就夠了

靈魂畫師,在線科普多云平臺(tái)/CMP云管平臺(tái)/中間件/虛擬化/容器是個(gè)啥

花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500


The post EDA云實(shí)證Vol.4:5000核大規(guī)模OPC上云,效率提升53倍 appeared first on 速石科技BLOG.]]>
EDA云實(shí)證Vol.1:從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍? http://m.661934.com/blog/eda-case-hspice-20200825/ http://m.661934.com/blog/eda-case-hspice-20200825/#respond Tue, 25 Aug 2020 11:25:43 +0000 http://blog.m.661934.com/?p=581 作為最早的電子設(shè)計(jì)自動(dòng)化軟件,我們的EDA云實(shí)證系列從SPICE開始,再合適不過(guò)。 在它出現(xiàn)之前,人們分析電路,用的是紙筆或者搭電路板。隨著電路規(guī)模增大,手工明顯跟不上。 于是,197 …

The post EDA云實(shí)證Vol.1:從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍? appeared first on 速石科技BLOG.]]>
作為最早的電子設(shè)計(jì)自動(dòng)化軟件,我們的EDA云實(shí)證系列從SPICE開始,再合適不過(guò)。

在它出現(xiàn)之前,人們分析電路,用的是紙筆或者搭電路板。隨著電路規(guī)模增大,手工明顯跟不上。

于是,1971年,SPICE誕生了。全稱“Simulation Program with Integrates Circuit Emphasis"。

H-SPICE是隨著產(chǎn)業(yè)環(huán)境及電路設(shè)計(jì)技術(shù)的發(fā)展與升級(jí),以“SPICE2”為基礎(chǔ)加以改進(jìn)而成的商業(yè)軟件產(chǎn)品,現(xiàn)在屬于Synopsys。

既然有了新的計(jì)算機(jī)輔助工具,那問(wèn)題就來(lái)了:

怎么才能跑得更快一點(diǎn)?

怎么才能運(yùn)行更大規(guī)模的集成電路?

第一個(gè)答案是算法改進(jìn)。這屬于數(shù)學(xué)領(lǐng)域,很難。

第二個(gè)答案是摩爾定律。從上世紀(jì)70年代初到如今,SPICE從只能仿真十幾個(gè)元器件到今天可以仿真上千萬(wàn)個(gè)元器件的電路。但已經(jīng)幾十年沒有太大的變化了。

第三個(gè)答案是計(jì)算架構(gòu)升級(jí),從單核到多核,單線程到多線程。

第四個(gè)答案是Cloud HPC云端高性能計(jì)算。談概念過(guò)于抽象,我們今天拿實(shí)證說(shuō)話。

實(shí)證背景信息

用戶需求

作為一家純IC設(shè)計(jì)公司,C社成立已超過(guò)十年。

公司在本地部署了由十多臺(tái)機(jī)器組成的計(jì)算集群,但目前面臨的最大問(wèn)題依然是算力不足。特別是面對(duì)每年十次左右的算力高峰期時(shí),基本上沒有太好的辦法

對(duì)云的認(rèn)知

C社相關(guān)負(fù)責(zé)人表示:算力不足是目前IC設(shè)計(jì)行業(yè)普遍面臨的問(wèn)題。對(duì)于EDA上云,公司之前沒有嘗試過(guò),對(duì)云模式和架構(gòu)也并不了解,在數(shù)據(jù)安全性方面也存在一定的顧慮。

不過(guò)該負(fù)責(zé)人對(duì)于EDA上云早有耳聞,也頗感興趣,愿意進(jìn)行一定的嘗試。畢竟上云若真的能夠加快運(yùn)算速度,就意味著可以更早展開研究,從而提升項(xiàng)目的整體進(jìn)度。

實(shí)證目標(biāo)

1、HSPICE任務(wù)能否在云端運(yùn)行?

2、云端資源是否能適配HSPICE任務(wù)需求?

3、fastone平臺(tái)能否有效解決目前業(yè)務(wù)問(wèn)題?

4、相比傳統(tǒng)手動(dòng)模式,云端計(jì)算集群的自動(dòng)化部署,有哪些好處?

實(shí)證參數(shù)

平臺(tái):

fastone企業(yè)版產(chǎn)品

應(yīng)用:

HSPICE

適用場(chǎng)景:

仿真模擬電路、混合信號(hào)電路、精確數(shù)字電路、建立SoC的時(shí)序及功耗單元庫(kù)、分析系統(tǒng)級(jí)的信號(hào)完整性等

技術(shù)架構(gòu)圖:

用戶登錄VDI,使用fastone算力運(yùn)營(yíng)平臺(tái)根據(jù)實(shí)際計(jì)算需求自動(dòng)創(chuàng)建、銷毀集群,完成計(jì)算任務(wù)。

fastone企業(yè)版云計(jì)算平臺(tái)技術(shù)架構(gòu)圖

License配置:

EDA License Server設(shè)置在本地。

步驟一:硬件選擇

選擇適合HSPICE應(yīng)用的配置

云端可以選擇的機(jī)型有幾百種,配置、價(jià)格差異極大。

我們首先需要挑選出既能滿足HSPICE應(yīng)用需求,又具備性價(jià)比的機(jī)型。

已知用戶的本地硬件配置:

Xeon(R) Gold 6244 CPU @ 3.60GHz,512GB Memory

本地配置不僅主頻高,內(nèi)存也相當(dāng)大。

我們推薦的云端硬件配置:

96 vCPU, 3.6GHz, 2nd Gen Intel Xeon Platinum 8275CL, 192 GiB Memory

96 核,第二代英特爾奔騰處理器 8275CL, 192 GB內(nèi)存

推薦理由:

1、該應(yīng)用對(duì)CPU主頻要求較高,但內(nèi)存要求并不大;

2、我們選擇了計(jì)算優(yōu)化型云端實(shí)例即具備高性價(jià)比的高主頻機(jī)器

C社的本地硬件在HSPICE以外,還需處理一些需要大內(nèi)存的后端任務(wù),所以需要在配置上兼顧各種資源需求,在當(dāng)前項(xiàng)目不可避免會(huì)造成一定的資源浪費(fèi)。

步驟二:云端部署

手動(dòng)模式 VS 自動(dòng)部署

我們先看手動(dòng)模式:

第一步:不管你需要用哪朵云,你都得先熟悉那家云的操作界面,掌握正確的使用方法;

第二步:構(gòu)建大規(guī)模算力集群:

  • 配置計(jì)算節(jié)點(diǎn),存儲(chǔ)節(jié)點(diǎn),VPC,安全組等等
  • 安裝應(yīng)用,把HSPICE安裝在集群環(huán)境
  • 配置集群調(diào)度器,比如slurm

第三步:上傳任務(wù)數(shù)據(jù),開啟計(jì)算;

第四步:任務(wù)完成后及時(shí)下載結(jié)果并關(guān)機(jī)。不要笑,這一點(diǎn)很重要。我們?cè)?切換七種視角,我們給各位CXO大佬算算上云這筆賬 有講到原因。

此外,還有一個(gè)需要考慮的點(diǎn),時(shí)間。

第一步,需要多少時(shí)間說(shuō)不好;

第二步,大概需要專業(yè)IT人員平均3-5天

第三步/第四步,如果數(shù)據(jù)量較大,需要考慮斷點(diǎn)續(xù)傳和自動(dòng)重傳

第四步,任務(wù)完成時(shí)間很可能難以預(yù)測(cè)。

即使是可測(cè)的,我們可以想象一個(gè)場(chǎng)景——有個(gè)任務(wù)預(yù)計(jì)在凌晨跑完,用戶此時(shí)有兩個(gè)選擇:

1、調(diào)一個(gè)鬧鐘,半夜起來(lái)關(guān)機(jī)——有人遭罪

2、睡到自然醒,次日上班關(guān)機(jī)——成本浪費(fèi)

手動(dòng)模式下,創(chuàng)建/銷毀/調(diào)度計(jì)算集群的步驟

在手動(dòng)模式下,通常都是先構(gòu)建一個(gè)固定規(guī)模的集群,然后提交任務(wù),全部任務(wù)結(jié)束后,關(guān)閉集群。想一下一個(gè)幾千core的集群拉起來(lái)之后,第二、三、四步手動(dòng)配置的時(shí)間里,所有機(jī)器一直都是開啟狀態(tài),也就是說(shuō),燒錢中。

再看看我們的自動(dòng)化部署:

第一步,不需要;

第二步,只需要點(diǎn)擊幾個(gè)按鈕,5-10分鐘即可開啟集群;

第三步,我們有Auto-Scale功能,自動(dòng)開關(guān)機(jī)。

另外,我們還自帶資源的管理和監(jiān)控功能。

fastone的Auto-Scale功能可以自動(dòng)監(jiān)控用戶提交的任務(wù)數(shù)量和資源的需求,動(dòng)態(tài)按需地開啟所需算力資源,在提升效率的同時(shí)有效降低成本。

  • 所有操作都是自動(dòng)化完成,無(wú)需用戶干預(yù);
  • 在實(shí)際開機(jī)過(guò)程中,可能遇到云在某個(gè)可用區(qū)資源不足的情況,fastone會(huì)自動(dòng)嘗試從別的區(qū)域開啟資源;
  • 如果需要的資源確實(shí)不夠,又急需算力完成任務(wù),用戶還可以從fastone界面選擇配置接近的實(shí)例類型來(lái)補(bǔ)充。
auto-scale彈性計(jì)算,速石科技自動(dòng)伸縮集群調(diào)度系統(tǒng),自動(dòng)調(diào)度計(jì)算峰值和低谷期的運(yùn)算力

跨區(qū)域,跨機(jī)型使用,在本次實(shí)證場(chǎng)景沒有用到。
我們還可以根據(jù)GPU的需求來(lái)實(shí)現(xiàn)自動(dòng)伸縮,下次單獨(dú)聊。

實(shí)證場(chǎng)景一:云端驗(yàn)證

 本地40核 VS 云端40核 VS 云端80核 

結(jié)論:

1、當(dāng)計(jì)算資源與任務(wù)拆分方式均為5*8核時(shí),本地和云端的計(jì)算周期基本一致;

2、在云端將任務(wù)拆分為10*4核后,比5*8核的拆分方式計(jì)算周期減少三分之一; 

3、當(dāng)任務(wù)拆分方式不變,計(jì)算資源從40核增加到80核,計(jì)算周期減半;

4、當(dāng)計(jì)算資源翻倍,且任務(wù)拆分方式從5*8核變更為10*4核后,計(jì)算周期減少三分之二;

5、fastone自動(dòng)化部署可大幅節(jié)省用戶的時(shí)間和人力成本。

本地40核對(duì)比云端40/80核計(jì)算資源,云計(jì)算提高運(yùn)算效率,縮短運(yùn)算耗時(shí)

實(shí)證過(guò)程:

1、本地使用40核計(jì)算資源,拆分為5*8核,運(yùn)行編號(hào)為1的HSPICE任務(wù),耗時(shí)42小時(shí)

2、云端調(diào)度40核計(jì)算資源,拆分為5*8核,運(yùn)行編號(hào)為1的HSPICE任務(wù),耗時(shí)42小時(shí)

3、云端調(diào)度40核計(jì)算資源,拆分為10*4核,運(yùn)行編號(hào)為1的HSPICE任務(wù),耗時(shí)28小時(shí);

4、云端調(diào)度80核計(jì)算資源,拆分為10*8核,運(yùn)行編號(hào)為1的HSPICE任務(wù),耗時(shí)21小時(shí)

5、云端調(diào)度80核計(jì)算資源,拆分為20*4核,運(yùn)行編號(hào)為1的HSPICE任務(wù),耗時(shí)14小時(shí)

實(shí)證場(chǎng)景二:大規(guī)模業(yè)務(wù)驗(yàn)證

超大規(guī)模計(jì)算任務(wù)

結(jié)論:

1、增加計(jì)算資源并優(yōu)化任務(wù)拆分方式后,云端調(diào)度1920核計(jì)算資源,將一組超大規(guī)模計(jì)算任務(wù)(共計(jì)24個(gè)HSPICE任務(wù))的計(jì)算周期從原有的30天縮短至17小時(shí)即可完成,云端最優(yōu)計(jì)算周期與本地計(jì)算周期相比,效率提升42倍;

2、由fastone平臺(tái)自研的Auto-Scale功能,使平臺(tái)可根據(jù)HSPICE任務(wù)狀態(tài)在云端自動(dòng)化構(gòu)建計(jì)算集群,并根據(jù)實(shí)際需求自動(dòng)伸縮,計(jì)算完成后自動(dòng)銷毀,在提升效率的同時(shí)有效降低成本;

3、隨著計(jì)算周期的縮短,設(shè)備斷電、應(yīng)用崩潰等風(fēng)險(xiǎn)也相應(yīng)降低,作業(yè)中斷的風(fēng)險(xiǎn)也大大降低。在本實(shí)例中未發(fā)生作業(yè)中斷。

本地40核對(duì)比云端1920核,云計(jì)算大大提高運(yùn)算效率,縮短運(yùn)算耗時(shí)

實(shí)證過(guò)程:

1、本地使用40核計(jì)算資源,拆分為5*8核,運(yùn)行編號(hào)從0到23共計(jì)24個(gè)HSPICE任務(wù),耗時(shí)約30天;

2、云端調(diào)度1920核計(jì)算資源,拆分為24組,每組為20*4核,運(yùn)行編號(hào)從0到23共計(jì)24個(gè)HSPICE任務(wù),耗時(shí)17個(gè)小時(shí)

實(shí)證小結(jié)

我們回顧一下實(shí)證目標(biāo):

1、HSPICE任務(wù)在云端能高效運(yùn)行;

2、異構(gòu)的云端資源能更好適配HSPICE任務(wù)需求,避免資源浪費(fèi);

3、fastone平臺(tái)有效解決了算力不足問(wèn)題,效率提升42倍;

4、相比手動(dòng)模式,fastone平臺(tái)自研的Auto-Scale功能,既能有效提升部署效率,降低部署門檻,又能大大縮短整個(gè)計(jì)算周期資源占用率,節(jié)約成本。

至于本次實(shí)證場(chǎng)景沒用到的跨區(qū)域,跨機(jī)型使用,還有根據(jù)GPU的需求來(lái)實(shí)現(xiàn)自動(dòng)伸縮,我們下次再聊。

本次半導(dǎo)體行業(yè)Cloud HPC實(shí)證系列Vol.1就到這里了。

在下一期的實(shí)證中,我們最多調(diào)用了5000核的云資源來(lái)執(zhí)行OPC任務(wù),并且充分評(píng)估了License在本地和云端的性能差異。

未來(lái)我們還會(huì)帶給大家更多領(lǐng)域的用云“真香”實(shí)證,請(qǐng)保持關(guān)注哦!

END -

查看更多 速石科技 EDA 行業(yè)上云解決方案

2分鐘自動(dòng)開通【在線體驗(yàn)版】,即刻獲得TOP500超級(jí)算力,注冊(cè)即贈(zèng) 200元 體驗(yàn)金 ——> 體驗(yàn)入口

免費(fèi)試用速石云計(jì)算平臺(tái)

《半導(dǎo)體行業(yè)云解決方案白皮書》
有興趣可以掃碼添加小F微信(ID: imfastone)獲取

半導(dǎo)體行業(yè)EDA企業(yè)上云解決方案白皮書

相關(guān)閱讀

>>  全球半導(dǎo)體行業(yè)上云格局一覽和十個(gè)上云實(shí)踐問(wèn)題解答

>>【2020新版】六家云廠商價(jià)格比較:AWS/阿里/Azure/Google/華為/騰訊

>>  切換七種視角,我們給各位CXO大佬算算上云這筆賬

>>  花費(fèi)4小時(shí)5500美元,速石科技躋身全球超算TOP500

>>  靈魂畫師,在線科普多云平臺(tái)/CMP云管平臺(tái)/中間件/虛擬化/容器是個(gè)啥

The post EDA云實(shí)證Vol.1:從30天到17小時(shí),如何讓HSPICE仿真效率提升42倍? appeared first on 速石科技BLOG.]]>
http://m.661934.com/blog/eda-case-hspice-20200825/feed/ 0