近日,我國最大規(guī)??茖W(xué)智能計算集群在河南鄭州國家超算互聯(lián)網(wǎng)核心節(jié)點投入使用。這個由6萬張國產(chǎn)加速卡構(gòu)成的“算力巨無霸”,從底層芯片、高速互聯(lián)網(wǎng)絡(luò)、基礎(chǔ)設(shè)施系統(tǒng)到上層軟件平臺,全部由國內(nèi)團(tuán)隊自主攻關(guān)完成,標(biāo)志著我國在算力自主創(chuàng)新方面邁出關(guān)鍵一步。
拿基礎(chǔ)設(shè)施系統(tǒng)來說,因為高性能計算的要求,單機柜功率密度超過了800千瓦,帶來巨大的冷卻和供電挑戰(zhàn)。我們意識到,必須跳出原有的技術(shù)路徑,重新構(gòu)想一套融合供能與散熱、兼顧密度與運行可靠性的全新系統(tǒng)。
其中,我國自主研發(fā)的相變浸沒液冷技術(shù),就為解決這類散熱難題提供了新途徑。簡單來說,相變浸沒液冷技術(shù)就是將機器設(shè)備浸沒在氟化液中進(jìn)行降溫。因為氟化液沸點在50攝氏度左右,而數(shù)據(jù)機器設(shè)備運行溫度在80至90攝氏度之間,當(dāng)設(shè)備運行溫度上升后,氟化液就會沸騰汽化,并由傳輸管道進(jìn)入冷凝器,冷卻后的氣體再次轉(zhuǎn)換為氟化液,即可實現(xiàn)閉環(huán)循環(huán)利用,對浸泡在里面的機器設(shè)備進(jìn)行持續(xù)降溫。
原理聽起來雖不復(fù)雜,卻是一項全球領(lǐng)先的新技術(shù),我們在技術(shù)攻關(guān)中付出了艱苦的努力。比如,我們自主研發(fā)了低沸點、不導(dǎo)電、無毒環(huán)保的國產(chǎn)氟化液冷媒,它不僅能杜絕短路、漏電風(fēng)險,還通過全封閉循環(huán)設(shè)計實現(xiàn)零泄漏、零噪聲,同時避免灰塵、濕氣對硬件的侵蝕,大幅延長服務(wù)器使用壽命。值得一提的是,國產(chǎn)氟化液冷媒成本還不到國外同類產(chǎn)品售價的三成,為技術(shù)的規(guī)?;占暗於藞詫嵒A(chǔ)。
與芯片直接接觸的強化沸騰件,是液冷系統(tǒng)的核心散熱部件。我們在兩年內(nèi)制作并測試了上百件常規(guī)材料樣品,都不能達(dá)到理想的性能指標(biāo)。于是,團(tuán)隊決心轉(zhuǎn)向一個全新的材料體系——金剛石銅復(fù)合材料。在持續(xù)近200天的試驗與迭代后,樣品的核心性能指標(biāo)終于全部達(dá)標(biāo)。面對該材料“無量產(chǎn)先例”的行業(yè)空白,我們攻克從制造到應(yīng)用的全流程工藝難題,實現(xiàn)了該材料的規(guī)模化穩(wěn)定應(yīng)用。
我們通過創(chuàng)新架構(gòu)設(shè)計實現(xiàn)了電力輸送能力的提升,同時通過優(yōu)化供電路徑,讓更多的電力直接用于計算本身。此外,我們還將回收的熱能轉(zhuǎn)化為穩(wěn)定的梯級熱源,直接輸送給周邊的學(xué)校、社區(qū)或商業(yè)設(shè)施。應(yīng)用方面,我們推出了國內(nèi)首個科學(xué)大模型一站式開發(fā)平臺,以打通算力中心到科研一線的“最后一公里”。
(作者為曙光數(shù)據(jù)基礎(chǔ)設(shè)施創(chuàng)新技術(shù)(北京)股份有限公司高級副總裁,本報記者谷業(yè)凱采訪整理)