在12月13日召開的第二屆數(shù)據(jù)安全治理年會上,中國工程院院士鄭緯民表示,我國人工智能基礎(chǔ)設(shè)施亟待優(yōu)化,應從軟硬件兩方面突破瓶頸。
我國人工智能產(chǎn)業(yè)面臨軟硬件兩方面瓶頸
在會上,鄭緯民提出了算力“三大定律”:人類已經(jīng)進入以算力為核心生產(chǎn)力的數(shù)字經(jīng)濟時代,算力就是生產(chǎn)力,這是“時代定律”;當下,算力每12個月就增長一倍,算力資源增速顯著,已經(jīng)打破摩爾定律,這是“增長定律”;算力每投入1元,就帶動3~4元GDP經(jīng)濟增長,這是“經(jīng)濟定律”。
近年來,我國人工智能產(chǎn)業(yè)發(fā)展呈指數(shù)級增長。鄭緯民表示,預計到2025年,中國人工智能產(chǎn)業(yè)規(guī)模將超過4500億元,帶動產(chǎn)生間接經(jīng)濟效益超1.6萬億元。
鄭緯民直言,我國人工智能產(chǎn)業(yè)正面臨著軟件、硬件兩方面的瓶頸。
從硬件角度看,一方面,我國國產(chǎn)芯片產(chǎn)量不足。鄭緯民表示,2021年,我國人工智能服務(wù)器芯片總用量100萬片,其中,美國英偉達市場份額高達95%左右。
從軟件角度看,我國在算法等技術(shù)方面發(fā)展仍然有所欠缺,當前,谷歌和Meta的人工智能算法開發(fā)框架占中國人工智能市場份額的90%以上。
鄭緯民坦言,要解決當下面臨的問題,一是營造完善的人工智能服務(wù)器硬件生態(tài),二是優(yōu)化人工智能大模型基礎(chǔ)設(shè)施架構(gòu)。
“4個平衡”優(yōu)化大模型基礎(chǔ)設(shè)施
鄭緯民強調(diào),在設(shè)計大模型基礎(chǔ)設(shè)施時,要思考“4個平衡”的優(yōu)化問題。
一是半精度運算性能與雙精度運算性能的平衡設(shè)計。在計算機系統(tǒng)的內(nèi)存中,半精度、單精度和雙精度是決定數(shù)據(jù)計算精確度的度量標準,雙精度比半精度更精密,但同時要占據(jù)更多存儲空間。鄭緯民提出,大模型設(shè)計中不僅要考慮16位的半精度運算性能,還要考慮支持64位的雙精度運算。他表示,最優(yōu)的雙精度與半精度運算性能比為1:100。
二是網(wǎng)絡(luò)平衡設(shè)計。鄭緯民指出,在網(wǎng)絡(luò)設(shè)計方面,高帶寬、低延遲的網(wǎng)絡(luò)是極大規(guī)模預訓練模型運行的必要條件?!霸谟柧氝^程中,我們采用數(shù)據(jù)并行、模型并行和專家并行三種不同的并行方式,但這三種方式對互聯(lián)有不同的要求?!编嵕暶癖硎?,“只有把通信做好,大模型才能順暢跑通?!?/span>
三是體系結(jié)構(gòu)感知的內(nèi)存平衡設(shè)計。通俗而言,大模型在訓練過程中使用的大量數(shù)據(jù)會產(chǎn)生大量的內(nèi)存訪問請求;對內(nèi)存平衡的優(yōu)化,目的是提升模型訪存性能,從而提高模型訓練效率。
四是輸入輸出子系統(tǒng)平衡設(shè)計。鄭緯民指出,機器在執(zhí)行大規(guī)模訓練任務(wù)時,發(fā)生硬件、軟件錯誤在所難免。針對這樣的情況,容錯檢查點成為了大模型訓練中的一道“保險閘”。容錯檢查點設(shè)置不足,會導致模型訓練效率降低;檢查設(shè)置過于頻繁,則會浪費大量時間和存儲空間。因此,優(yōu)化檢查點存儲在大模型訓練中的重要性不言而喻。
“以上四點平衡的問題得到解決,AI大模型將實現(xiàn)快速發(fā)展。”鄭緯民總結(jié)道。
(來源:中國電子報)