您的位置:首頁(yè) >熱訊 > 股票 >

每日看點(diǎn)!攻堅(jiān)AI大模型網(wǎng)絡(luò),騰訊云出新招


(資料圖片僅供參考)

北京日?qǐng)?bào)客戶端 | 記者 袁璐

AIGC的爆發(fā)除了帶來(lái)算力上的挑戰(zhàn),對(duì)網(wǎng)絡(luò)的要求也達(dá)到了前所未有的高度。

6月26日,騰訊云首次對(duì)外完整披露自研星脈高性能計(jì)算網(wǎng)絡(luò):星脈網(wǎng)絡(luò)具備3.2T通信帶寬,能提升40%的GPU利用率,節(jié)省30%至60%的模型訓(xùn)練成本,為AI大模型帶來(lái)10倍通信性能提升。基于騰訊云新一代算力集群HCC,可支持10萬(wàn)卡的超大計(jì)算規(guī)模。

“星脈網(wǎng)絡(luò)是為大模型而生。”騰訊云副總裁王亞晨表示,該網(wǎng)絡(luò)所提供的大帶寬、高利用率以及零丟包的高性能網(wǎng)絡(luò)服務(wù),將助力算力瓶頸的突破,進(jìn)一步釋放AI潛能,全面提升企業(yè)大模型的訓(xùn)練效率,在云上加速大模型技術(shù)的迭代升級(jí)和落地應(yīng)用。”

記者注意到,AIGC的火爆帶來(lái)AI大模型參數(shù)量從億級(jí)到萬(wàn)億級(jí)的飆升。為支撐海量數(shù)據(jù)的大規(guī)模訓(xùn)練,大量服務(wù)器通過(guò)高速網(wǎng)絡(luò)組成算力集群,互聯(lián)互通,共同完成訓(xùn)練任務(wù)。但大集群不等于大算力,相反,GPU(圖形處理器)集群越大,產(chǎn)生的額外通信損耗越多。大帶寬、高利用率、信息無(wú)損,是AI大模型時(shí)代網(wǎng)絡(luò)面臨的核心挑戰(zhàn)。

據(jù)了解,千億、萬(wàn)億參數(shù)規(guī)模的大模型,訓(xùn)練過(guò)程中通信占比最大可達(dá)50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無(wú)法支撐。同時(shí),傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時(shí)和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費(fèi)。

AI大模型催生了巨大的算力需求,當(dāng)前,A100是大模型應(yīng)用的“主力芯片”,價(jià)格大約為1萬(wàn)美元。OpenAI表示,AI大模型要持續(xù)取得突破,所需消耗的計(jì)算資源每3至4個(gè)月就要翻一倍,資金也需要通過(guò)指數(shù)級(jí)增長(zhǎng)獲得匹配。英偉達(dá)的研究表明,GPT3最大規(guī)模的模型需要使用175 Billions的參數(shù)量,需要使用512顆V100顯卡訓(xùn)練7個(gè)月時(shí)間,或者使用1024顆A100芯片訓(xùn)練一個(gè)月時(shí)間。測(cè)算下來(lái),大模型訓(xùn)練每月成本在數(shù)百萬(wàn)美元以上量級(jí)。

目前大模型開(kāi)發(fā)和訓(xùn)練為何十分昂貴?業(yè)內(nèi)專家表示,首先,大模型需要大量的計(jì)算資源,包括CPU(中央處理器)、GPU、FPGA(現(xiàn)場(chǎng)可編程門陣列)、ASIC(專用集成芯片)等硬件設(shè)備,以及支持大規(guī)模并行計(jì)算的軟件平臺(tái)和框架。這些設(shè)備和平臺(tái)的成本非常高昂,而且不斷更新?lián)Q代,需要不斷投入新的資金和人力進(jìn)行維護(hù)和升級(jí)。其次,大模型的訓(xùn)練和開(kāi)發(fā)涉及大量的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)傳輸,這也需要相應(yīng)的網(wǎng)絡(luò)和存儲(chǔ)資源,成本同樣不低。最后,大模型的開(kāi)發(fā)和訓(xùn)練需要大量的人力和時(shí)間投入,同時(shí)也需要成熟的算法設(shè)計(jì)和調(diào)優(yōu)技術(shù)來(lái)保證其效率和準(zhǔn)確性。

關(guān)鍵詞:

資訊