日本中文字幕在线视频,亚洲AV成人无码久久精品老人,高潮又爽又黄无遮挡喷水视频,国产美女露脸口爆吞精

字節(jié)跳動,重大宣布!成本再降40%!
來源:證券時報 作者:周春媚 2025-03-10 21:15
Aa 大號字

大模型訓練成本,再砍一刀!

3月10日,字節(jié)豆包大模型團隊在國際知名開源社區(qū)平臺GitHub上開源了一項針對 MoE(混合專家模型)架構的關鍵優(yōu)化技術COMET。據(jù)悉,該技術可將大模型訓練效率提升1.7倍,成本節(jié)省40%。目前,COMET已實際應用于字節(jié)的萬卡集群訓練,累計幫助節(jié)省了數(shù)百萬GPU小時訓練算力。

MoE是當前大模型的主流架構,最近大火的國產大模型DeepSeek采用的就是MoE架構。DeepSeek自研的DeepSeekMoE作為一種創(chuàng)新的大規(guī)模語言模型架構,通過整合專家混合系統(tǒng)、改進的注意力機制和優(yōu)化的歸一化策略,在模型效率與計算能力之間實現(xiàn)了新的平衡。

字節(jié)豆包大模型團隊表示,MoE在分布式訓練中存在大量跨設備通信開銷,嚴重制約了大模型訓練效率和成本。針對這一難題,字節(jié)在內部研發(fā)了COMET計算-通信重疊技術,通過多項創(chuàng)新,大幅壓縮了MoE專家通信空轉時間。

在此前的“開源周”活動中,DeepSeek也曾開源了團隊為解決MoE通信瓶頸而采取的DualPipe+DeepEP方案。不過,與之不同的是,COMET可以像插件一樣直接接入已有的MoE訓練框架,支持業(yè)界絕大部分主流大模型,無需對訓練框架進行侵入式改動,更加方便、靈活、通用。這一方法,還因其簡潔性與通用性而高分入選全球機器學習系統(tǒng)頂級會議 MLSys 2025,被認為“在大規(guī)模生產環(huán)境中極具應用潛力”。

不僅如此,由于在降低MoE通信開銷上,COMET采用了計算-通信融合算子的優(yōu)化方式,DeepSeek研發(fā)的DualPipe則通過排布算子來掩蓋通信,兩種方案并不沖突。因此,COMET還可以與DualPipe方案結合使用,以更大程度壓縮訓練成本。

值得注意的是,就在一個月前的2月12日,字節(jié)跳動豆包大模型團隊發(fā)布消息稱,團隊提出了全新的稀疏模型架構UltraMem,可有效解決MoE推理時高額的訪存問題,推理速度較MoE架構提升2—6倍,推理成本最高可降低83%。

業(yè)內人士分析,此次開源的COMET可與此前提出的UltraMem結合使用,將大模型訓練成本進一步“砍”得更低。

當前,隨著技術的不斷進步迭代,以及頭部廠商逐漸加入開源大軍,大模型訓練成本正不斷下降。啟明創(chuàng)投主管合伙人周志峰曾表示,大模型每百萬Token調用成本已經從2023年120美元(約人民幣800元)降到2024年不到人民幣1元,下降了99.9%,根據(jù)估算,未來成本很有可能再下降99.9%。

DeepSeek、字節(jié)跳動等國產大模型通過提高架構創(chuàng)新、算法優(yōu)化,提升了訓練效率,降低訓練成本,看似減少了算力的需求,但中國銀河證券研報指出,大模型成本縮減意味著降低了企業(yè)的訓練與推理門檻,即每單位成本所能提供的訓練和推理服務更多了,算力效率提升有望激活更廣泛的用戶與應用場景,從而引發(fā)對更大參數(shù)以及更復雜的大模型迭代需求。

研報進一步表示,算法優(yōu)化(如模型壓縮、蒸餾)確實能提升單次任務效率,但AI能力的邊界擴展(如多模態(tài)、復雜推理、通用人工智能)仍依賴更大規(guī)模模型和更復雜計算。這可能會對均衡下的算力需求產生正面影響,整體算力需求不會減少而是更加旺盛,從而形成對硬件需求的新一輪推升,即步入“算法進步→模型復雜化→硬件升級”的正循環(huán)。

在通過技術創(chuàng)新持續(xù)降低模型訓練成本的同時,字節(jié)跳動也在擴大AI資本開支,招募更多頂尖AI人才,研發(fā)投入顯著領先同行。浙商證券研報分析,字節(jié)跳動在AI上投入巨大,2024年資本開支達到800億元,接近百度、阿里、騰訊三家的總和(約1000億元)。市場人士分析,2025年字節(jié)跳動或進一步上調AI資本開支,擴大算力投資規(guī)模。

一方面加大資本投入,另一方面增強人才隊伍,字節(jié)跳動正積極地“招兵買馬”。記者注意到,字節(jié)跳動近日還首次啟動了“筋斗云人才計劃實習專項”。據(jù)內部人士介紹,該計劃是字節(jié)跳動面向優(yōu)秀校園技術人才推出的專項招聘,意在全球范圍內,吸引和招募有志于用技術創(chuàng)造突破性價值的頂尖學生。

此外,字節(jié)跳動另一招聘計劃“Top Seed人才計劃(含研究實習專項)”全年開放招募,這是國內唯一的專門針對大模型領域的人才計劃,旨在全球范圍內持續(xù)尋找有志于投身 AI 研究的頂尖人才。字節(jié)跳動校招負責人表示:“公司十分重視人才、關注人才成長,相信優(yōu)秀的校園人才能發(fā)揮自身潛力,不斷超越現(xiàn)狀,創(chuàng)造出突破性的價值?!?/p>

責任編輯: 戎艾茵
e公司聲明:文章提及個股及內容僅供參考,不構成投資建議。投資者據(jù)此操作,風險自擔。
更多相關文章
熱門解讀 更多
視頻推薦 更多
熱門股票 更多
股票名稱 最新價
漲跌幅