走過2024,AI大模型帶來哪些啟發(fā)?
過去一年,大模型技術(shù)的最大變量就是規(guī)模秘訣Scaling Law是否繼續(xù)有效。大洋彼岸,OpenAI的GPT-5遲遲未公布,不過被Sam Altman喻為“新范式開始”的o系列推理模型,也帶來了一些意外之喜——讓AI多花時間“思考(推理)”,反而能解決一些沒訓練過的難題,這讓大模型能從每次嘗試中不斷學習,展現(xiàn)出了在科學、數(shù)學、代碼等領(lǐng)域解決復雜問題的能力。
在這個技術(shù)轉(zhuǎn)型期,國內(nèi)大模型也已經(jīng)悄然分野。
一種是打造跨行業(yè)通用的大模型,向醫(yī)療、工業(yè)、教育等領(lǐng)域加速滲透;另一種則是繼續(xù)在前沿領(lǐng)域提升,打造“AI超級學霸”,持續(xù)提升針對特定應用場景的質(zhì)量水平。
“Scaling”是不變的關(guān)鍵詞,通過強化學習持續(xù)提效
對標OpenAI,Kimi已經(jīng)取得了引入矚目的成果。如何看待Open AI o系列帶來的深遠影響?kimi方面告訴<與非網(wǎng)>,其主要意義在于提升了AI的上限,而這其中,強化學習起到了關(guān)鍵作用。
現(xiàn)在AI提升生產(chǎn)力的方式,要么是提升5%、10%,要么是實現(xiàn)十倍GDP的增長,而強化學習等提效手段能夠進一步推動AI的scaling,從而實現(xiàn)更大幅度的提升。另外,從數(shù)據(jù)資源的角度來看,當前業(yè)界普遍擔心互聯(lián)網(wǎng)大部分優(yōu)質(zhì)數(shù)據(jù)已被使用完,難以進一步挖掘數(shù)據(jù)價值。而強化學習與大模型結(jié)合,使得AI可以在有限數(shù)據(jù)的情況下繼續(xù)發(fā)展,突破數(shù)據(jù)瓶頸。
Kimi去年11月中旬發(fā)布的k0-math 數(shù)學模型,在中考、高考、考研以及包含入門競賽題的MATH等四個不同級別的數(shù)學基準測試中,成績均超越了o1-mini和o1-preview。12月中旬發(fā)布的視覺思考模型k1,支持端到端的圖像理解和思維鏈(CoT),不僅推理能力進一步提升,還可以識別幾何圖形、圖表等圖像信息。在數(shù)學、物理、化學等基礎(chǔ)科學領(lǐng)域的基準能力測試中,k1的表現(xiàn)超越了Open AI o1、GPT-4o及 Claude 3.5 Sonnet。
“如果說長文本是月之暗面登月的第一步,那么提升模型深度推理能力則是第二步”,月之暗面創(chuàng)始人楊植麟表示。
大模型的規(guī)模法則Scaling laws能否繼續(xù)有效?楊植麟認為,“Scaling”對AI而言是不變的關(guān)鍵詞,但這并不意味把模型做得更大就好,而是要找到有效的方法來Scale,比如更好的數(shù)據(jù)和方法。他強調(diào),Kimi會越來越關(guān)注基于強化學習的方法來Scale,接下來AI發(fā)展的方向還是會持續(xù)地Scale,只是過程不一樣,會更多運用強化學習,在強化學習的過程中生成更多的數(shù)據(jù)來進行。
不論是OpenAI還是Kimi,新的方向其實意味著,AI大模型正在經(jīng)歷一場“效能革命”,正在從以往的“規(guī)模擴張”模式向“效率躍升”模式轉(zhuǎn)變,而這一轉(zhuǎn)變將為AI的未來發(fā)展注入強勁動力。
以往,業(yè)界往往關(guān)注大模型的參數(shù)規(guī)模和數(shù)據(jù)量,認為“更大即更好”。但如今開始意識到,單純的規(guī)模擴張已無法滿足實際應用需求,必須通過“提效”來實現(xiàn)真正的價值轉(zhuǎn)化。而“提效”的手段是多種多樣的,可以是提升模型效率,可以是突破數(shù)據(jù)資源限制,也可以是打破算力瓶頸束縛……通過提效來最大化大模型的應用價值和產(chǎn)業(yè)效益。
大模型走向LLM+LRM,提升“模算效率”對產(chǎn)業(yè)落地至關(guān)重要
為了準確描述以O(shè)penAI o系列為代表的技術(shù)演進,業(yè)界提出了LRM(Large Reasoning Model)這一全新概念,也標志著大模型技術(shù)進入了一個嶄新的發(fā)展階段。
相較于LLM,LRM展現(xiàn)出了顯著的技術(shù)進步。LRM不再局限于簡單的文本生成和預測,而是專注于復雜的多步驟推理任務(wù),采用鏈式思維(Chain-of-Thought)推理方法,將復雜問題分解為可管理的步驟,并通過強化學習(RL)不斷提升決策能力。在架構(gòu)上,LRM具備動態(tài)調(diào)整推理路徑的能力,相比LLM,能更好地適應復雜任務(wù)場景。
根據(jù)浪潮信息方面的解釋,LRM并非取代LLM,而是與之形成互補關(guān)系。因為在實際應用中,LLM擅長自然語言理解、文本生成等基礎(chǔ)能力,與LRM的深度推理能力相結(jié)合,能夠創(chuàng)造出更強大的AI系統(tǒng)。這種LLM+LRM的協(xié)同模式正在成為未來AI應用的主流發(fā)展方向,為各個領(lǐng)域帶來更多可能性。
浪潮信息告訴<與非網(wǎng)>,在有限的算力資源條件下,實現(xiàn)算力消耗更低、推理和訓練效果更優(yōu)的大模型開發(fā),已經(jīng)成為產(chǎn)業(yè)當前的重點趨勢,提升“模算效率”對大模型產(chǎn)業(yè)落地至關(guān)重要。
在保證模型智能高水平的基礎(chǔ)上,有效降低模型落地的算力門檻,將能夠為各行各業(yè)帶來更高效、更經(jīng)濟的AI解決方案,加速智能技術(shù)在千行百業(yè)的普及和應用。
浪潮信息正在通過算力算法協(xié)同創(chuàng)新,持續(xù)提升“模算效率”。2024年,浪潮發(fā)布的混合專家模型(MoE)“源2.0-M32”,通過算法、數(shù)據(jù)、算力的創(chuàng)新,顯著提升了算力效率,降低了訓練、微調(diào)和推理成本。在激活37億參數(shù)下,源2.0-M32實現(xiàn)與700億參數(shù)LLaMA3相當?shù)男阅?,算力消耗僅為后者的1/19。
未來,浪潮信息將繼續(xù)優(yōu)化算法和模型架構(gòu),降低模型在預訓練、微調(diào)和推理等關(guān)鍵應用場景中落地的算力門檻。
后訓練和推理階段,算力基礎(chǔ)設(shè)施面臨全新挑戰(zhàn)
兩年前,關(guān)于大模型Scaling Law的討論更多集中在預訓練階段。但去年,隨著Scaling law擴展到后訓練和推理階段,算力基礎(chǔ)設(shè)施構(gòu)建面臨全新挑戰(zhàn)。
目前,業(yè)界發(fā)展出三種關(guān)鍵的Scaling law:Pre-training(預訓練)scaling law,關(guān)注模型預訓練階段的參數(shù)量、數(shù)據(jù)量與算力的關(guān)系;Post-training(后訓練)scaling law,揭示了微調(diào)階段中數(shù)據(jù)質(zhì)量與模型迭代的互動機制;Inference(推理)scaling law,展現(xiàn)了推理階段投入更多計算資源能帶來性能提升的規(guī)律。
OpenAI的實踐顯示,從基礎(chǔ)模型到reasoning model的轉(zhuǎn)換過程中,后訓練階段所需的計算量甚至可能超過預訓練階段。
為什么后訓練階段的計算資源需求會如此密集?浪潮信息方面告訴<與非網(wǎng)>,主要源于兩個方面:首先是數(shù)據(jù)生成的規(guī)模。為了訓練1000萬個推理問題,系統(tǒng)需要生成數(shù)百萬億個標記,覆蓋數(shù)千億條軌跡。隨著問題集的擴大和領(lǐng)域的拓展,生成的數(shù)據(jù)量呈指數(shù)級增長,遠超預訓練階段的數(shù)據(jù)規(guī)模。
其次,是后訓練過程的特殊性——其關(guān)鍵階段強化學習大部分情況下需要模型實時生成響應并接受評估反饋。這種動態(tài)訓練模式帶來了獨特的計算架構(gòu)挑戰(zhàn):由于推理效率相對較低,且在整個過程中占據(jù)高達80%的計算量,系統(tǒng)需要精心設(shè)計,以在同一計算任務(wù)中平衡推理和訓練的資源分配,確保整體訓練效率。
對于推理階段來說,由于更注重低時延,因此算力系統(tǒng)設(shè)計將會更加復雜。
訓練任務(wù)可以通過流水線并行和數(shù)據(jù)并行來擴展規(guī)模(scale out),以提升吞吐量。然而,推理任務(wù)更注重延遲性能,只能通過在單個節(jié)點內(nèi)增加AI芯片(scale up)的方式,采用張量并行等策略來縮短單個請求的處理時間。這種根本性的差異,將會使得推理系統(tǒng)的設(shè)計和優(yōu)化變得格外復雜。
算力優(yōu)化趨勢——應用為導向、系統(tǒng)為核心
市場對算力的衡量標準,將會從最初的關(guān)注硬件性能,越來越注重整體方案的效率和應用效果。在這一趨勢下,如何繼續(xù)進行算力優(yōu)化?
浪潮信息方面分享,一是以應用為導向評估算力水平會成為重點趨勢,二是需要以系統(tǒng)為核心,提升算效水平。
浪潮信息和中國信通院聯(lián)合編寫的《人工智能算力高質(zhì)量發(fā)展評估體系報告》指出,“高算效”應該成為評估高質(zhì)量算力的重要特征指標。所謂“高算效”,是指在提高算力理論算效的同時,考慮更高的實測性能和資源利用率。
其中,實測性能體現(xiàn)的是應用場景下,單位時間內(nèi)處理的Token數(shù)量、運行時延、模型訓練時間、數(shù)據(jù)處理質(zhì)量等指標。目前,業(yè)界存在算力集群實測性能和理論性能差距過大的問題,部分算力實際性能甚至不足理論性能的10%。
資源利用率則關(guān)注的是算力資源利用水平。公開數(shù)據(jù)顯示,傳統(tǒng)模式下智算中心GPU利用率平均數(shù)值低于30%。這是兼顧設(shè)計維度和短期、長期運行維度的綜合指標,有助于破解算效水平不高、算力資源利用率低等難題。
如何提高面向應用的算力效率?浪潮信息認為應該以系統(tǒng)設(shè)計為核心,圍繞四大算力環(huán)節(jié)提升算效水平:在生產(chǎn)算力方面,整合高性能部件,打造多元異構(gòu)的強大算力機組;在聚合算力方面,運用系統(tǒng)工程方法,構(gòu)建高效的算力中心集群;在調(diào)度算力方面,通過硬件重構(gòu)和軟件定義對AI芯片進行聚合池化;在釋放算力方面,聚焦于模型算法、框架、工具的優(yōu)化完善。
寫在最后
如果要總結(jié)過去一年,我們從大模型激烈競爭中學到的事情,“效能”是絕對的重點,不論是從運行效率、成本效益還是資源優(yōu)化等任何一個角度來看。
隨著AI大模型從訓練階段的“暴力美學”,走向?qū)嶋H商用階段的“精打細算”,一場關(guān)乎AI未來的“效能革命”悄然興起,而核心就在于從“規(guī)模擴張”向“效率躍升”轉(zhuǎn)變,這將為AI的持續(xù)發(fā)展注入強勁動力。