春節期間國產大模型迎來集中上新周期,全球大模型競技場 LMArena 榜單格局隨之出現重大調整。
其中,字節跳動旗下 Seed 2.0 的表現最為亮眼。該模型首次亮相 LMArena 榜單,便成功躋身綜合排行榜全球前十,位列本次登榜國產模型首位。同期密集發布的多款國產旗艦大模型亦同步登榜,GLM-5、文心 5.0、Qwen 3.5、Kimi K2.5 分列榜單第 16 至 19 位。國產大模型第一梯隊正以前所未有的集群姿態,集體沖擊全球大模型技術最高水平。
本次 LMArena 綜合榜單頭部席位仍由國際主流大模型占據,榜單前三依次為 claude-opus-4-6、gemini-3.1-pro-pr、grok-4.20-beta1;國產陣營中,字節跳動的豆包2.0位列綜合榜單第9位,是唯一進入全球前十的國產大模型。

從細分項看,幾家國產新旗艦的能力結構并不相同。
字節的豆包2.0是目前表現最強勢的國產模型,綜合排名位列全球第9。該模型在Coding(編程)上尤為出色,排名全球第7,在Hard Prompts(高難度指令)方面也位居第8。這表明字節的Seed系列在處理復雜邏輯和生產力工具場景下,已經具備了與谷歌Gemini和OpenAI GPT系列正面硬剛的實力。
月之暗面的Kimi-K2.5-thinking雖然綜合排名在第19,但在特定的推理領域表現驚人。它在Math(數學)維度高居全球第8,在Expert(專家知識)維度排名第10。這說明Kimi的強化學習和思考機制在解決極高難度的理科問題和復雜知識理解上,甚至超過了許多排名更靠前的通用型模型。
GLM-5(智譜AI)、Ernie-5.0-0110(百度文心)以及Qwen3.5-397b(阿里千問),分別占據了第16、17、18名。這些模型在Math等硬核指標上普遍優于其綜合排名,反映出國產模型在數理邏輯和技術落地上的深耕。
雖然國產模型在前20中占據了近四分之一的席位,但與最頂尖的 Claude-opus-4-6和Gemini-3.1-pro在Overall(整體)和Creative Writing(創意寫作)方面仍有一定差距。 目前國產模型主要在硬實力(數學、編程、專家知識)上尋求突破,而在指令遵循的細膩程度和長文本任務的穩定性上,仍是未來追趕的主要目標。
與此同時,在垂直賽道的細分戰場上,國產模型的表現進一步印證了“全賽道滲透、多點開花”的趨勢。
在考驗網頁開發能力的代碼賽道,智譜AI的GLM-5表現搶眼,以1452的評分排名第8,成為唯一殺入該項前十的國產力量。
在視覺理解(Vision)維度,Seed 2.0排名第4,僅次于Gemini的三款模型。此前在綜合排名中稍顯靠后的Kimi K2.5-thinking,在視覺賽道成功躋身全球前十。
然而,搜索(Search)賽道依然是國產模型亟待攻克的堡壘。在目前的全球前十排名中,國產模型尚無一上榜,該領域仍由 Grok、GPT 和 Gemini 等把持。在搜索與大模型深度融合的精準度上,國產陣營仍需更高效的工程化落地。