摩根士丹利 (MS.US) 近日發布一份研究報告,提前揭露中國人工智慧(AI)新創公司 DeepSeek 即將推出的最新大語言模型 R2。儘管篇幅不長,報告內容卻資訊量很多,引起 AI 圈關注。
根據報告,DeepSeek R2 模型總參數高達 1.2 兆,是前一代 R1 的兩倍以上。活躍參數(active parameters)也從 370 億提升至 780 億,使模型在推理過程中調用更多「腦細胞」,大幅提升語言理解與輸出品質。
這一設計理念與 Google (GOOGL.US) Gemini、Anthropic Claude 等頂級模型策略一致,主打更深層、更準確的 AI 思考能力。
DeepSeek R2 不僅更強,還更便宜。報告指出,R2 每百萬個字符(Token)輸入僅需 0.07 美元,輸出字符成本則降至 0.27 美元,相較於 OpenAI GPT-4o 的 2.50 美元輸入與 10.00 美元輸出,價格整體便宜約 97%。
如此大幅成本優勢,對 AI 開發者、SaaS 平台與企業使用者都是極具吸引力的替代選擇。
此外,R2 在三大技術面也有顯著提升:
- 多語言與程式碼生成能力優化:尤其針對英文以外語言進行強化,並強化程式語言理解與輸出。
- 採用高效混合專家 MoE(Mixture of Experts)架構:透過動態啟用子網路提升推理效率與節省運算成本。
- 多模態能力強化:視覺處理與圖像理解表現優於前代,有望在 AI 助理、圖文生成等領域展現更高價值。
報告同時指出,DeepSeek 已逐步擺脫對輝達 (NVDA.US) H100 晶片依賴,轉而採用華為昇騰 910B 晶片集群進行訓練與推理作業,被視為中國 AI 供應鏈自主化的重大突破,有望降低對美國晶片技術的依賴,強化本土算力供應鏈。
目前,DeepSeek 的模型產品線包含三大核心系列:
- V 系列:泛用型大語言模型,涵蓋推理、效率與 AI Agent 應用;
- R 系列:主打數理推理、多步邏輯與工具鏈整合,R2 即屬該系列;
- Prover-V2:針對數學任務高度優化的模型,專為精準計算與證明設計。
雖然摩根士丹利說 R2 快來了,但以 DeepSeek 一貫的節奏推測,真正的 R2 估計還得再等等。
從過去看,DeepSeek 的模型更新節奏比較固定,每兩個月會有一個小版本更新,接著進行一個大版本換代。
以通用模型 V1 為例,V1 是在 2023 年 11 月發布,V2 的發佈時間是 2024 年 5 月,而 V3 的發佈時間則到了 2024 年 12 月。依照這個節奏,2025 年 6、7 月份,DeepSeek 會有一個比較大的版本更新。
值得一提的是,DeepSeek 於 5 月 29 日悄然推出強化版 R1-0528。雖然架構沒動,但這個版本引入了強化學習訓練(RLHF),推理深度明顯加強。
該版本在多項 AI 基準測試中大幅進步:
- AIME 2024 數學競賽:+21 分
- LiveCodeBench 程式生成:+15 分
- GPQA Diamond 科學推理:+10 分
- Humanity"s Last Exam 知識推理:+6 分
強化後的邏輯、程式設計與互動能力獲得開發者與用戶的正面評價,也讓外界猜測這或許是 R2 的前導版本或測試平台。
(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網