NVIDIA 為 Moonshot AI 的 Kimi K2.5 模型推出 GPU 加速端點
Jessie A Ellis 2026年2月4日 20:11(UTC +8)
NVIDIA 現在為開發者提供免費的 GPU 加速 API 訪問,可使用 Kimi K2.5——一個擁有 1T 參數、384 個專家和 262K 上下文長度的多模態 AI 模型。
NVIDIA 已推出 Moonshot AI 的 Kimi K2.5 的 GPU 加速端點,為開發者提供免費的 API 訪問,使用目前最強大的開源多模態模型之一。此整合於 2026 年 2 月 4 日宣布,透過 NVIDIA 的 build.nvidia.com 平台,將這個 1 兆參數模型定位為快速企業採用的選擇。
Kimi K2.5 具備對生產部署至關重要的強大技術規格。該模型採用混合專家架構,配備 384 個專家,每個 token 僅啟動 328.6 億個參數——3.2% 的啟動率使得推理成本保持可控,儘管參數數量龐大。上下文長度延伸到 262,000 個 token,可處理大量文件分析和延長對話。
視覺能力值得關注。Moonshot 打造了一個自訂的 MoonViT3d Vision Tower,將圖像和視訊幀處理成嵌入向量,並由包含 164,000 個 token 的詞彙表支援,其中包含視覺專用 token。這不是附加的多模態功能——它是架構的原生功能。
開發者獲得的內容
透過 NVIDIA 開發者計劃的免費原型訪問,意味著團隊可以在投入基礎設施之前針對生產工作負載進行測試。該 API 遵循 OpenAI 相容模式,包括對代理工作流程的工具呼叫支援。用於容器化生產推理的 NVIDIA NIM 微服務即將推出,但未提供具體時間表。
對於自託管部署,vLLM 整合現已就緒。NVIDIA 還確認透過開源 NeMo Framework 支援微調,使用 NeMo AutoModel 直接從 Hugging Face 檢查點自訂模型,無需轉換步驟。
市場背景
Moonshot AI 於 2026 年 1 月 27 日發布 Kimi K2.5,在早期 K2 基礎之上,使用大約 15 兆個混合視覺和文本 token 進行訓練。該模型與 Google 的 Gemini 3 Pro 進行了直接比較,發布了具競爭力的基準測試結果,包括在 MMMU-Pro 視覺理解測試中獲得 78.5% 的分數,以及在編碼任務的 SWE-Bench Verified 中獲得 76.8% 的分數。
一個差異化特點:「Agent Swarm」機制可協調多達 100 個平行子代理,據報導執行時間比單代理方法減少了 4.5 倍。對於構建複雜自主系統的企業來說,這是一個重要的能力差距。
NVIDIA 的 Blackwell 架構支援表明該公司將 Kimi K2.5 視為企業 AI 部署中的有力競爭者。開發者可以立即透過 build.nvidia.com 或直接從 Moonshot 的 Kimi API Platform 訪問該模型。
圖片來源:Shutterstock- nvidia
- kimi k2.5
- moonshot ai
- 多模態 ai
- gpu 運算


