9月29日,DeepSeek-V3.2-Exp模型正式發布,V3.2-Exp在V3.1-Terminus的基礎上引入了DeepSeek Sparse Attention(一種稀疏注意力機制),針對長文本的訓練和推理效率進行了探索性的優化和驗證。
目前,官方App、網頁端、小程序均已同步更新為DeepSeek-V3.2-Exp,同時API大幅度降價。在新的價格政策下,開發者調用DeepSeek API的成本將降低50%以上。
當日更早時候,有AI業內人士發現,DeepSeek于開源社區平臺Huggingface上架了DeepSeep V3.2-base的頁面,但很快刪除。另據記者了解,智譜新模型GLM-4.6也將于近日發布,目前已可通過API接口調用。
9月29日晚,寒武紀在官方公眾號同步稱,公司已同步實現對深度求索公司最新模型DeepSeek-V3.2-Exp的適配,并開源大模型推理引擎vLLM-MLU源代碼。開發者可以在寒武紀軟硬件平臺上第一時間體驗DeepSeek-V3.2-Exp的亮點。
近日,DeepSeek“小步快跑”,推進模型迭代。9月22日晚,DeepSeek小助手在官方社群中稱,DeepSeek線上模型已升級,當前版本號DeepSeek-V3.1-Terminus。
8月21日,DeepSeek宣布發布DeepSeek-V3.1。據介紹,DeepSeek-V3.1的升級包含以下主要變化。一是實現混合推理架構,一個模型同時支持思考模式與非思考模式;二是更高的思考效率;三是更強的Agent能力,新模型在工具使用與智能體任務中的表現有較大提升。
值得一提是,此前,DeepSeek宣布,DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數精度。其中,UE8M0 FP8是針對即將發布的下一代國產芯片設計。消息一出,當日DeepSeek概念板塊火熱,不少國產芯片產業鏈企業股價大漲。
編輯︱賀巧華













