梁文鋒等發表署名論文 稱DeepSeek開啟架構新篇章

熱度63票  瀏覽10次 時間:2026年1月02日 08:59

內地AI初創DeepSeek(深度求索)在元旦日發布一篇新論文,提出一種名為mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益 。 DeepSeek提出mHC是通過將傳統Transformer單一殘差流擴展為流並行架構,利用Sinkhorn-Knopp演算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決超連接(HC)在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。 該論文第一作者包括Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao三位。而DeepSeek創始人梁文鋒也在作者名單中。(ta/w)~ 阿思達克財經新聞 網址: www.aastocks.com

頂:4 踩:4
對本文中的事件或人物打分:
當前平均分:-2.15 (13次打分)
對本篇資訊內容的質量打分:
當前平均分:-0.06 (17次打分)
【已經有25人表態】
5票
感動
2票
路過
2票
高興
3票
難過
3票
搞笑
3票
憤怒
3票
無聊
4票
同情
上一篇 下一篇