DeepSeek發布NSA 訓練推理加速 藉本機硬件原生 成本降性能不減
中美在AI人工智能領域的角力愈趨激烈,在美國富商馬斯克旗下初創xAI發布新一代聊天機械人「Grok 3」後,內媒報道,近期鋒芒畢露的內地AI初創DeepSeek亦不甘示弱,宣布推出用於超快速長文本(long-context)訓練與推理的「原生稀疏注意力」(Native Sparse Attention,簡稱NSA)。
報道指出,DeepSeek官方昨在海外社交平台X,發表題為〈原生稀疏注意力:硬體對齊且可原生訓練的稀疏注意力機制〉的論文,DeepSeek創始人梁文鋒亦是作者之一,內容提及NSA是一種與硬件一致、且本機可訓練的稀疏注意力機制。
據介紹,NSA針對現代硬體進行優化設計,通過三大組件的配合,能加速推理過程,同時減低預訓練成本,且不犧牲性能;NSA在通用基準測試、長文本任務與基於指令的推理方面,與「完全注意力」模型的表現旗鼓相當,甚至更佳;NSA為提高效率同時保持模型能力,提供一個有前景的方向。
福田區引入70名「員工」AI審公文
DeepSeek熱潮席捲各行各業,深圳市福田區政府近日正式引入首批共70名「AI數智員工」,參與公文處理、民生服務、應急管理與招商引資等多項關鍵領域的政務工作,藉此提升行政效率;據知,該批「AI數智員工」建基於DeepSeek R1技術,可做到公文格式修正準確率超過95%、審核時間縮短90%,錯誤率控制在5%以內。
AI大行其道,但如何避免過分依賴,開始成為社會關注點;內媒報道,剛過去的寒假,不少學生借助AI完成功課,「學生使用DeepSeek完成寒假作業」成為熱議話題,多地老師均發現,學生繳交的功課「AI含量偏高」,有學生的功課在假期前後有明顯差異;有教育界人士建議,先讓孩子獨自完成功課,被某個問題難到才使用AI協助。
深圳大學夥騰訊雲開課程
另根據深圳大學消息,深圳大學大數據系統運算技術國家工程實驗室,近日與騰訊雲達成合作,共同推出基於DeepSeek的人工智能通識課程,學生在今個學期即可選讀;課程內容涵蓋人工智能的基礎知識、技術原理,以及DeepSeek在人工智能內容生成(AIGC),自然語言處理、電腦視覺、智慧推薦等領域的實際應用案例。