一、市場熱(re)點 DeepSeek:推出一種(zhong)全新注(zhu)意力(li)(li)機制NSA ◇驅動:2025年(nian)2月18日(ri)盤后消息(xi),DeepSeek官(guan)方發(fa)布了一篇關于NSA的(de)(de)(de)純(chun)技術論(lun)文(wen)報告,使用NSA預訓練的(de)(de)(de)模型(xing)超過(guo)了全注(zhu)意力(li)(li)模型(xing)。 ◇NSA介紹:是一種(zhong)與(yu)硬件高度適配(pei)并(bing)可原生(sheng)訓練的(de)(de)(de)稀疏(shu)注(zhu)意力(li)(li)機制,專為超快(kuai)長上下文(wen)訓練與(yu)推理設計。核心(xin)組(zu)成包括動態分層稀疏(shu)策略、粗(cu)粒度的(de)(de)(de)token壓(ya)縮、細粒度的(de)(de)(de)token選擇(ze)。 ◇NSA效果:通過(guo)針對(dui)現代(dai)硬件的(de)(de)(de)優化(hua)設計,NSA在保證(zheng)性能的(de)(de)(de)同(tong)時(shi)顯著提升了推理速度,并(bing)有效降低了預訓練成本。在通用基準測試(shi)