【关键词“deepseek”】DeepSeek发布创新注意力机制NSA,推理速度大幅提高
DeepSeek 发布新论文,提出了新的注意力机制 ——NSA(Native Sparse Attention),是一种面向硬件且支持原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。
玫瑰NSA架构在通用基准测试中达到了全注意力的性能,长上下文评估中的建模能力更胜一筹,推理能力得到增强,同时计算延迟显著降低,在64K长文本场景下,NSA实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。
烟花我们此前提出AI应用规模化的两大基石——降本&降延时,如今均迎来重大突破,DeepSeek让大模型部署和推理成本下降了一个数量级,此次提出的NSA架构将让大模型的推理速度提升一个数量级。AI应用或将迎来全面爆发的黄金时代。
概念股梳理:用友网络、金蝶国际、虹软科技、新致软件、迈富时、鼎捷数智、合合信息、软通动力、金山办公、博思软件、顶点软件。
(特别声明:仅供参考,入市有风险,投资需谨慎) DeepSeek 发布新论文,提出了新的注意力机制 ——NSA(Native Sparse Attention),是一种面向硬件且支持原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。
玫瑰NSA架构在通用基准测试中达到了全注意力的性能,长上下文评估中的建模能力更胜一筹,推理能力得到增强,同时计算延迟显著降低,在64K长文本场景下,NSA实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。
烟花我们此前提出AI应用规模化的两大基石——降本&降延时,如今均迎来重大突破,DeepSeek让大模型部署和推理成本下降了一个数量级,此次提出的NSA架构将让大模型的推理速度提升一个数量级。AI应用或将迎来全面爆发的黄金时代。
概念股梳理:用友网络、金蝶国际、虹软科技、新致软件、迈富时、鼎捷数智、合合信息、软通动力、金山办公、博思软件、顶点软件。

更多精彩内容,关注云掌财经公众号(ID:yzcjapp)
以上内容由投资顾问高***(执业编号:A079******)提供,以上建议仅供参考,据此操作,盈亏自担!股市有风险,投资需谨慎!珞珈投资ZX0077 售后投诉电话:0755-61957028 0755-25880000 点击查看风险提示及免责声明
- 热股榜
-
代码/名称 现价 涨跌幅 加载中...
加载中 ...![]()