
大模型注意力演进录:对话AI专家,深探DeepSeek、Kimi新突破
o1、R1 等推理模型的出现,给了长文本新课题。嘉宾丨肖朝军、傅天予整理丨程曼祺上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA。二者都聚焦对大模型中 “注意力机制” 的改进。注意力机制是当前大语言模型(LLM)的核心机制。2017 年 6 ......

o1、R1 等推理模型的出现,给了长文本新课题。嘉宾丨肖朝军、傅天予整理丨程曼祺上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA。二者都聚焦对大模型中 “注意力机制” 的改进。注意力机制是当前大语言模型(LLM)的核心机制。2017 年 6 ......