大模型“注意力简史”:与两位AI研究者从DeepSeek、Kimi最新改进聊起
o1、R1 等推理模型的出现,给了长文本新课题。嘉宾丨肖朝军、傅天予整理丨程曼祺上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA。二者都聚焦对大模型中 “注意力机制” 的改进。注意力机制是当前大语言模型(LLM)的核心机制。2017 年 6 ......
疯狂卷投流的大模型应用们,到底哪款最好用?
划重点01近期,大模型应用广告投放费用不断攀升,其中kimi智能助手、字节跳动豆包、腾讯元宝等AI应用10月全网广告投放支出超过3亿元人民币。02然而,这些大模型应用在应用体验层面难以做出颠覆性创新,竞争激烈。03文小言、讯飞星火和腾讯元宝等大模型应用在月活、功能 ......
迈出“登月”第二步:Kimi比肩OpenAI o1最新技术,杨植麟聚焦做减法
每经记者:杨昕怡每经编辑:张海妮正如这家公司的名字一般,月之暗面,总是一个令人好奇的存在。11月16日下午,在Kimi Chat上线一周年之际,公司创始人杨植麟罕见现身,在多家媒体面前走出了“登月”第二步。“如果说长文本是月之暗面‘登月’的第一步,那么提升模型深 ......
月之暗面 Kimi 联合清华大学等开源大模型推理架构 Mooncake
IT之家 11 月 28 日消息,月之暗面 Kimi 和清华大学 MADSys 实验室 2024 年 6 月联合发布了 Kimi 底层的 Mooncake 推理系统设计方案。该系统基于以 KVCache 为中心的 PD 分离和以存换算架构,提升了推理吞吐量。近日,为了进一步加速该技术框架的应用与推广,月之暗面 K ......
抢夺资金、人才、用户,AI“六小虎”进入“破局时刻”
编者按:DeepSeek的爆火不仅掀起技术狂欢,更将中国大模型创业圈推入价值重估的十字路口。当行业开始追问“为什么大模型六小虎没有成为DeepSeek”时,更深层的行业洗牌暗流已然涌动。在这场价值重估多维度发酵之际,《科创板日报》将推出系列报道,追踪国内外基础大模型 ......