DeepSeek发布开源第一弹!让大模型在GPU上跑得更快
2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。据介绍,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能。”DeepSeek说。简单来 ......
英伟达秀 Blackwell GPU 肌肉:训练 AI 模型速度比Hopper快2.2倍
IT之家 11 月 14 日消息,科技媒体 WccfTech 昨日(11 月 13 日)发布博文,报道称英伟达首次公布了 Blackwell GPU 在 MLPerf v4.1 AI 训练工作负载中的成绩,在训练 Llama 2 70B (Fine-Tuning)模型时比Hopper快2.2 倍。测试简介英伟达于今年 8 月,首次公布了 Blackwel ......