2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。据介绍,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能。”DeepSeek说。简单来 ......

IT之家 11 月 14 日消息,科技媒体 WccfTech 昨日(11 月 13 日)发布博文,报道称英伟达首次公布了 Blackwell GPU 在 MLPerf v4.1 AI 训练工作负载中的成绩,在训练 Llama 2 70B (Fine-Tuning)模型时比Hopper快2.2 倍。测试简介英伟达于今年 8 月,首次公布了 Blackwel ......

社交账号快速登录

微信扫一扫关注
如已关注,请回复“登录”二字获取验证码