划重点 01智源研究院发布原生多模态世界模型Emu3,仅基于下一个token预测,无需扩散模型或组合方法。 02Emu3在图像生成、视频生成、视觉语言理解等任务中优于SDXL、LLaVA、OpenSora等知名开源模型。 03该模型提供了一个强大的视觉tokenizer,能够将视频和图...

社交账号快速登录

微信扫一扫关注
如已关注,请回复“登录”二字获取验证码