当前位置：首页 AI视界正文

和大模型语音聊天视频通话？Qwen2.5-Omni开源

AI视界

导读：3月27日，通义千问Qwen系列中的全新多模态大模型Qwen2.5-Omni宣布开源。Qwen2.5-Omni作为通义系列模型中首个端到端全模态大模型，可以同时处理包括文本、图像、音频和视频等多种输入，并实时合成输出文本与自然语音。这意味着，用户可以和Qwen进行语音聊天和视频通话，有网友对此表示强烈欣喜。事实上，在一系列同等规模的单模态模型权威基准测试中，Qwen2.5-Omni在语音生成测 ……

3月27日，通义千问Qwen系列中的全新多模态大模型Qwen2.5-Omni宣布开源。

和大模型语音聊天视频通话？Qwen2.5-Omni开源

Qwen2.5-Omni作为通义系列模型中首个端到端全模态大模型，可以同时处理包括文本、图像、音频和视频等多种输入，并实时合成输出文本与自然语音。

这意味着，用户可以和Qwen进行语音聊天和视频通话，有网友对此表示强烈欣喜。

和大模型语音聊天视频通话？Qwen2.5-Omni开源

事实上，在一系列同等规模的单模态模型权威基准测试中，Qwen2.5-Omni在语音生成测评分数上达到了与人类持平的能力，这为该模型在语音和视频通话的可行性上提供了数据层面的支撑。

和大模型语音聊天视频通话？Qwen2.5-Omni开源

在具体技术上，Qwen2.5-Omni采用了通义团队全新首创的Thinker-Talker双核架构、Position Embedding融合音视频技术、位置编码算法TMRoPE（Time-aligned Multimodal RoPE）。

双核架构Thinker-Talker让Qwen2.5-Omni拥有了人类的“大脑”和“发声器”。Thinker负责处理和理解用户输入的内容，Talker则输出相应的语音标记。通过两者的配合完成了端到端的统一模型架构，将实时语义理解与语音生成形成协同。

和大模型语音聊天视频通话？Qwen2.5-Omni开源

TMRoPE则通过时间轴对齐实现视频与音频输入的精准同步，使得模型能够准确地捕捉到不同模态数据在时间维度上的对应关系，从而为生成连贯、准确的内容。

值得注意的是，Qwen2.5-Omni以7B的小尺寸让全模态大模型在产业上的广泛应用成为可能。用户在手机上，也能轻松部署和应用Qwen2.5-Omni模型。

目前，开发者和企业可免费下载商用Qwen2.5-Omni。

本文系观察者网独家稿件，未经授权，不得转载。

常见问题

AII绘画+AI文案创作-如何使用？

https://ai.onxue.com/

如何免费获得VIP会员？

点击这里免费升级⌈VIP会员⌋，所有课程免费学习，全部资源免费下载

0

omni qwen 开源视频通话语音

评论0

请先

返回顶部