共 9 篇文章

标签：语音

希腊「乐之神」Orpheus开源，单卡实现语音流式推理与人类情感交互

新智元报道编辑：KingHZ【新智元导读】开源语音模型Orpheus让LLM涌现出人类情感！在A100 40GB显卡上，30亿参数模型的流式推理速度甚至超过了音频播放速度。甚至可以zero-shot克隆声音。大语言模型（LLM）还能涌现什么能力？这次开源模型Orpheus，直接让LLM涌现人类情感 ......

Qwen2.5-Omni开源，实现大模型语音视频聊天

3月27日，通义千问Qwen系列中的全新多模态大模型Qwen2.5-Omni宣布开源。Qwen2.5-Omni作为通义系列模型中首个端到端全模态大模型，可以同时处理包括文本、图像、音频和视频等多种输入，并实时合成输出文本与自然语音。这意味着，用户可以和Qwen进行语音聊天和视频通话， ......

OpenAI深夜重磅推出三款全新语音模型，实测详情全呈现

OpenAI最近总是喜欢搞突袭。昨晚11点的时候突然发了一个预告，4秒钟的音频的大概意思，就是太平洋时间10点我们发个产品。然后就在北京时间凌晨1点，开了一场直播，发了一些新玩意。总结一下就是：2个比Whisper更好的语音转文本的STT模型：gpt-4o-transcribe和gpt-4o-min ......

消息称OpenAI正研发AI语音助理，GPT-5有望年底发布

划重点 1 新的OpenAI软件内置了音频和视觉理解功能。 2 OpenAI的AI语音助手可以提高自动化客户服务代理的表现。 3 OpenAI有望在年底前完成GPT-5的训练，并公开发布。腾讯科技讯5月11日消息，据国外媒体报道，在追求开发能像人类一样交流的人工智能的竞赛中...

OpenAI重磅发布：全新AI语音助手下周登场，GPT-5预计今年亮相

智东西（公众号：zhidxcom）作者 | 香草编辑 | 李水青智东西5月11日消息，今天凌晨，OpenAI宣布将于美国时间13日上午10点（北京时间14日凌晨1点）在官网直播，演示ChatGPT、GPT-4的更新内容。据外媒The Information今日报道，OpenAI正在构建具备音频和视...

ChatGPT语音助手推迟上线，OpenAI计划秋季全面开放付费用户使用

财联社6月26日讯（编辑黄君芝）OpenAI已宣布推迟发布备受期待的ChatGPT语音助手功能，以确保它能够安全有效地处理来自数百万用户的请求。这家人工智能初创公司在5月份的产品发布会上为GPT-4o推出了语音选项，GPT-4o是GPT-4模型的更新版本，在实时处理文本...

ChatGPT高级语音助手全新上线，支持50多种语言与9种声线选择

财联社9月25日讯（编辑黄君芝）在首次向公众展示的四个月后，OpenAI终于要面向其所有付费用户开放ChatGPT的类人高级人工智能（AI）语音助手功能高级语音模式（Advanced Voice Mode，以下简称AVM）。 OpenAI周二（24日）宣布，所有付费订阅ChatGPT Plus和T...

AI时代，语音能否成为主要交互方式？

语音交互正在成为我们生活中的一部分。十年前，如果让你开口和手机对话。你会觉得非常违和。十年后，我们现在每天都会对着手机讲话，而且是和它交流的那种。其实五年前我接触过一个新产品，全智能电饭煲，产品方称用户可以与电饭煲对话，告诉它什么时候煮...

OpenAI推出实时API，揭秘AI语音新时代的机遇与挑战

划重点 01OpenAI发布了实时API，旨在构建基于GPT-4o的语音到语音的AI应用和智能体。 02GPT-4o降低了语音延迟，平均响应时间达到320毫秒，使AI与人的对话更接近真实对话。 03为此，OpenAI公布了三家语音API合作者：LiveKit、Twilio和Agora。 04其中，Agora聚...