查看原文
其他

实测 ChatGPT 高级语音,有惊喜但不多

lencx 浮之静
2024-09-27

ChatGPT 高级语音(AVM:Advanced Voice Mode)功能总算来了(鸽了快半年,都要忘记这玩意了)!不过有个坏消息:这次推出的高级语音仍缺少之前演示的视频对话和屏幕共享功能(查看演示视频:GPT-4o:OpenAI 发布最强人机交互模型)。目前正在向 ChatGPT Plus 和 Team 用户逐步推送(可以重新登录检查一下)。

如果你是 Plus 或 Team 用户,当有权访问高级语音时,将会在应用程序中看到一条通知。AVM 的新设计采用了蓝色动画球体,取代了之前的黑色动画点。

这次功能新增 5 种语音(Arbor、Maple、Sol、Spruce 和 Vale),使 ChatGPT 的语音总数达到了 9 种。此外,AVM 还添加了自定义指令和记忆功能来增强用户体验。它现在可以用 50 多种语言说“对不起,我迟到了”(会说再多也没用,我在实际测试中发现语音识别不是很稳定,错误率比想象中要高)。

我随便聊了几个问题进行测试,ChatGPT 语气,笑声逼真,效果确实有点惊喜。不过在其他几次测试中,时不时会出现识别不准确的情况。支持后台运行还是不错的体验(视频中有一段时间对话是停留在微信界面的)。

常见问题

除了账号,地域限制外,高级语音也并非每天无限可用,超过限额后,会自动回退为标准语音模式。

使用限制

自 ChatGPT 1.2024.261 或更高版本起,高级语音可在 iOS / Android 移动应用程序中使用。在本周内向 ChatGPT 应用程序中的所有 Plus 和 Team 用户推出,企业和教育用户将在下周获得访问权限。该功能尚未在欧盟、英国、瑞士、冰岛、挪威和列支敦士登推出。

语音类型

目前有两种类型的语音对话:标准语音和高级语音。

  • 高级语音:利用 GPT-4o 的原生音频功能,提供更自然的实时对话,能够捕捉非语言线索,如你的说话速度,并可以带有情感地回应。Plus 和 Team 用户在使用高级语音(音频输入和输出)时每天有使用限制。

  • 标准语音:可供所有已登录 ChatGPT 的用户通过 OpenAI 的 iOS、macOS 和 Android 应用使用(网页版暂不支持)。标准语音使用多个模型生成响应,需要将你所说的话先转录为文本,再发送给 OpenAI 的模型进行回应。虽然标准语音不像高级语音那样原生支持多模态,但标准语音对话同样使用 GPT-4o 及 GPT-4o mini。标准语音中的每个 prompt 都将计入你的消息条数限制。

当你接近每日限额时,ChatGPT 会发出通知(我第一次测试可能没注意到这个通知,莫名其妙就回退到标准版,让我一度以为是 BUG)。当一天的高级语音还剩 15 分钟时,Plus 和 Team 用户将会收到通知。一旦达到高级语音每日限制,对话将立即结束,你将能够使用标准语音继续对话。标准语音与用于生成响应的底层模型共享消息限制。

后台运行

在应用设置中打开“后台对话”(Background Conversations)时,打开其他应用或手机锁屏时,对话仍可以继续。

对话恢复

高级语音对话可以在高级语音、文本或标准语音中恢复。因为高级语音目前尚不支持图像等功能,所以无法在高级语音模式中恢复与文本或标准语音的对话。标准语音的对话可以随时用标准语音或文本恢复,但无法使用高级语音继续。

📌

在标准语音对话中,是可以直接命令 GPT 创建图片的。比较有趣的场景是:让 GPT 讲个故事,然后根据故事线生成对应的场景图。

如果想了解更多常见问题,可以查看 Voice mode FAQ[1]

References

[1]

Voice mode FAQ: https://help.openai.com/en/articles/8400625-voice-mode-faq

继续滑动看下一个
浮之静
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存