突破「文字限制」，ChatGPT再升级！10月份开始将支持看图、听声音、说话了！

文章来源：企鹅号 - 运营官Mike张

9月25号，OpenAI正式官宣：

ChatGPT将突破“文字维度”的限制，新增看图识图、识别声音、语音对话三大多模态功能。

一建识图

其实，早在今年3月份，OpenAI的创始人之一格雷格·布罗克曼就曾演示过 ChatGPT强大的识图功能。

当时他仅用几行文字，就让 ChatGPT创建了一个网站。

现在，这个功能终于要全面对外开放了。

官方给了几个例子，比如：

拍一张照片，询问如何调整自行车座椅高度， ChatGPT就会快速给出详细步骤。

如果你不熟悉自行车结构，还可以圈出有疑问的地方，问ChatGPT：“是这个地方吗？”

ChatGPT就能像真的在现场一样，快速给出正确的解决办法。

再比如：拍摄一张冰箱中的食材，ChatGPT就能快速识别图片，并给出完整的菜谱。

语音功能

除了新增的识图能力，ChatGPT 的移动端 App还将新增语音合成选项。

简而言之，就是用户可以将 ChatGPT回复的“文本内容”转化成语音了。

之前，ChatGPT的 App早已上线语音识别功能，现在，再加上语音合成，就等于我们拥有一位7×24小时，可以随身携带的全能语音助手、英语口语老师……

ChatGPT官方表示，新增的语音功能，可以在 App设置中从Juniper、Sky、Cove、Ember和 Breeze五种不同的合成声音中选择。

之所以提供特定的声音，OpenAI官方表示，是为了避免 AI合成语音所产生的诈骗问题。

看图、听声音、说话，再加上前段时间预热的文生图功能，这将是 ChatGPT通向 AGI（通用人工智能）道路上，突破的一个又一个关隘。

上面这些，在接下来的两周内，将向 ChatGPT的 Plus和企业版用户优先开放。

语音功能将在 iOS 和 Android上同步开启，图片识别全平台均可以使用。

相关快讯