9月25号,OpenAI正式官宣:
ChatGPT将突破“文字维度”的限制,新增看图识图、识别声音、语音对话三大多模态功能。
一建识图
其实,早在今年3月份,OpenAI的创始人之一格雷格·布罗克曼就曾演示过 ChatGPT强大的识图功能。
当时他仅用几行文字,就让 ChatGPT创建了一个网站。
现在,这个功能终于要全面对外开放了。
官方给了几个例子,比如:
拍一张照片,询问如何调整自行车座椅高度, ChatGPT就会快速给出详细步骤。
如果你不熟悉自行车结构,还可以圈出有疑问的地方,问ChatGPT:“是这个地方吗?”
ChatGPT就能像真的在现场一样,快速给出正确的解决办法。
再比如:拍摄一张冰箱中的食材,ChatGPT就能快速识别图片,并给出完整的菜谱。
语音功能
除了新增的识图能力,ChatGPT 的移动端 App还将新增语音合成选项。
简而言之,就是用户可以将 ChatGPT回复的“文本内容”转化成语音了。
之前,ChatGPT的 App早已上线语音识别功能,现在,再加上语音合成,就等于我们拥有一位7×24小时,可以随身携带的全能语音助手、英语口语老师……
ChatGPT官方表示,新增的语音功能,可以在 App设置中从Juniper、Sky、Cove、Ember和 Breeze五种不同的合成声音中选择。
之所以提供特定的声音,OpenAI官方表示,是为了避免 AI合成语音所产生的诈骗问题。
看图、听声音、说话,再加上前段时间预热的文生图功能,这将是 ChatGPT通向 AGI(通用人工智能)道路上,突破的一个又一个关隘。
上面这些,在接下来的两周内,将向 ChatGPT的 Plus和企业版用户优先开放。
语音功能将在 iOS 和 Android上同步开启,图片识别全平台均可以使用。
领取专属 10元无门槛券
私享最新 技术干货