首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软新专利展示音生图AI模型 会议中可据演讲者话题实时更新背景图像

【太平洋科技快讯】近日,微软取得了一项突破性专利,该专利技术能够将用户的实时语音输入转化为图片,为会议和讲座带来全新的视觉体验。根据专利描述,这项技术在会议或讲座场合中,能够实时捕捉音频,并通过先进的语言模型对内容进行总结,最终生成相应的AI图像。这一过程涉及三个主要环节:音频捕捉、文本处理和图像生成。

具体操作步骤如下:

捕捉音频:用户通过麦克风发言,系统实时记录并转换成文本。

处理文本:系统将文本分段,利用语言模型对每段内容进行总结。

生成图像:根据总结内容生成的提示,系统创建AI图像,并在屏幕上实时展示。

这项技术预计将主要应用于Microsoft Teams,能够根据演讲者话题的变化实时更新图像,提升视觉沟通效果。微软表示,这种图像辅助功能有助于更清晰地传达信息,尤其适合视觉学习者。

微软于2023年4月5日提交的这项专利,经过长达半年的审核,于10月获得美国商标和专利局的批准。该专利共包含20页内容,详细描述了如何将语音实时转化为图像的技术。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OiO6GyLZpdiaxFl5YIBfWhWA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券