开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

微软新探索：音生图AI，实时视觉化会议场景？

文章来源：企鹅号 - ITBear科技资讯

【ITBEAR】近日，科技媒体MSPoweruser报道了一项微软新获得的专利，该专利描述了一种基于用户实时语音输入生成图片的技术。据悉，这项专利共计20页，于2023年4月5日提交申请，并于10月10日获得批准。

根据专利描述，此系统能够在会议或讲座等场合实时捕捉音频，通过语言模型进行处理并总结内容，随后生成相应的AI图像。此过程包含三个主要步骤：捕捉音频、处理文本以及生成图像。

具体来说，用户通过麦克风发言，系统实时记录并转化为文本。然后，系统分段记录文本，并使用语言模型对每段内容进行总结。最后，根据这些总结生成的提示，系统创建出AI生成的图像，并在屏幕上实时显示。

预计这一功能将主要应用于Microsoft Teams，随着演讲者话题的变化，实时生成的图像也会随之更新，从而为用户带来更加丰富的视觉沟通体验。微软表示，这种图像的使用有助于澄清概念，尤其适合需要通过视觉辅助来学习的用户。

此专利的获得展示了微软在AI技术领域的持续创新和进步，未来有望在会议、教育等多个领域发挥重要作用，为用户提供更加直观、高效的信息传递和沟通方式。

发表于: 2024-10-152024-10-15 14:28:23
原文链接：https://page.om.qq.com/page/OyWPfXuyk5PaG-z43JM2GwOQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯