微软新的图像标题AI将有助于Word,Outlook等的可访问性
该算法甚至在某些有限的任务中击败了人类
图像字幕算法将用于改进开发人员Florian Beijers在此处使用的应用程序,例如Seeing AI。
Microsoft开发了一种新的图像字幕算法,在某些有限的测试中,该算法超出了人类的准确性。人工智能系统已被用于为视力障碍的Seeing AI更新公司的辅助应用程序,并将很快集成到其他Microsoft产品中,例如Word,Outlook和PowerPoint。在那里,它将用于诸如为图像创建备用文本之类的任务,这对于增加可访问性特别重要。
微软软件工程经理Saqib Shaikh在一份新闻稿中说:“理想情况下,每个人都应该在文档,网络和社交媒体中的所有图像上添加替代文本,因为这样可以使盲人访问内容并参与对话。”在会议上。 “但是,不幸的是人们没有。因此,某些应用程序使用图像标题作为丢失替代文本的方式。”
微软表示,新算法的性能是其先前算法的两倍
这些应用程序包括微软自己的Seeing AI公司它于2017年首次发布。Saw AI使用计算机视觉来描述通过智能手机摄像头视障人士看到的世界。它可以识别家居用品,阅读和扫描文本,描述场景,甚至可以识别朋友。它也可以用于描述其他应用程序中的图像,包括电子邮件客户端,社交媒体应用程序和诸如WhatsApp之类的消息传递应用程序。
微软没有透露Seeing AI的用户数量,但是Azure AI副总裁Eric Boyd告诉The Verge,该软件是“盲人或弱视人群的领先应用程序之一”。盲人和弱视iOS用户社区连续三年见证了AI,AppleVis被选为最佳应用程序或最佳辅助应用程序。
微软的新图像捕获算法将极大地改善Seeing AI的性能,因为它不仅可以识别对象,而且可以更准确地描述它们之间的关系。因此,该算法不仅可以查看图片,还可以查看图片包含的项目和对象(例如,“人,椅子,手风琴”),还可以查看它们如何交互(例如,“坐在椅子上的人”) ,演奏手风琴”)。微软表示,该算法的速度是自2015年以来使用的先前图像捕获系统的两倍。
该算法在9月份发表的预印本论文中进行了描述,并在称为“ nocaps”的图像捕获基准上获得了有史以来的最高评分。尽管它有其自身的局限性,但这是图像字幕行业领先的记分牌。
nocaps基准包含超过166,000个人工生成的字幕,这些字幕描述了从Open Images数据集中获取的大约15,100张图像。这些图像涵盖了各种场景,从运动到假日快照再到美食摄影等等。 (您可以在此处浏览nocaps数据集或在下面的画廊中了解图像和字幕的混合。)测试了该算法为这些图像创建与人类匹配的字幕的能力。
值得注意的是,nocaps基准测试通常仅捕获图像字幕复杂度的一小部分。尽管Microsoft在新闻稿中声称其新算法“可以像人一样描述图像”,但这仅是正确的,因为它适用于nocap中包含的少量图像。
“在不受限制的条件下超过人类的表现并不意味着图像字幕已经解决了问题”
正如基准的创建者之一Harsh Agrawal在电子邮件中对The Verge所说:“超越nocap的人类表现并不意味着图像字幕已经解决。” Argawal指出,用于评估无上限性能的度量标准是“仅是人类,首选项是大致相关的”,而基准测试本身“仅涵盖了所有可能的视觉概念的一小部分”。
“与大多数基准测试一样,nocaps基准测试只是该模型在任务上的性能的粗略指标,” Argawal说。 “绝不超过人类的表现并不意味着AI系统在图像理解上超越了人类。”
当夸大人工智能的功能时,这个问题(假设可以将特定基准的性能推断为更一般的基本任务的性能)是一个常见的问题。确实,过去,Microsoft因其算法能够理解书面文本而受到类似研究人员的批评。
但是,由于人工智能的原因,近年来,图像字幕的工作已得到很大改善,微软的算法当然是最先进的。除了集成到Word,Outlook和PowerPoint中之外,图像标题AI还可以通过Microsoft的云和AI平台Azure用作独立模型。
领取专属 10元无门槛券
私享最新 技术干货