OrCAM 希望通过手势界面和机器学习来帮助视力受损的个人进行方位导航。
编译 | Rik R
来源 | Co. Design
美国空军退役军官 Stephen Hamilton 在完全失明并放弃治疗之前,已经接受了 7 次失败的角膜移植手术和 18 次外科手术。失明后的他不得不辞去网络工程师和建筑师的工作。
Stephen Hamilton
他曾经参加过一个为期数月的训练课程,该课程针对的是弱视和失明的退伍军人,帮助他们在内华达州里诺市的 VA 中学习方位导航,Hamilton 有机会尝试了一个小型的阅读辅助设备。
这款附着在眼镜上的可穿戴设备叫做 OrCam MyEye,当用户用手指指向一处印刷文本时,比如一个符号、一本书、一张报纸、一份菜单等,它就会利用深度学习来解析该文本语言,并通过一个小喇叭将其朗读出来。
尽管 Hamilton 已完全失明,但他的表现也展示出,他有能力使用 MyEye,而这款产品主要是为弱视人士设计的。
在他第一次返回中心房间时,他驻足在门前(他知道房间在哪里,因为他已经学会了计算到那里的时间)并用手指向标志。「Stephen Hamilton,」设备朗读道。「我哭了出来,因为我意识到,自己是可以获得一些自理能力的,」Hamilton 说。
现在,Hamilton 随处都带着它。制造这款穿戴设备的以色列公司在 2017 年 10 月发布了一款全新的无线版文本识别设备 MyEye 2,Hamilton 在第一个月就买下了它。
可以说 OrCam 改变了 Hamilton 的生活。
这家公司由计算机科学家 Amnon Shashua 和企业家 Ziv Aviram 于 2010 年创立,在 2018 年估值达到 10 亿美元。
这款产品的成功主要归功于其聪颖而直观的界面,该界面操作起来简洁易懂,操作过程主要基于「用手去指」这个手势。
用户只需指向任何想要读取的文本,摄像头就会对手进行识别,然后对文本拍照并朗读内容。
该设备异常精确,你可以指向一页中的特定一行,它会从那个位置开始阅读。
「我们认为,用手指向某物,这是最自然的人类行为,」该公司的 CEO Aviram 说道,「比如儿童,他们会指着某物问,这是什么?」
基于指向手势的 MyEye 在绝大多数情况下都能正常工作,提醒用户页面是否颠倒,或是没有足够的自然光。不过它也有很多其它用途:
它可以记住并识别 100 张面孔、识别出数百万种产品、存储 150 种附加对象,比如信用卡信息或杂货店购买清单,还能识别颜色,这在用户出门前选衣服时特别有用。
MyEye 根据用户所指向的位置决定阅读内容,这对于全盲用户来说或许有些困难,尽管 Hamilton 称他在几周后便适应了这种导航操作。该产品还有个自动面部识别模式,可以读出所有进入用户视线的人的名字。
用户只需转一转手腕,像假装看表那样,MyEye 就会播送当下的时间;要禁用阅读功能,用户只需做出一个停止的手势。
「在我的想象中,盲人就是残疾人。但我不再感到自己是残疾人了,」Hamilton 说,「我感受到了从未奢求过的自由。」
原理解析
OrCam 花了 5 年的时间开发 MyEye,包括于 2015 年推出的手势界面。在开发过程中,Aviram 说,他和他的团队与数百名潜在用户交谈,其中有 90% 的人表示,他们想要获得阅读能力。这令他感到惊讶,因此,为了加深对这一需求的理解,他试图花一天的时间来做试验,避免让自己通过眼睛阅读。
「一个小时后,我明白了为什么这很重要,」他说。「只要 5 分钟,你就会明白,我们的世界有太多东西是由书面材料构成的。」
MyEye 的其余功能也来自用户研究。
一些用户要求颜色识别能力,这是 Aviram 也未曾想到的。有人说:「我不能在一米远的地方认出我的妻子,」Aviram 说,并促使团队增加面部识别功能。
许多这些功能也可以在其它产品中见到,但后者往往只提供其中之一。Hamilton 注意到了他的许多其它设备:一个笨拙的文本阅读器、一个条形码读取设备、一个颜色识别设备。「它并不是那么实用,」他说道,「我不可能把那个大东西拖到邮箱里,然后浏览我的邮件。」
第一版 MyEye 还包括一个智能手机大小的计算包,通过一根电缆连接到相机。MyEye 2.0 则不再需要这个额外的计算包——整个装置的尺寸约等于你的手指大小,只有 0.8 盎司。
难以置信的是,所有功能——文本-语音转化以及面部 & 物件识别——都没有使用云端协助,完全是在该微型设备内进行。
OrCam 1.0
MyEye 使用深度学习算法进行训练,基于数百万张文本和产品图像。「这差不多类似于儿童学习新事物的过程。」Aviram 说,「将其暴露于大量的数据和复杂的算法中,你可以教设备识别不同的产品、面孔和语言。」所有处理过程都是实时离线完成的,这是保护用户隐私的重要举措。
据该公司称,这款设备已经为 Hamilton 及成千上万个用户提供了一种新式自理能力。「去书店坐下来,阅读一本书,这是一件乐事。」Hamilton 说,「除非看到我的手杖,否则没有人知道我是盲人。如果他们真的发现了,就会感到有点不知所措,因为我正在餐馆里看一本普通的书或菜单。」
该设备经历过若干小时的训练,同样,用户也需要经历若干星期才能适应它,特别是在头部定位方面。
目前,Hamilton 对该产品的最大抱怨在于,它的续航能力只有 1.5~2 个小时,而充电过程则需要 40 分钟。无论去哪里,他都得随身携带一个备用电池组。他也希望有那么一天,自己无需再配戴眼镜,MyEye 可以被安装到耳朵后面去。
但 MyEye 也会犯一些错误。Hamilton 回忆说,有一次他在餐馆用餐,MyEye 1.0 将女服务员误认成了男性;但是二代 MyEye 再没有犯过这种错误。
OrCam 的潜在用户不仅仅是弱视者和盲人,还包括难语症患者或有其它阅读障碍的人,以及厌倦快速阅读的老年人。
到目前为止,OrCam 称它已经在 23 个国家售出了数万台设备,并支持 18 种语言——该团队目前正在研究东亚语言。
同时,Aviram 也在展望这种手势界面的未来。
MyEye 2.0 包括一个麦克风,「是为更加高级的接口做准备,」他说。他设想将语音助手和手势系统集成在一起,这样用户就能够进行更自然的人机对话。
例如,用户可以指向一个文档,并问 MyEye 那是什么。如果那是他们的电话账单,那么用户就可以向 MyEye 询问话费,而不是要求该设备读取整个页面,或是随机指向来找出正确信息。
这种手势-语音的组合界面将允许用户让 MyEye 只读取相关标题,然后再要求它阅读特定章节的完整内容。
眼下,令一些用户懊恼不已的是,MyEye 无法为他们提供更多有关其面前场景的信息。在 OrCam 的销售总监 Rhys Filmer 给我演示这个设备时,他告诉我有些人希望它能描述他们面前的场景——从本质上说,他们希望它完全取代自己的视觉。
但这项技术还不太成熟,而且需要将 MyEye 连接到智能手机或云端,而这就涉及到隐私问题了。
现在,MyEye 向我们展示了手势界面的未来,我们可以使用自己的声音和身体来与一个智能助手进行轻松的交流,它会为你转述并响应这个世界。
虽然这种技术不能帮助盲人重拾光明,但却可以帮助他们更有效地导航方位——在一个不是为他们而设计的世界里。
机器之能开年对话
8位AI行业局内人讲述对过去、对未来的看法
领取专属 10元无门槛券
私享最新 技术干货