文/陈根
微软悄悄上新了。日前,有网友发现自己的Bing Chat账号新增了一个上传图片的入口。根据用户上传的图片,Bing Chat就能识图回答问题。
早在3月份,OpenAI在发布GPT-4时,特别提出了GPT-4较GPT-3.5最大的亮点是图像输入功能,即GPT-4支持图片输入,可以看懂梗图、看懂物理题,还能看懂论文。不过当时,该多模态功能尚处于研究预览阶段,还不能公开。
如今,微软似乎要抢先ChatGPT一步发布识图功能。在上个月Bing的大更新日志中,微软就提到了会为使用GPT-4模型的Bing Chat加入多模态支持。
那么,“长了眼睛”的Bing Chat到底是怎么样的呢?
首先,针对看梗图功能,Bing Chat根据网友上传的一幅关于机器学习的梗图漫画,或者一张在汽车上烫衣服的梗图,就能准确地答出图中的内容和笑点,基本上可以说是Get到了点位。其次,在识图精确度的评测方面,网友上传了《任天堂大乱斗》游戏的角色图,同一张图上有排列着非常多的角色,Bing Chat对其进行了一一辨认后,从12个角色中认出了7个。结果而论,Bing Chat在二次元问题上还有待进一步提升。再者,在根据手绘图编程网页方面,Bing Chat对于网友给出的手画“试题”,基本能够搭出网页的雏形。
在大语言模型升级的过程中,在文字理解和表达能力的基础上,学习了视觉识别后的Bing Chat将具有更多的功能,给人类的使用带来更大的方便。而曾经一些难以用语言表达的内容,现在都可以通过图片进行解决。甚至,具备了图像识别功能的AI还可以在教育、医疗等领域发挥更大的作用和价值。比如,在教育领域,Bing Chat 将可以担任一个初高中乃至大学老师的角色,帮助学生解答复杂的数理化问题。这将在很大程度上解决教育资源不均衡的问题。在医疗领域,用户还可以用它做基础的医疗诊断,节约就医所需要的金钱和时间。AI应用在社会生活中的价值将由此得到最大化的实现。
由Bing Chat带来的前景功能,无疑令人兴奋的。但是,从目前的小范围测试功能到完全向公众开放识图功能,确保公众不会因为误信Bing Chat的回答而出现安全问题,微软还需要做大量的限制和调试,可谓任重道远。
领取专属 10元无门槛券
私享最新 技术干货