视觉语言导航(Vision-Language Navigation),顾名思义,就是让智能体跟着自然语言指令进行导航,即智能体需要结合理解自然语言指令与视野中可以看到的图像信息完成线路规划,从而到达目标位置。
2019年,一篇关于视觉语言导航的论文拿下CVPR2019 最佳学生论文奖,让这一新兴研究方向,迎来高光时刻。
论文的一作王鑫,当时还是加州大学圣塔芭芭拉分校王威廉组的博士生。在拿下CVPR2019 最佳学生论文奖之后,他跟他所在的王威廉实验组仍一直在视觉语言导航这个研究方向深耕,先后在 ICCV、CVPR、ECCV 等顶会上再度发表了多篇相关的研究,包括跨语言视觉-语言导航、视觉-语言导航的泛化能力等等,成为视觉语言导航领域的一大研究主力。
其中,泛化能力问题原本就作为深度学习研究中最难以跨越的鸿沟之一,在视觉语言导航研究中尤甚。
对于这一大难点,这一年多的时间里,王鑫及其所在研究小组又提出了什么新的方法呢?
2020年8月4日中午12 点,AI 科技评论专门邀请到了王鑫本人,亲自为大家分享他们在泛化能力问题上的最新工作进展,具体包括:1)将环境不可知的多任务导航学习框架;2)用于反事实导航的对抗数据增强方法;3)基于多模态文字风格转换的室外迁移导航学习。
值得一提的是,王鑫本人在今年夏天也完成了身份的转变,从加州大学塔芭芭拉分校分校博士毕业,正式加入加州大学圣克鲁兹分校担任计算机科学与工程系终身制助理教授。
对学业和职业规划存在疑惑的同学,也不妨来找这位“大学长”答疑解惑、取取经哦~
分享主题:视觉语言导航的泛化学习
分享嘉宾:王鑫
分享时间:2020年8月4日中午12:00
分享背景:深度学习的泛化能力一直为人诟病,在新兴的视觉语言导航领域尤甚。三维环境重建和数据收集过程费时费力。我们旨在提出有效的方法解决视觉语言导航的泛化和数据稀缺问题。
分享提纲:
环境不可知的多任务导航学习框架;
用于反事实导航的对抗数据增强方法;
基于多模态文字风格转换的迁移导航学习。
如何加入?
领取专属 10元无门槛券
私享最新 技术干货