前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习先驱 Michael Jordan 复旦演讲:大数据世纪难题

机器学习先驱 Michael Jordan 复旦演讲:大数据世纪难题

作者头像
新智元
发布2018-03-27 10:07:43
7840
发布2018-03-27 10:07:43
举报
文章被收录于专栏:新智元

【新智元导读】在上月召开的“复旦科技创新论坛”上,统计机器学习先驱迈克尔·乔丹发表演讲并接受澎湃记者专访。采访中,乔丹认为目前世人对人工智能、大数据学习期望过高,他也不太看好人工智能从脑科学研究中得到很大启发;他看好人机对话、家庭机器人及精准医疗等具体领域的突破。本文后附乔丹演讲全文《大数据世纪难题》,乔丹在演讲中再次重申结合统计与大数据的重要性,以及当前的问题和机遇。

此乔丹非飞人乔丹。他是研究统计学和计算机科学家,目前研究的领域正是普通人口中的人工智能(Artificial Intelligence,AI)。权威的学术搜索引擎Semantic Scholar,在2015年做了一项排名,计算机科学领域谁最具影响力,迈克尔·乔丹名列第一。而且此乔丹门下英雄辈出,如深度学习领域的大牛蒙特利尔大学教授 Yoshua Bengio、百度首席科学家吴恩达、斯坦福大学教授 Percy Liang 等都是其弟子。

目前,人类对人工智能的恐惧日甚一日,研究黑洞的英国物理学家霍金就认为人类会制造出如同人类一样新物种,最终消灭人类。

人工智能究竟会如何,2016年12月17日,在第二届“复旦科技创新论坛”上,迈克尔·乔丹做了一场演讲,他首先告诉听众,人们对人工智能、大数据学习期望过高,目前已经发展过热。而且他还意外地告诉听众,这门全民关注的显学,目前还处于初级阶段,并未成为体系化的理论科学,有很多难以理论化解决的难题。

在演讲之后,他解答了霍金的担忧,“霍金研究领域不同,他的论述听起来就是个外行,机器人毁灭人类的可能性,在几百年里不会发生。”迈克尔·乔丹认为,通过研究人脑的运行机理,从生物学途径仿生出一个类人脑的人工智能,以目前的进展看,很长时间里无法实现。

具体到人工智能的研究,迈克尔·乔丹认为,人工智能最先获得突破的领域是人机对话,更进一步的成果则是能帮人类处理日常事务甚至作出决策的家庭机器人。

霍金是外行

澎湃新闻:人工智能、神经网络提出有几十年了,发展历程起起伏伏,神经网络研究在历史上几次受挫,是不是意味着人工智能的研究方向是计算机科学,而不是所谓的人脑科学?

迈克尔·乔丹:我不认为神经网络经历了起伏,神经网络的发展带来了很重要的理论贡献,你所说的起伏是由于计算机的性能不能匹配其大量运算的需求, 当计算机的硬件、软件、计算数据,这些都跟上了理论的发展进程,神经网络就能发挥出自己的优势。

澎湃新闻:霍金很担心人工智能,但微软的科学家说计算机具有自我意识还要几百年之久,您如何看?

迈克尔·乔丹:霍金不是人工智能的研究者,他是一个外行 。计算神经生物学近期不会有太大的突破,大概几百年后才能有进展,但我还是保守看好这方面的发展。

澎湃新闻:您不看好通过研究人脑科学获得人脑一样的运算能力这个研究方向?

迈克尔·乔丹:这是非常难的问题了,首先,人们对大脑运行机制还不是很清楚,目前还需要很精细的研究,要细致地了解每一个细胞的功能机理。目前计算机视觉技术,主要通过对图片、视频来分析,这在模拟人脑认知方面是远远不够的。打个比方就像我要研究上海的经济状况,不是通过空中简单的航拍就可以了解的,这种方法太粗了。其次,以前科学家用行星运行来比喻原子内的结构,前提是我们对行星运行的机制有很深的理解。现在人们通过对人脑的研究来开发人工智能,但对人脑机制的认知还非常浅,所以这个方向属于未知的探索。

工作岗位被机器人取代是大势所趋

澎湃新闻:人工智能取代工作岗位这是肯定要发生的吧?

迈克尔·乔丹:工作岗位被机器人取代是大势所趋,像自动驾驶取代出租车司机,可能会让交通更安全,但是在经济上带来的影响是不可忽略的。比如出租司机或工人被机器取代了,他们的生活怎么办,他们有没有被安排新的工作,这是很重要的社会问题,是科技解决不了的。人类不可能被机器毁灭,人类只能被自己毁灭。

澎湃新闻:目前已经通过人脑和电脑相连玩游戏了,这能否是一个研究人脑获得人工智能的佐证?

迈克尔·乔丹:可以,但起到的作用很有限,这种研究是很粗略的,大脑是很精致的,不太可能看了你的行为就能够研究出来你的思维是什么样。

大数据明显过热

澎湃新闻:您之前认为大数据过热,目前有很多大数据的数学和工程的问题需要解决,会发生一场大数据的冬天。但现在有非常多的公司进入这一领域,您还认为冬天会到来吗?

迈克尔·乔丹:大数据明显过热。很重要的科学问题是怎样让大数据在大尺度、大规模的深度学习中解决实际问题。但有个很重要的问题是,大数据分析必须建立正确的数据模型,但是目前没有办法从根本上杜绝错误的数据模型。不过大数据的冬天还不至于到来,因为目前还是有很多好的想法,可能会有段冷却时间,但可能不是冬天。不过大家对大数据的期望值实在太高了。

看好人机对话、自然语言处理的突破

澎湃新闻:人工智能最先获得突破的是哪一块?

迈克尔·乔丹:计算机视觉领域已经有很好的突破,但我比较看好人机对话、自然语言处理的突破,这些是正在改变或即将发生的改变,譬如谷歌的翻译系统最近有非常不错的成果,下一个领域的突破就是在家用机器人方面,小机器人在日常生活中与人的人机互动,这是多方面应用的人机交互,既有计算机视觉,还有人机对话,以及综合场景处理。家用机器人了解你日常生活的模式,并对此进行学习,然后进行下一步的服务,这是正在进行中的突破。

还有一个就是精准医疗,我非常看好,虽然前景并不非常明确,因为需要了解病人的历史数据,再对可能要到来的疾病进行诊断、预测和治疗。谷歌现在在各个领域都能帮助人,不是谷歌什么都知道,是谷歌可以搜索,或了解这些知识。人工智能的下一步就可以帮助人们做决断,帮人做出决定,这是更深层次的逻辑运算。

澎湃新闻:掌握最多数据的公司认为他们更有优势做好深度学习,现实如此吗,其他公司的机会在哪里?

迈克尔·乔丹:首先是数据量的问题,深度学习十分依赖于公司处理的是什么样的数据,譬如精准医疗、电子商务,专业的公司有大量的数据,但私人对这些数据并不是十分感兴趣;另外是数据质量的问题,很可能大公司有更好的数据质量,譬如美国的推特、中国的微博,虽然每天产生大量的数据,但这些数据之间的关系可能比较微弱,普通人不感兴趣,可能只有大公司才有兴趣;还有信用卡以及金融数据,可以分析出大家的购买习惯,这对私人来说就是非常有用的东西。这也是数据量多的公司才能做的事。另外,数据收集方面有很大的挑战,因为有人为或者不可避免的失误,会对数据产生人为的损害和污染,如何保证数据的高质量是非常重要的问题。

澎湃新闻:在人工智能方面最先获得突破的是谷歌、亚马逊这些大公司吗?

迈克尔·乔丹:这是很重要的问题,但就2016年来说,研究机构还是最有可能获得突破的,未来如何不好说,但过去30年的经验,人工智能的研究,研究机构一直领先。

迈克尔·乔丹博士

以下为迈克尔·乔丹于第二届“复旦科技创新论坛”暨第一届“复旦-中植科学奖”上的演讲,由复旦大学大数据学院张楠整理。以飨读者。

乔丹演讲《大数据的世纪难题——缺少理论化的科学体系》

迈克尔·乔丹:在建造一个大数据系统时,设计者通常都要面对精准性和计算速度的取舍,目前并没有一个科学化的体系来指导我们。这个指导系统的重要性,就像是几千年来,人们修建房屋和桥梁,不断实践、试错改错、最后理论化提炼出土木工程这门科学,可以指导人们应对建筑工程中遇到的所有问题。在大数据时代来临之前,我们在相关领域取得了很多成果,比如计算机科学、统计学、机器学习等。但当我们面对大数据的新问题,我们并没有一套科学的解决方案,这是世纪挑战。

因此我们不能简单地将已有方法拿过来套用,而是要从科学的角度认真思考和尝试找到科学方法,其中非常重要的一点就是将计算思维和推断思维结合起来。

几十年来,研究者一直致力于用机器代替人来进行特定的活动。有些方面已经取得了巨大的成功,比如Google搜索引擎,我们在一个空白框内输入关键词,很快就可以得到我们想要的答案。就这个搜索框而言,其背后的技术在几十年中不断发展,通过数据的日积月累和算法的不断改善,形成了如今的非常个性化的服务系统。

在硅谷,越来越多的公司在设计、开发类似的个性化大数据系统,比如搜索引擎、电子商务、精准医疗等等。他们在数据不断涌入的情况下,通过调整参数、尝试不同模型,提高预测的精准性。相比控制出错的比例,公司更关心的是出错的绝对数量不要随着数据的增多而增加。

同时,大数据带来的另一个挑战是对计算速度的要求。数据越多,处理的时间也就越长。一个高度个性化的、准确的服务系统,如果运行起来很慢,用户是不会满意的。比如,搜索引擎的响应时间已经从最初的几秒优化到如今的几毫秒。如果思考得更长远些,今天我们有TB(1024GB)级的数据,几年后我们会有PB(1024TB)级的数据。丰富多样的数据可以使系统个性化、精准化方面再上几个台阶,但是同时人们也期待计算速度能够越来越快。

而计算思维来自于计算机科学,是一种思想,是关于思考特定问题的抽象化、模块化、扩展化和稳健化等方法,绝不仅仅是如何编程。计算机专业的学生在这些方面都会接受很好的训练,但被大家忽视的,也是特别重要的推理思维。推理思维不是新思想,它是有几百年发展历史,它是统计学中最核心的东西。推理思维强调的是,拿到数据,我们要思考数据是从哪里来的,背后的真实世界是怎样的,数据如何从真实世界中采集来的,会不会有采样偏差,等等。

遗憾的是,计算科学和统计学长久以来独立发展,直到如今的大数据时代,两个学科的交叉,才使得这两门学科遇到了真正的机遇,同时也带来了挑战。

一方面,计算机科学家并不太懂统计推断,所以他们把这方面的研究命名为机器学习。然而机器学习只是将模型应用到数据上,并不关注推断问题,以及样本和总体之间的关系,也没有涉及统计学中偏差和因果推断的内容。

另一方面,传统统计学理论关注损失、风险、随机性等概率性质,极少涉及计算时间方面的概念。

我们举一个医疗研究的例子来体会计算思维和推理思维的不同和联系。假设有一个存放患者健康信息和医疗历史的数据库,如果有直接查询的权限,我们就可以得到想要的信息,并进行下一步操作。但由于保护隐私的考虑,我们通常只能查询到经过随机化处理的间接信息。计算思维考虑的问题,就是基于间接信息的结果,如何尽可能得到近似原始观测得到的结果,使用这些扰动过的数据,能不能做出和使用原始数据一样好的预测。

推断思维的角度则完全不同。我们通常假设:数据库中所有患者的信息只是某未知真实总体的抽样观测,我们不仅关注那些信息已经存在数据库里的患者,我们也关心那些不在数据库中、但类型相似的患者。那么,统计学家关注的是,基于数据库直接信息的结果会对真实世界的结果有多好的近似。

这是几十年前,这两个领域各自研究的问题。现在是如何把这两种思维结合起来。

所以,在这个医疗数据隐私例子上,我们关心的问题就变成了我们如何利用随机化的间接信息,来得到近似真实世界的结果。推理思维在连接真实世界和间接信息中起到了桥梁作用。

因此,大数据带来的挑战层出不穷,将两种思维结合起来,并且认真研究新问题,才是真正的核心。无论是对理论还是实践感兴趣,我们都应该为有更多的机遇而感到兴奋。

(本文来自澎湃新闻,由作者授权转载,原文责任编辑吴英燕,发表时有修改)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-01-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档