首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

简单的哲学

最近在工作中遇到一个问题,推荐模型该使用规则模型还是基于机器学习的模型,我们团队也在思考什么是目前做的比较好的方式。当然通常抉择并不是件容易的事,往往需要考虑多个因素来权衡。但如果仅仅从解决事情来看,该现阶段使用什么方案却又是一件很明朗的事。

然后我在那想,有没有什么准则来作为我们做事的一个指明灯。

最近在阅读吴军博士的《数学之美》一书。书中提到的阿米特·辛格博士给我留下了深刻印象。吴军博士称辛格为 Google AK-47 设计者。什么意思呢?

图:AK47之父卡拉什尼科夫

AK-47 之父卡拉什尼科夫设计的 AK 从不卡壳,不容易损坏,环境适用性特别好。尼古拉斯凯奇在《战争之王》中也有这么一段台词:“它是世界上最流行的自动步枪,战士最喜爱的武器。由9磅金属和4英尺长木头制成。它不会坏、卡壳、过热。就算它被泥土或者沙子覆盖,它还是可以正常地开火。它的使用很简单,就算一个小孩都可以使用它,而且他们的确在使用它。”

吴军博士认为,在计算机科学领域,一个好的算法应该像是AK-47 一样,简单、有效、可靠性好且易读懂易操作

辛格师从搜索大师萨尔顿教授,毕业后就职 AT&T 实验室,后来加入 Google,负责搜索,排序,在 2012 年的时候当选美国工程院院士,担任 Google 搜索副总裁。

而辛格被吴军博士称为 Google AK-47 设计者,也是对辛格的高度称赞。辛格在 Google 从事的搜索排序等工作,一直秉承着简单有效和高可靠性等原则。

吴军博士在 Google 的时候和辛格一起工作过四年。在书中,吴军博士讲述了辛格的几个事,证明了辛格的简单哲学。

第一件是关于谷歌反作弊的事。辛格和吴军博士等四人要研究解决网络搜索的作弊问题,他们发现绝大多数作弊的搜索因为利益的缘故多多少少会有些商业意图。他们的目标是建立一个分类器,能够准备区分一个搜索是不是带有商业意图。这就是个二分类的问题。在早期谷歌还没有 MapReduce 这种并行计算工具,复杂机器学习非常耗时,吴军博士刚开始设计的方案要实现出来,需要训练大约三到四个月。辛格认为找个简单有效的办法就行了。于是吴军博士用了一个周末时间搞定了分类器,辛格看了分类器效果说,“够好了,够好了,在工程上简单实用的方法最好。”这句话打消了吴军博士准备再花点时间去实现一个完美方案的念头。事实证明,这个思路非常奏效,两个月作弊的数量就减少了一半。

第二件是关于中日韩文搜索算法的事。吴军博士设计的方案使用了非常耗费内存的语言模型,而当时谷歌不太可能为了中日韩这三个占总流量不到10%的语言增加一批服务器。辛格提议使用一个拟合函数来解决问题,这样不会增加服务器,但搜索质量会是吴军博士方案的 80%。最终方案当然是辛格的方案。吴军博士不甘心呐,辛格说,之所以这样,因为这个方案可以让谷歌至少早俩月将新算法提供给中日韩用户,他们的用户体验对比之前会有质的提高。后来谷歌服务器数量有所增加,吴军博士在模型压缩上也取得了进步,后来发布了完整的中日韩语言搜索算法。

先帮助用户解决 80% 的问题,再慢慢解决剩下的 20% 的问题,是在工业界成功的秘诀之一。

第三件是关于大师们的较量。谷歌当时从很多知名实验室和大学招揽了一些自然语言处理的科学家,这些科学家们有不少人尝试用复杂的方案来改进辛格设计的各种 AK-47 方案。搞笑的是,后来他们发现几乎所有时候,辛格的方案都接近最优的解决方案。有些专家认为要想提高搜索质量,就先要理解文本的意思,然后才能准确检索。而辛格认为计算机不必学习人的做法,如同飞机不必像鸟一样飞行。而辛格秉承简单哲学的另一个原因是这样容易解释每个步骤和方法背后的道理。相比当时微软雅虎的黑盒子模型,辛格的做法基本能保证谷歌搜索质量长期的稳步提高。

你可能会想了,那我以后方案尽可能简单就好了。对么?辛格的简单有效的解决方案来自于他对搜索问题的深入研究,离不开他对搜索结果差例的大量分析,深思熟虑,去伪存真。

辛格的事透露出的这种简单的哲学给了我们一些参考,值得在工作中思考,但具体拿捏,还需要好好的度量。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180716G09G6F00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券