大数据观察
了解大数据,关注大数据观察吧!
每个想了解最新大数据资讯的人,都关注了我
文 / 数据君
数据有大小之分,数据量多的是不是就一定比数据量少的好呢?更多数据比算法智能还更重要吗?
在班科和布里尔开始研究数据几年后,微软的最大竞争对手,谷歌,也开始更大规模地对这些问题进行探讨。
谷歌用的是上万亿的语料库,而不是十亿的。谷歌做这类研究不是因为语法检查,而是为了解决翻译这个更棘手的难题。
20世纪40年代,电脑由真空管制成,要占据整个房间这么大的空间。而机器翻译也只是计算机开发人员的一个想法。在冷战时期,美国掌握了大量关于苏联的各种资料,但缺少翻译这些资料的人手。所以,计算机翻译也成了亟需解决的问题。
最初,计算机研发人员打算将语法规则和双语词典结合在一起。1954年,IBM以计算机中的250个词语和六条语法规则为基础,将60个俄语词组翻译成了英语,结果振奋人心。
IBM 701 通过穿孔片读取了“Mi pyeryedayem mislyi posryedstvomryechyi”这句话,并且将其翻译成了“我们通过语言来交流思想”。在庆祝这个成就的发布会上,一篇报道就有提到,这60句话翻译得很流畅。这个程序的指挥官利昂.多斯特尔特表示,他相信“在三五年后,机器翻译将会变得很成熟”。
事实证明,计算机翻译最初的成功误导了人们。1966年,一群机器翻译的研究人员意识到,翻译比他们想象的更困难,他们不得不承认自己的失败。
机器翻译不能只是让电脑熟悉常用规则,还必须教会电脑处理特殊的语言情况。
毕竟,翻译不仅仅只是记忆和复述,也涉及选词,而明确地教会电脑这些非常不现实。法语中的“Bonjour”就一定是“早上好”吗?有没有可能是“今天天气不错”、“吃了吗”或者“喂”?事实上都有可能——这需要视情况而定。
在20世纪80年代后期,IBM的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇相比,他们试图让计算机自己估算一个词或一个词组适合用来翻译另一种语言中的一个词和词组的可能性,然后再决定某个词和词组在另一种语言中的对等词和词组。
20世纪90年代,IBM这个名为Candide的项目花费了大概十年的时间,将大约有300万句之多的加拿大会议资料译成了英语和法语并出版。由于是官方文件,翻译的标准就非常高。用那个时候的标准来看,数据量非常之庞大。统计机器学习从诞生之日起,就聪明地把翻译的挑战变成了一个数学问题,而这似乎很有效!计算机翻译能力在短时间内就提高了很多。然而,在这次飞跃之后,IBM公司尽管投入了很多资金,但取得的成效不大。最终,IBM公司停止了这个项目。
主题 |大数据历史
插图 | 网络来源
作 者 介 绍
数据君:)
了解大数据,关注大数据观察
部分图文来自网络,侵权则删
我想给你一个理由 继续面对这操蛋的生活
领取专属 10元无门槛券
私享最新 技术干货