看起来,创新似乎来自意想不到的地方(毕竟,如果它来自预期的地方,那它会被称为创新吗?)。如今,许多事情已经聚集在一起,将搜索及搜索引擎置于全新的角度,来自意想不到的地方:异常处理。
以这种方式查看搜索引擎时,您会发现各种各样例外情况遍布其中。
我不是在谈论软件例外(例如Java Exceptions或Throwables),而是例如“规则的例外”之类的情况。换句话说,如何处理搜索引擎标准操作不正确的罕见(但通常很重要)的情况?
右侧的图形说明了处理搜索引擎内部的“规则例外”的方法。换句话说,这是“修复”某些查询或搜索结果的方式。
最近我发生的事情是,我开始将所有这些项目都看作是我可以试图解决可以的问题。这种认识帮助我以不同的方式看待问题。这种想法的结果是目前正在搜索技术领域正在进行的一系列工作,以创建涵盖所有这些技术的工具和方法,形成一个单一的整体系统,该系统还打开企业搜索功能的全新视角。
而且,非常令人难以置信的是,我们最终成立了一个为每个人创建智能数字助理的系统。
而且,为什么我们要这样做?因为我们的客户需要它。
多年来,客户一直在寻求像Siri这样的问答系统。借助Google Now和Cortana,这些系统开始变得无处不在,因此需求量也越来越大。最近,Gartner也开始讨论' Insight 引擎 ',这是一项重新定义搜索市场的新技术,提供自然,全面,主动的搜索和发现。
这些确实告诉我,应答系统确实存在问题。
当我被问到这样的系统时,我总是说:“不是现在,也许以后。”为什么?因为我很害怕。我看不到我的解决方案是实用的。
关键问题是领域理解。通用应答系统(如Siri,Google Now)只能理解非常广泛的通用领域:像电影,生日,地理等等。但是,这不是我们的客户想要的(不管他们是否真正的意识到)。
毕竟,我们每个客户都希望创建一个属于自己的搜索应用程序,无论是搜索内部网门户,电子商务,招聘,媒体和出版,还是公共部门的内容。他们有他们自己的语言,自己的缩写,自己的业务流程,以及他们自己的做事方式 - 他们希望他们的数字助理了解他们所在的独特领域并可以回答诸如“TPS表单在哪里?”等问题。或者“上个季度欧洲,中东和非洲地区的小企业出售了多少零小部件?”
而且,所以任何应答系统都需要进行严格的调整(阅读:非常昂贵)才能够处理像这样的问题。
但是,现在我在想:好吧。我认为我们可以做到这一点。哇,我真的认为这是可能的!
从我的第一个搜索引擎 - 自然语言处理(NLP)引擎开始,我一直认为理解查询是实现最高质量搜索的关键。
我是一名NLP(自然语言处理)人员。在研究生院,我学习了NLP课程,创建了句法(和语义)状态机,并实际创建了软件来实现语句分析,语义分析,照应参考,组块,分段等转换网络的名称。但所有这些旧技术都非常脆弱和昂贵,以至于它们从未成为主流。
如今所发生的变化是出现查看自然语言处理的新方法 - 两级简化 - 它简单地将文本与大型模式数据库进行匹配,并通过匹配创建理解。它是一种源于NLP的RISC(精简指令集计算)形式。我们不是试图深入理解句子结构和内部意义,而是创建大型模式数据库并将查询内容与这些模式进行匹配。
例如:
在今天,这就是智能搜索系统的发展趋势:
使用大数据创建模式
但是,保罗,你说,这有什么帮助?毕竟,你仍然需要手动创建大量的图案,是不是很昂贵?
这完全是一个真正的担忧。幸运的是,下面有针对于你的问题的回复:
所以是的,这可能(最终)需要许多模式,但是由于每种模式的创建成本都非常低,并且只需几种模式就可以立即获得好处,这使得这个新系统对所有搜索引擎用户都是可行的。
有人可能会认为所有这些处理异常的方法都与大数据相矛盾。毕竟,大数据都是通过汇总大量数据并对此数据量进行广泛的统计分析,以获得洞察力和算法来预测未来的行为。
然而,现在我清楚地知道这两种方法可以很好地协同工作:通过使用大数据来创建模式数据库。
模式可以来自任何地方。他们可以手动输入,也可以从内容中提取(使用文本挖掘技术)。它们可以从Wikipedia,Geonames或Freebase中提取。抑或者,它们可以来自用户查询。它们可以从客户的业务系统中提取。再者,通过以上的任何组合。
许多这些技术需要大数据来处理大量的令牌,大量查询日志等。这些过程的输出是模式,字典,标签等,这些输入到模式匹配引擎并且驱动查询配对。
我们的一个客户已经拥有超过1200万种模式,这些模式也是通过大数据分析,手动清理和组合产生的。
我们一如既往的目标是改变企业搜索行业。我们在搜索技术公司所做的一切都着眼于推动行业向前发展,当然这个模式也不例外。
我们打算用这些想法向真正的智能搜索引擎迈出一大步。这将启用以前不实用的各种功能:
最后,我们正在创建一个对你的世界的数字理解。这种数字理解为语言(查询,请求,操作和内容)和组成与公司有关的所有业务对象提供了桥梁。
而且,这不是很棒吗?一个可以用你母语说话的计算机?一个可以理解您的请求和您的需求的计算机?可以掌握语音到文本系统,并拥有自己定制的个人数字助理。这真是太棒了。
我们相信这里讨论的只是依据搜索和大数据分析可能实现的
数字助理的表面。
想象一下这个这个系统的可行性!
本文首次发布于Search Technologies的博客。