Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >干货 | 携程实体链接技术的探索及实践

干货 | 携程实体链接技术的探索及实践

作者头像
携程技术
发布于 2022-06-17 10:11:43
发布于 2022-06-17 10:11:43
1.6K0
举报
文章被收录于专栏:携程技术携程技术

作者简介

携程旅游AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中知识图谱组专注旅游领域知识图谱的构建及应用落地。

一、背景介绍

随着网络应用技术的飞速发展,多元化、低密度数据的急剧膨胀对人们获取正确信息带来巨大挑战,大量冗余信息出现的根源在于自然语言表达的多样性,即一词多义和多词同义。例如,“苹果”在不同语境下既可以表示蔷薇科苹果属植物又可以表示苹果产品公司,“申城”和“魔都”尽管字面完全不同,却都是上海市的别称。实现对海量Web数据的高效处理,理解用户意图,降低信息过载,是实体链接的目标。

在旅游领域,用户关注的实体通常是旅游目的地周边景点、酒店和玩乐方式等,这些对象在地理信息系统(Geographic Information Systems, GIS)中统称为兴趣点(Point of Interest,POI),主要包含四个核心维度:名称、地址、坐标和类别。随着互联网电子地图服务与基于位置的服务(Location Based Services,LBS)的普及,POI无论从概念范畴还是信息纵深上都有了长足发展,已成长为信息空间的参天大树,可以说目前如日中天的互联网各个风口都和POI有一定关系,如电商、O2O、社交、本地生活、互联网金融、共享经济等。

构建以POI知识库为基础的实体链接服务,提升旅游搜索、智能问答、知识挖掘和信息抽取等工作的效果,对改善用户体验有重要意义。

二、问题分析

实体链接,指将文本中的表述链接到知识库中相应实体来进行实体消歧、帮助计算机理解文本具体含义的任务,一般包含实体提及识别、候选实体生成和候选实体消歧三个步骤。

图1 实体链接功能示例

1)实体提及识别,旨在识别出自然语言中实体提及片段的边界,并标示其在输入文本中的位置。以图1例子进行说明,用户输入的搜索词“武汉东湖景区”包含了“武汉”和“东湖”两个命名实体提及,它们可能表示知识库中某些实体的正式名称、简称、俗称或者别名。

2)候选实体生成为文本中给定的实体名称生成可能链接的候选实体集合,即根据前一步识别到实体提及片段从知识库中召回所有用户可能感兴趣的实体,该步骤生成的候选项集确定了实体消歧的范畴。例如,“武汉”这一实体提及可以从知识库中召回作为城市的“武汉”,而“东湖”则可以召回“武汉东湖”和“绍兴东湖”两个景点。

3)实体消歧是确定一个实体指称项所指向的真实世界中实体的过程,通过候选实体的静态特征、或与query交互计算的动态特征输出一个用于排序的分值。以图1为例,结合上下文可知,用户真正查询的是武汉市下面的东湖,而非位于绍兴市的东湖,因此“武汉东湖”相对“绍兴东湖”应有更高的得分。

实体提及识别常被视作序列标注任务,经典方法有基于词典的方法和基于统计的方法。基于词典的方法可分为前向最大匹配、后向最大匹配和双向最大匹配;基于统计学习的代表方法有HMM和CRF,其表现通常依赖大量人工构建和维护的特征模板。随着算力的提升和端到端的神经网络技术的发展,CNN、RNN等结构被广泛用于建模序列表示,其自动组合低阶特征获得高阶特征的功能摆脱了人工特征工程耗时费力的弊端,同时神经网络强大的表达能力显著提升了传统算法的效果。

Google在2018年提出的Transformer则首次将自注意力模型带入大众视野,为序列表征的高效并行计算提供了可行的方案。Self-attention机制的运用使得序列中每个位置的token都能充分学习到上下文语义,自适应地接收来自不同位置token的信息流入,成为近年大热的自监督学习任务的基本编码单元,启发了众多以此构型为基础的大型预训练语言模型,BERT便是代表之一。

使用Transformer Encoder结构的BERT从无标签语料中学到了大量先验知识,只需在特定下游任务上微调权重,便能获得出色的结果。BERT一度霸榜GLUE,刷新了各大自然语言理解任务的SOTA,其预训练加微调的学习范式也成为NLP界的重大里程碑。

候选实体生成是一种检索任务,传统检索方法以词袋模型(Bag of Words,BOW)为代表,如TF-IDF、BM25等,这类算法不考虑词序,也忽略了词与词之间的前后关联,除需人工设计公式外,在统计词的权重、词频的基础上,还要引入覆盖率、紧密度,扩展同义词等,才能达到一个较好的效果。词袋模型最大的缺陷是只能解决字面量的匹配问题,无法获得query与document语义相关性,因此,以双塔式模型和交互式模型为代表的语义向量检索方案开始受到重视。

双塔模型主要有DSSM、Siamese网络,通常使用两个相同或不同的编码器来提取query和document的低维句向量表示,然后设计一个相关性函数,如cosine、内积等,计算两者间的相似得分;交互式模型则在低阶特征组合阶段就开始建模query与document之间的相关性,其关键思想在于交互矩阵的构造,如ESIM、MatchPyramid等,这类模型最终获得的是query-document对的整体表示,因此能避免独立编码两部分造成的精度丢失,实践中往往有更好的表现。

实体消歧是在更精细的粒度上对候选实体进行排序,常见的学习排序算法包括单点法(pointwise)、配对法(pairwise)和列表法(listwise)三类。pointwise的思想是使用回归或分类模型独立地为每个候选实体进行打分;pairwise考虑的是候选实体两两之间的相对排序而非各自的绝对分值,因此损失的计算依赖于成对样本;listwise则将一个query的所有候选实体集当作一个样例,输出为各候选实体的得分。在特征构造与表示学习方面,可以使用query的特征、候选实体自身的特征或两者的交互特征,相关方法与前文提到的语义匹配类似。

三、旅游知识图谱

GIS本身是一种知识库,POI则是知识库中的实体,但仅有POI的集合,无法发挥其辅助实体消歧的潜能,为此我们需要构建以POI为基础,同时深度结合目的地、产品、标签、别名等其它数据的旅游行业知识图谱。

知识图谱(Knowledge Graph, KG)是一种大规模语义网络,由节点和节点之间相互连接的边构成,可以表征实体之间结构化的关系,被认为是通往认知智能的基石。其中,节点表示概念或对象,边表示概念与概念、概念与对象或对象与对象之间的关系。在知识图谱中,每条知识都可以表示成一个SPO(Subject-Predicate-Object)三元组,例如长宁区属于上海市,在旅游知识图谱中表示为(长宁区,upperClass,上海市)。正因为高度结构化的知识表示易于计算机理解,知识图谱在信息检索、智能推荐、金融风控上都有广阔应用场景。

我们团队打造的旅游知识图谱以Neo4j和Nebula图数据库作为储存方案,图谱Schema涉及18种实体类型和12种关系类型,目前已有约1千万实体、3千7百万条三元组,知识数量初具规模。同时在数据治理层面建立了完备的自动更新机制和监控体系,确保每日新增知识入库,过期知识移除,提升了知识图谱的可靠性。

图2 旅游知识图谱数据探索

四、技术方案

在实体链接系统的技术选型上,我们遵循三阶段流程,即实体提及识别、候选实体生成、候选实体消歧三个串行的子模块协同完成对自然语言的分析。

图3 实体链接系统流程

此外,我们在工程上做了一些优化,使用Redis缓存别名到候选实体id的映射关系以及实体id到实体属性的映射关系,避免频繁查询Neo4j或Nebula图数据库带来高延时。

五、功能模块

5.1实体提及识别

这一步骤结合了神经网络模型和别名前缀树进行多路检测,以扩大候选实体召回范围。

5.1.1 实体别名前缀树

我们将知识库中所有实体别名字符串插入到一棵前缀树结构,该前缀树除根节点不包含字符、叶节点包含终止符外,每个中间节点都只包含一个字符。从根节点出发到某一节点,经过的字符连接起来表示该节点对应的字符串,因此树中每个节点的后继节点都拥有相同的前缀。

图4 实体别名前缀树示例

从根节点到叶节点的路径闭合了一个位于知识库中的实体别名,在实际检索时通常采用前向最大匹配策略:

1)维护两个指针:前缀树指针和query指针,前缀树指针初始化时位于ROOT节点,query指针位于query文本首字符。

2)如果query指针指向的待匹配字符在前缀树指针对应节点的后继节点中,则移动前缀树指针至该子节点,同时query指针后移一位。

3)如果query指针指向的待匹配字符不在前缀树指针对应节点的后继节点中,若后继节点包含了end,则闭合实体提及字符串,前缀树指针回到ROOT;否则前缀树指针递归地回退至上级节点(query指针同步前移),直至上级节点的后继节点中包含end节点,然后闭合实体提及字符串,前缀树指针回到ROOT;若前缀树指针回退至ROOT的过程中没有闭合任何实体提及,则query指针后移一位。

前缀树可以最大程度减少对用户query中无效字符串的匹配,且最坏情况的时间复杂度仍优于哈希表,提供了一种十分高效的字符串搜索方案。

5.1.2 命名实体识别模型

这里我们使用以BERT为骨架的指针网络标注命名实体的边界,图5展示了模型框架、前向传播过程以及标签解码方式。

图5 命名实体识别模型结构

BERT的嵌入层综合了子词、位置和片段三部分信息。首先,对用户输入query的字符序列做数值化处理转换为token词表中相应的索引id序列,经独热编码得到    ,使用一个字嵌入矩阵  将one-hot向量转化为h维稠密向量

同理,对token的位置id、片段id采取类似操作得到位置信息编码  和片段信息编码  ,这三部分特征加总并做层归一化处理得到如下表示:

BERT前向传播的基本单元为Transformer Encoder结构,包括一个多头自注意力层和一个全连接层。假设经过嵌入后的序列特征矩阵为  ,共使用L个Encoder Block,则对于  ,L

1) 在自注意力层,分别使用N个注意力头提取不同语法或语义层面的上下文特征,每一头的维数设置为  ,则query、key、value和proj权重分别为  。此外,对由注意力机制聚合后的序列特征添加残差连接以控制低层信息向上流动。

2)在全连接层,参数矩阵包括  ,这里先将特征向量映射至高维空间,经高斯误差线性单元激活后,再投影至原低维空间,同样添加残差连接,该过程表示为:

假设经L层Encoder编码的字级序列表征为  ,分别接入两个线性层来预测各token作为某种实体类型的头部和尾部的概率,假设token标签集为C,则:

其中,  是仿射变换参数。

在训练阶段,假设序列真实的one-hot标签为  ,模型损失函数为交叉熵损失

在推理阶段,根据头、尾指针预测结果闭合相同实体标签对应的token位置获得实体提及边界。

5.2 候选实体生成

在旅游知识图谱中,“别名”是一种特殊的节点类型,我们在图谱构建阶段会为每个新加入的POI、目的地、产品以及标签类型的实体与其各别名(实体名称也是一种别名)之间建立hasAlias类型的关系。因此,POI、产品、标签实体都至少关联到一个别名实体。

以图6为例,输入文本为“武汉 江西 东湖”时,假设识别到的实体提及为“武汉”、“江西”和“东湖”,将这三个提及作为“别名”节点的name属性值进行条件查询可得到三个别名节点(图中标记为黄色),这三个别名节点通过类型为hasAlias的入边又可以查到若干POI节点,这些POI节点便是该文本召回的候选实体。

图6 文本为“武汉 江西 东湖”时的候选实体子图

我们在候选实体生成阶段并未采用向量检索方案,因为实体提及一般是非常短的字符串,基于相似度的检索不确定性高,难以保证召回结果的可靠性,维护高质量的别名词表更适合当下场景。

候选实体生成模块还包括基于路径的预过滤逻辑。以图6为例,检测到不同实体提及召回的候选实体之间可能存在路径联系,如“武汉市”到“东湖”、“江西省”到“芦林湖”,那么与路径中节点有相同别名但又不在路径上的POI节点,比如绍兴东湖,则不会作为候选实体返回。实践中为了避免路径假定过强而误丢一些重要的节点,会施加一些约束条件,这些方法多与规则相关,不再赘述。

5.3 候选实体消歧

该模块用于对候选实体计算排序得分,我们使用基于BERT的交互式语义匹配模型。

首先拼接query字符串与候选实体的描述文本,经分词和数值化处理后,输入到BERT提取高阶交互特征。

在BERT输出层选择输入序列中[CLS]位置上的特征向量hCLS与该候选实体在query中的实体提及片段的首、尾位置token对应的特征向量hhead、htail进行拼接,通过一个仿射变换,使用sigmoid激活函数获得该候选实体为链接对象的概率值:

其中,w和b为线性层参数。

图7 实体消歧模型结构

模型训练阶段的损失函数为二分类交叉熵损失。

这里y为候选实体的0-1真实标签。

推理阶段,为query召回的各候选实体计算概率得分并按从高到低排序,根据预设阈值截断候选实体序列,得到链接结果。

六、实践场景

6.1 携程旅游搜索

携程旅游搜索词义解析服务通过后端配置词典进行分词及词性标注,返回所有匹配到的POI词项,对重名POI不具备拒识或排序功能,常常会引入与query无关的搜索结果。

在接入实体链接系统后,能够结合上下文信息对重名POI消歧,即便遇到上下文缺失的情况,也可以利用出发站城市辅助候选实体排序。

Case1 搜索词为“武汉东湖”,接口原先返回“武汉市”和所有名为“东湖”的景点,调用实体链接服务,返回结果中只有位于“武汉市”的东湖景区(id:1xxx6)。

Case2 搜索词为“深圳迪士尼”,接口原先返回“深圳市”和所有迪士尼度假区。尽管深圳市下面确实没有迪士乐园,但常识会让人联想到用户实际意图可能是位于香港的迪士尼乐园(id:1xxx9),这正好是经实体链接后的返回结果。

Case3 搜索词为“白云山”,出发站设置为东莞市,接口原先返回所有名为“白云山”的景点,且不存在排序,无法推断用户对各POI感兴趣的程度。调用实体链接服务后,返回结果中广州市的白云山(id:7xxx4)被排在top1位置,说明实体消歧阶段系统捕获到了“广州白云山”与定位站“东莞市”之间的关联。

6.2 携程旅游智能客服

在人机对话系统中,语义槽填充通常与意图识别联合进行,以确定追问话术、歧义澄清话术,或完成对用户自然语言的理解,从知识库中搜索并返回答案。

例如,用户询问“从上海到成都的航班”,其意图为“查询航班”,但仅对用户意图分类还不足以给出准确回答,因为缺失了两个关键信息:航班的出发站和到达站,这便是与“查询航班”相关的语义槽,只有完成意图识别和语义槽填充,才具备搜索答案的条件。这里出发站和到达站分别指上海和成都,正好是旅游知识图谱中的两个POI,借助实体链接可以很方便地找到这两个POI的id信息。

携程旅游智能客服在引入实体链接服务后,词槽抽取F1 Score较原先提升了超过12个百分点,反映了实体链接在客服场景下的巨大潜能。

6.3 携程POI关键信息更新

门票相关部门需要保证一些POI关键信息频繁更新的准确性,如景区开闭园时间,这对于产品销售及用户体验有至关重要的意义。

开闭园信息更新的主要依据为每日从景区官方渠道获取的公告和资讯,通过解析这些文章内容提取POI名称及对应的开放或关闭时间。在疫情反复的当下,该信息面临更加频繁的变动,因此对准确性和时效性提出较高要求。

原始文本解析完成写入数据库时会挂靠到发布资讯的景点下,但这个信息不一定正确,实际中存在很多从文本抽取景点与发布资讯景点不一致的情况,比如某景区发文公告的是下级某个子景点闭园,这时需要通过实体链接将抽取的景点名映射到知识图谱中的实体从而获取真正的POI id,此功能可以提高信息的准确性,同时进行POI消歧。

景区开闭园抽取项目在引入实体链接后,准确率提升近六个百分点,极大改善了原抽取流程的效果。

6.4 携程重复POI和上下级POI关系识别

门票活动相关部门维护的POI数据来源十分复杂,包括内部和官方等多个平台。POI数据批量导入时未全部识别出重复的POI以及POI之间的上下级关系,会导致系统内存在较多重复的POI,产生分流;或者导致系统内存在游离在外的POI,导致展示不全,用户无法全面了解景区情况。因此需要及时获取这些信息并修复,以提升信息覆盖全面性,提升平台的信息可靠性。

POI的地址或介绍中可能隐含了该POI的父级节点。例如,地址为“xxx路xxx号xxx景区内”的POI,其上级节点可能是某个景区,如果使用实体链接技术能获取到该景区的id,并且这两个POI在当前图谱中不存在上下级关系,则可以作为一个重要特征加入关系识别系统中。该项目自上线起,上下级关系识别的平均正确率达到90%以上,已累计改善了近千条POI信息的准确性。

七、总结与展望

本文主要介绍了旅游AI知识图谱组在实体链接技术上的探索和实践,阐述了实体链接的基本定义、相关技术发展路线和应用价值,并结合各子模块详细说明了基于旅游知识图谱的实体链接系统的架构和流程,最后介绍了实体链接系统的落地场景。

未来我们将紧跟前沿技术发展,促使知识图谱同实体召回、精排任务更紧密地结合,充分运用图的结构提升现有模型的效果和可解释性,探索更加高效、轻量化的模型,同时也会兼顾技术落地,今后赋能更多的旅游场景。

【推荐阅读】

 “携程技术”公众号

  分享,交流,成长

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 携程技术中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
中文短文本的实体识别实体链接,第一名解决方案
面向中文短文本的实体识别与链指,简称ERL(Entity Recognition and Linking),是NLP领域的基础任务之一,即对于给定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标题等)识别出其中的实体,并与给定知识库中的对应实体进行关联。ERL整个过程包括实体识别和实体链指两个子任务。
机器学习AI算法工程
2019/10/28
4.4K0
中文短文本的实体识别实体链接,第一名解决方案
干货 | 上百个业务场景,语义匹配技术在携程智能客服中的应用
随着AI技术在各个领域的广泛应用,人机交互技术愈发成熟。包括电商、银行、电信等在内的很多领域开始建设智能客服的交互能力,为客人提供智能化自助服务,同时为客服人员的工作提供智能辅助。携程集团依靠强大的客服团队为国内外旅行者的出行提供了优质的服务保障,持续提升智能客服的交互能力,提高客服人员的生产效率显得尤为重要。
携程技术
2021/12/31
1.3K0
干货 | 上百个业务场景,语义匹配技术在携程智能客服中的应用
干货 | 携程AI助力产品内容化实践
孙哲,携程资深算法工程师。长期从事自然语言相关工作,当前主要涉及内容化,对于内容挖掘和生成方面有相关的一些研究和探索。
携程技术
2020/02/18
9200
干货 | 携程AI助力产品内容化实践
干货 | 挖掘旅游热点吸引年轻人,携程自动热点投放系统的背后玩法
携程AI内容化团队,负责携程内容产品的NLP,NLG支持,产品包括热点自动投放平台,点评分析服务,产品特色标签和推荐理由抽取,命名实体识别与链接,机器翻译等。
携程技术
2021/08/13
1K0
知识图谱在小米的应用与探索
导读:小米知识图谱于2017年创立,已支持公司了每天亿级的访问,已赋能小爱同学,小米有品、智能问答、用户画像、虚拟助手、智能客服等互联网产品。通过引入知识图谱,这些产品在内容理解、用户理解、实体推荐等方面都有了显著的效果提升。本文的主要内容包括:
zenRRan
2020/11/19
1.9K0
知识图谱在小米的应用与探索
他山之石 | 微信搜一搜中的智能问答技术
搜索引擎是人们获取信息的重要途径,其中包含了很多问答型的query。但传统的搜索只能返回TopK的网页,需要用户自己从网页中分析甄别答案,体验较差。原因是传统搜索引擎只是对query和doc做“匹配”,并不是真正细粒度地理解query。智能问答正好可以弥补这个局限,它的优势在于能够更好地分析query,直接返回精准、可靠的答案。
NewBeeNLP
2022/11/11
9950
他山之石 | 微信搜一搜中的智能问答技术
美团知识图谱问答技术实践与探索
知识图谱问答(Knowledge-based Question Answering, KBQA)是指给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。美团在平台服务的售前、售中、售后全链路的多个场景中都存在大量的咨询问题。我们基于问答系统,以自动智能回复或推荐回复的方式,来帮助商家提升回答用户问题的效率,同时更快地解决用户问题。
美团技术团队
2021/11/17
2.3K1
达观文辉:知识图谱构建下的自动问答KBQA系统实战
问答系统(Qusstion Answering System,QA System)在大家的日常生活中随处可见,2014年微软率先推出了小冰智能聊天机器人,直至现在越来越多如siri移动生活助手和智能音箱等的面市,问答作为一种信息获取方式愈发受到大众和厂商的关注和投入。问答系统能够接受用户以自然语言形式描述的提问,并从大量的异构数据中查到或者推理出用户想要的答案。相比传统的信息检索系统,问答系统场景的核心在于用户的信息需求相对比较明确,而系统直接输出用户想要的答案,这个答案的形式可能是文档、结构化的表格或者推理加工的自然语言文本。
用户10103085
2022/11/09
1.4K0
达观文辉:知识图谱构建下的自动问答KBQA系统实战
全国知识图谱与语义计算大会 - 实体发现与链接比赛总结
一 背景 互联网大数据时代中,随着机器语义理解需求的日益增长,知识图谱,即各类实体、概念及其之间的语义关系,日益成为大数据时代知识表示的主要形态之一,并在学术界、产业界中掀起一股股浪潮。 2016年9月19-22日,全国知识图谱与语义计算大会(简称CCKS)在北京召开。来自全国学术界、产业界从事知识图谱相关研究的400多人参加,探讨了知识图谱领域的新发现、新技术和新应用,旨在向社会公众介绍知识图谱相关领域的发展趋势和创新成果,进一步推动知识图谱技术领域的发展。本届CCKS会议主题为:语义、知识与链接大数
TEG云端专业号
2018/03/13
2.3K0
全国知识图谱与语义计算大会 - 实体发现与链接比赛总结
携程的旅游知识图谱构建和应用
本文首先介绍了什么是旅游知识图谱,然后就旅游知识图谱的架构,构建,应用和未来几个方面展开讨论。
数据猿
2019/11/20
2.3K0
携程的旅游知识图谱构建和应用
多因子融合的实体识别与链指消歧
本文为上汽集团人工智能实验室祝凯华,戴安南,范雪丽的相关工作。本文的研究对象是“面向中文短文本的实体链指任务”,该任务拥有9万条语句用于做实体识别和实体消歧。这篇文章成绩排名前列,相应论文已被CCKS 2019收录。
AI科技评论
2019/08/21
2.9K1
多因子融合的实体识别与链指消歧
小布助手在百度飞桨实体链指比赛中的实践应用
实体链指是指对于给定的一个文本(如搜索Query、微博、对话内容、文章、视频、图片的标题等),将其中的实体与给定知识库中对应的实体进行关联。实体链指一般有两种任务设计方式:Pipeline式和端到端式。
用户1386409
2021/04/20
9080
OPPO 自研大规模知识图谱及其在数智工程中的应用
本文主要分享 OPPO 知识图谱建设过程中算法相关的技术挑战和对应的解决方案,主要包括实体分类、实体对齐、信息抽取、实体链接和图谱问答 query 解析等相关算法内容。
NebulaGraph
2022/07/26
8900
OPPO 自研大规模知识图谱及其在数智工程中的应用
使用知识图谱嵌入进行实体链接
在信息爆炸的时代,如何从大量文本中准确提取和识别实体成为了一个重要的研究课题。实体链接(Entity Linking, EL)作为信息抽取的一部分,旨在将文本中的提及(mention)与知识图谱中的实体(entity)相匹配。通过将文本中的实体与知识图谱中的定义关联,可以有效提升信息检索、问答系统及推荐系统的性能。
数字扫地僧
2024/09/23
3840
使用知识图谱嵌入进行实体链接
美团搜索中NER技术的探索与实践
命名实体识别NER是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。
美团技术团队
2020/07/27
2.3K2
美团搜索中NER技术的探索与实践
基于LEBERT的多模态领域知识图谱构建
摘要:多模态知识图谱(multi-modal knowledge graph,MMKG)是近几年新兴的人工智能领域研究热点。本文提供了一种多模态领域知识图谱的构建方法,以解决计算机学科领域知识体系庞大分散的问题。首先,通过爬取计算机学科的相关多模态数据,构建了一个系统化的多模态知识图谱。但构建多模态知识图谱需要耗费大量的人力物力,本文训练了基于LEBERT模型和关系抽取规则的实体-关系联合抽取模型,最终实现了一个能够自动抽取关系三元组的多模态计算机学科领域知识图谱。
一点人工一点智能
2022/12/27
4.4K0
基于LEBERT的多模态领域知识图谱构建
千言实体链指赛事登顶,冠军团队经验独家分享
大数据时代,信息爆炸性增长,直接导致了信息过载。那么在无用的信息之中找到有用的信息,就少不了智能的信息理技术帮忙。比如,作为人工智能领域处理大规模文本数据的核心技术的自然语言处理(NLP),它在信息检索、智能问答、智能推荐等众多领域扮演着重要的角色,实体链指(Entity Linking,EL)则是其中最热门的研究课题之一。本次百度举办的“千言数据集:面向中文短文本的实体链指任务”,数据来源于真实的搜索 query、微博、对话内容、文章/视频/图片的标题等,旨在将实体链指技术实践于更多的现实场景。
用户1386409
2021/04/20
1.1K0
千言实体链指赛事登顶,冠军团队经验独家分享
广告行业中那些趣事系列32:美团搜索NER技术实践学习笔记
摘要:本篇主要是学习美团技术团队分享的《美团搜索中NER技术的探索与实践》学习笔记。首先介绍了背景,包括NER任务定义、美团搜索场景下的NER以及美团搜索NER任务面临的挑战;然后重点介绍了美团基于实体词典匹配+模型在线预测框架。通过实体词典匹配可以解决头部搜索NER匹配问题,而长尾复杂的搜索则通过模型在线预测解决。对于想了解美团搜索NER技术实践的小伙伴可能有所帮助。
数据拾光者
2022/05/05
8120
广告行业中那些趣事系列32:美团搜索NER技术实践学习笔记
干货 | 响应速度与智能化如何平衡,携程酒店搜索实践
随着线上旅游业务的不断发展,携程酒店的数据量不断增加,用户对于搜索功能的要求也在不断提高。携程酒店搜索系统是一个基于Lucene开发的类似Solar的搜索引擎系统,本文将从四个部分描述对搜索引擎的优化。
携程技术
2020/08/26
7310
干货 | 响应速度与智能化如何平衡,携程酒店搜索实践
知识图谱问答领域综述
知识图谱(KG)源自于1960年提出的语义网络,有着源自于NLP、Web、AI等方面的基因,它通过结合数学与信息科学等学科理论与方法,以可视化形式描述其资源与载体,应用于问答、推荐等领域,其概念演化如图1所示。
一点人工一点智能
2022/12/27
1.4K0
知识图谱问答领域综述
推荐阅读
相关推荐
中文短文本的实体识别实体链接,第一名解决方案
更多 >
LV.1
携程工程师
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档