2021年5月29日至5月30日,“2021ACL-IJCAI-SIGIR顶级会议论文报告会”在北京顺利召开。本次活动由中国中文信息学会青年工作委员会(以下简称青工委)和腾讯高校合作联合主办。青工委执行委员、哈工大社会计算与信息检索研究中心张伟男副教授主要负责组织。
ACL、IJCAI和SIGIR是自然语言处理、人工智能和信息检索领域的三大顶级国际学术会议。AIS顶级会议论文报告会自2017年起已连续举办五届,会议是由中国中文信息学会青年工作委员会主办的系列学术活动,该活动邀请被三大顶级国际会议录用的文章作者进行报告交流,将三大会议的精彩内容融为一体,为国内学者和研究人员提供更快速、更便捷的学习交流机会。
本次预讲会公开征集到131位讲者的139篇论文,本次会议的论文数量之多、范围之广均达到历届之最。为了促进学者间更加高效地交流,经青工委全体执委讨论决定,本次预讲会采用Spotlight+Poster的方式,兼顾论文分享的深度和交流沟通的广度。三分钟的亮点展示,让每一位讲者都有讲述论文亮点的机会;Poster讨论环节又让每一位学者听众,都拥有充足的时间与机会,与感兴趣论文的作者提问交流,充分讨论。
大会开幕式上,青工委主任、清华大学刘知远副教授进行了致辞并介绍了青工委的发展和活动情况;青工委执行委员、哈尔滨工业大学张伟男副教授代表大会组织委员会介绍了大会的基本情况,并对各位特邀嘉宾、讲者及参会听众的到来表达感谢。随后,特邀嘉宾哈尔滨工业大学车万翔教授,清华大学贾珈教授,中科院计算所兰艳艳研究员分别介绍了ACL2021、IJCAI2021和SIGIR2021的前沿研究趋势和会议发展情况。清华大学黄民烈副教授向参会的各位学者作了故事理解与生成方向的学术报告。
刘知远副教授致辞
张伟男副教授代表组委会讲话
车万翔教授作报告
兰艳艳研究员作报告
贾珈教授学生代作报告
黄民烈副教授作报告
通过会议前期组委会及志愿者们的共同努力,139篇论文被逐一按内容分类,分成8个不同研究领域Session,囊括信息检索、情感分析、知识和推理、对话和生成、自然语言生成、机器翻译、推荐系统、语言模型和跨语言等八个方向。会议共邀请到10位青工委执委的领域专家担任Session chair。
在开幕式结束后,每个Session分为两个部分进行,第一部分由每位讲者进行3分钟的论文亮点阐述,第二部分为各个讲者论文的Poster展示。通过此种形式,听众与讲者之间有了更高效的沟通交流,达到了很好的学习交流效果。
大会现场
Spotlight讲者风采
Spotlight讲者风采
Poster展示环节
本次AIS2021论文报告会圆满结束!感谢所有的嘉宾、主持人和论文讲者及所有的参会学者;同时感谢组委会及所有的会议志愿者,对本次学术会议的成功举办所做的大量筹备、保障工作;感谢合作伙伴腾讯高校合作对AIS的支持。期待今后更多的学术交流活动,期待每一位优秀学者的参与!
组织者及志愿者合影
以下为腾讯参与分享的论文内容:
论文题目:PLOME:Pretraining with Misspelled Knowledge for Chinese Spelling Correction
论文作者:Shulin Liu, Tao Yang, Tianchi Yue, Feng ZHang, Di Wang
报告者:AI平台部NLP技术中心刘树林
论文摘要:中文纠错任务是从文本中识别并纠正错别字。中文纠错本质上是一个语言学的问题,因此语言的理解能力对解决这一任务非常重要。在这篇论文中,我们提出了一种融合纠错知识的预训练掩码语言模型(称为PLOME),联合学习如何理解语言和纠错。为了实现这一目标,我们提出了一种基于混淆集的掩码替换策略,每次从混淆集中随机选择字符替换被选中的token,而不是像BERT那样用固定的“[MASK]”进行替换。另外,汉字之间发音和字形的相似度对中文纠错非常重要,为了更好地建模这一特征,PLOME还引入了两个GRU子网络学习汉字发音和字形的表示向量。此外,现有纠错模型都是在学习汉字之间的拼写错误关系,我们首次提出同时从汉字和发音的维度建模该任务,模型需要同时预测正确的汉字和发音,综合考虑二者结果做出最终的决策。在公开数据集SIGHAN13~15上的实验表明,我们的模型识别效果大幅领先所有已有方法,证明了PLOME的有效性。
论文题目:UniKeyphrase: A Unified Extraction and Generation Framework for Keyphrase Prediction
论文作者:Huanqin Wu, Wei Liu, Lei Li, Dan Nie, Tao Chen, Feng Zhang and Di Wang
报告者:AI平台部NLP技术中心吴焕钦
论文摘要:关键短语预测(KP)任务旨在预测可以概括给定文档主题的若干个关键短语。主流KP方法可分为纯粹的生成方法和具有抽取和生成功能的集成模型。但是,这些方法要么忽略了关键短语之间的差异,要么仅隐式地弱捕获了抽取与生成任务间的关系。在本文中,我们提出了UniKeyphrase,这是联合抽取与生成的端到端的方法,可以同时学习抽取和生成关键短语。在UniKeyphrase中,我们从模型结构和训练过程的角度出发,提出了堆叠关系层和词袋约束来充分利用抽取和生成任务之间的潜在语义关系。在KP任务的标准数据集上表面,我们的联合方法要优于主流的KP方法。
论文题目:Concept-based Label Embedding via Dynamic Routing for Hierarchical Text Classification
论文作者:Xuepeng Wang, Li Zhao, Bing Liu, Tao Chen, Feng Zhang and Di Wang
报告者:AI平台部NLP技术中心王雪鹏
论文摘要:分层文本分类(HTC)是一项具有挑战性的任务,它将文本分类在一个层次类别体系中。现有的方法大多侧重于对文本进行建模。最近,研究人员开始尝试用一些资源(例如外部词典)来建模类别标签的表示。然而,类别之间共享的概念,这种领域特异性的细粒度信息,在以前的工作中被忽略了。本文提出了一种基于概念的标签嵌入方法,该方法可以显式地表示概念,并对类间概念共享机制进行建模。在两个广泛使用的公开数据集上的实验结果证明,该模型优于若干种最新(SOTA)方法。
论文题目:Unsupervised Knowledge Graph Alignment by Probabilistic Reasoning and Semantic Embedding
论文作者:ZhiyuanQi ZihengZhang JiaoyanChen XiChen YuejiaXiang NingyuZhang YefengZheng
报告者:CSIG天衍实验室部张子恒
论文摘要:现有的知识图谱对齐方法大体上可以分为基于推理的传统方法和基于神经网络的方法,两者有各自的优势但又存在着各自的问题:基于推理的传统方法无法有效利用知识图谱的图结构信息,而基于神经网络的方法无法利用适当的推理来减少错误对齐。因此,我们提出了一种迭代框架(PRASE),将两种方法有效地融合,来达成相互增强的目的。我们的PRASE框架可以兼容传统方法PARIS和多种神经网络方法。在多个公开数据集和一个工业数据集(医疗知识图谱)上均表现出了PRASE的SOTA性能。
论文题目:Correlation-Guided Representation for Multi-Label Text Classification
论文作者:Qian-Wen Zhang; Ximing Zhang; Zhao Yan; Ruifang Liu; Yunbo Cao; Min-Ling Zhang
报告者:CSIG智平腾讯云小微张倩汶
论文摘要:我们将多标签文本分类任务视为一个关系导向的文本表示问题,提出一种基于两段式注意力的模型CORE。该模型在同一空间中联合学习文本和标签的语义信息,全局捕获文本、标签、以及文本与标签之间的相关性。首先,我们在基础编码阶段利用多层Transformer学习文本和标签的Token级表示。其次,通过文本-标签相关矩阵构造注意力向量以生成最终的文本表示。注意力向量可以确保文本中与标签相关的词比不相关词获得更高的权重。实验表明,我们在基准多标签数据集AAPD与RCV1-V2拥有更好性能,并且在低频标签预测和模型收敛速度方面具有较强的竞争力。
论文题目:OntoEA: Ontology-guided Entity Alignment via Joint Knowledge Graph Embedding
论文作者:YuejiaXiang ZihengZhang JiaoyanChen XiChen ZhenxiLin YefengZheng
报告者:PCG内容平台部向玥佳
论文摘要:知识图谱表示学习常常用在知识图谱对齐任务上,但是目前的表示学习模型通常只会建模图结构信息、实体名称信息、实体属性信息,而没有考虑知识图谱的本体信息。本体定义了知识图谱的元信息以及实体的类别信息,在知识图谱及其应用中有重要作用。在这篇工作中,我们提出了一种基于本体指导的知识图谱对齐模型(OntoEA),将知识图谱和本体层级信息共同进行建模,来发现并避免错误实体对齐中的类别冲突(class conflict)。我们提出的OntoEA模型在多个公开数据集和一个工业数据集(医疗知识图谱)上均超过了现有的知识图谱对齐模型,这也证明了引入本体信息的有效性。
论文题目:PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction
论文作者:Hengyi Zheng, rui wen, Xi Chen, Yifan Yang, Yunyan Zhang, Ziheng Zhang, Ningyu Zhang, Bin Qin, Xu Ming and Yefeng Zheng
报告者:PCG内容平台部陈曦
论文摘要:本文从一个新的角度来处理关系三元组提取任务,将该任务分解为三个子任务:关系判断、实体提取和主语-宾语对齐。我们提出了一个新颖的端到端框架,针对子任务设计了三个组件,从而大大缓解了关系判断易发生冗余的问题、基于跨度的提取方案的通用性差的问题和主语-宾语的齐效率低的问题。我们在几个公认的基准数据上进行了广泛的实验,结果表明我们的方法达到了最先进的性能,特别是在处理重叠的三元组的复杂场景时效果提升尤其显著。实验表明我们的方法除了有更高的准确性外,在复杂性、参数数量、浮点运算和推理时间方面与以前的工作相比都具有明显的优势。