[1] Character-based Joint Segmentation and POS Tagging for Chineseusing Bidirectional RNN-CRF
Yan Shao et al.
Uppsala University, University of Helsinki
IJCNLP 2017
http://www.aclweb.org/anthology/I17-1018
这篇论文提出一种基于字符的模型,用于中文分词和词性标注。该模型框架基于双向RNN-CRF,可以用于序列标注,这种模型可以捕捉丰富的上下文信息并且可以采集子词级别的特征。
网络结构如下
加入上下文信息的词向量拼接示例如下
该论文中还利用卷积神经网络对每个字提取拼写特征
网络中的超参数如下
数据集信息统计如下
算法效果示例如下
跟其他模型对比结果如下
耗时统计信息如下
数据集分割示例如下
单个模型跟集成模型结果对比如下
代码地址
https://github.com/yanshao9798/tagger
[2] Neural Word Segmentation Learning for Chinese
Deng Cai
Shanghai Jiao Tong University
ACL 2016
http://www.aclweb.org/anthology/P16-1039
这篇文章提出一种新颖的神经网络框架,该框架不利用上下文窗口,并且可以利用历史的完整分词。这种模型将门限组合神经网络用于字符来产生候选词的分布式表示,然后利用lstm模型来打分。
不同模型的特征窗口对比如下
该文框架如下
GCNN结构示例如下
Beam Search 伪代码如下
超参数设置如下
Beam Size对模型影响示例如下
不同模型结果对比如下
最大词长影响如下
代码地址
https://github.com/jcyk/CWS
[3] Long Short-Term Memory Neural Networksfor Chinese Word Segmentation
Xinchi Chen et al.
Fudan University
EMNLP 2015
http://www.aclweb.org/anthology/D15-1141
这篇文章将LSTM用于中文分词,这种网络能够在记忆单元中保持先前的重要信息,并且避免了局部上下文窗口大小的限制。
中文分词网络结构示例如下
LSTM记忆单元示例如下
该文中提出的四种结构如下
不同参数对比如下
超参数设置如下
不同模型结果对比如下
不同模型及参数的结果对比如下
代码地址
https://github.com/FudanNLP/CWS_LSTM
[4] Convolutional Neural Network with Word Embeddings forChinese Word Segmentation
Chunqi Wang, Bo Xu
Chinese Academy of Sciences
IJCNLP 2017
http://www.aclweb.org/anthology/I17-1017
这篇文章利用卷积神经网络来学习n-gram特征,并且不需要任何特征工程。
中文分词与序列标注的关系示例如下
CNN与GLU结合示例如下
堆叠卷积层示例如下
词特征示例如下
本文的超参数如下
各模型效果对比如下
学习曲线如下
卷积层数影响如下
预训练影响如下
bigram影响如下
预训练中无标签样本量影响如下
代码地址
https://github.com/chqiwang/convseg
[5] Deep Learning for Chinese Word Segmentation and POS Tagging
Xiaoqing Zheng et al.
Fudan University
EMNLP 2013
http://www.aclweb.org/anthology/D13-1061
这篇文章将深度学习用于中文分词和词性标注。
网络结构示例如下
训练算法如下
窗口大小对模型效果影响如下
其中SSL为sentence-level loglikelihood,PSA为perceptron-style trainingalgorithm,SEG为word segmentation,JWP为jointword segmentation and POS tagging
隐含层单元个数影响如下
超参数设置如下
各方法效果对比如下
各方法参数个数及耗时对比如下
为方便大家交流,已开通以下几个群
自然语言处理交流群
计算机视觉交流群
推荐系统交流群
广告算法交流群
自动驾驶交流群
语音识别交流群
其他推荐的群(暂未开通)
欢迎感兴趣的朋友加入,入群方式:
关注公众号之后在后台发送"入群"或"加群",小编会把您拉进相应的群,谢谢
可以通过以下方式关注
本公众号(微信号:mlanddlanddm)专注于机器学习(主要包含但不限于深度学习)相关知识分享,其中涉及自然语言处理、推荐系统以及图像处理前沿论文等,欢迎大家关注交流
您可能感兴趣
领取专属 10元无门槛券
私享最新 技术干货