基于字标注法的分词
中文分词字标注通常有2-tag,4-tag和6-tag这几种方法,其中4-tag方法最为常用。标注集是依据汉字(其中也有少量的非汉字字符)在汉语词中的位置设计的。...例如词语“重庆”的标注结果是“重/B 庆/I”,而“大学生”的标注结果为“大/B 学/I 生/I”
对于以下句子
迈向 充满 希望 的 新 世纪 —— 一九九八年 新年 讲话
使用2-tag(B,...{S,B,M,E},S表示单字为词,B表示词的首字,M表示词的中间字,E表示词的结尾字。...对于以下句子
迈向 充满 希望 的 新 世纪 —— 一九九八年 新年 讲话
使用4-tag(S,B,M,E)的标注结果为
迈/B向/E 充/B满/E 希/B望/E 的/S 新/S 世/B纪/E —...图3.png
3.6-tag法
6-tag标注集合为{S,B,M1,M2,M,E},S表示单字为词,B表示词的首字,M1/M2/M表示词的中间字,E表示词的结尾字。