3分钟
数据文件格式
- 如果要使用
CRF++,则训练文件、测试文件必须满足特定的格式:
- 文件由很多
token组成,每个token占据一行,包含固定数量的字段。 - 所有
token的字段数量相等,字段的数量没有限制,字段之间用空白分隔(空格符或者tab符)。 - 每个字段通常表示某种含义。如:第一列表示
单词、第二列表示词性、第三列表示属性...。 - 一个
sentence由多个token表述,sentence之间通过空行来区分边界。 - 训练文件中,最后一个字段必须是标记,它将作为
CRF++训练的目标。
学员评价