3分钟
数据文件格式
- 如果要使用
CRF++
,则训练文件、测试文件必须满足特定的格式:
- 文件由很多
token
组成,每个token
占据一行,包含固定数量的字段。 - 所有
token
的字段数量相等,字段的数量没有限制,字段之间用空白分隔(空格符或者tab
符)。 - 每个字段通常表示某种含义。如:第一列表示
单词
、第二列表示词性
、第三列表示属性
...。 - 一个
sentence
由多个token
表述,sentence
之间通过空行来区分边界。 - 训练文件中,最后一个字段必须是标记,它将作为
CRF++
训练的目标。
学员评价