One-hot表示法的一个例子如下:
句子1:我 爱 北 京 天 安 门
句子2:我 喜 欢 上 海
首先对句子中的所有字进行索引
{'我': 1, '爱': 2, '北': 3, '京': 4, '...例如对于:
句子1:我 爱 北 京 天 安 门
句子2:我 喜 欢 上 海
直接统计每个字出现的次数,并进行赋值:
句子1:我 爱 北 京 天 安 门
转换为 [1, 1, 1, 1, 1, 1, 1...如果N取值为2,则句子1和句子2就变为:
句子1:我爱 爱北 北京 京天 天安 安门
句子2:我喜 喜欢 欢上 上海
2.4 TF-IDF
TF-IDF分数由两部分组成:第一部分是词语频率(Term...五、考虑其他分类模型
特征提取使用TF-IDF,与第三节中TF-IDF + RidgeClassifier的特征提取保持一致,再来看下其他几种分类算法的效果。...对比几种机器学习算法可以看出,在相同的TF-IDF特征提取方法基础上,用SVM得到的分类效果最好。