y (每个序列的每个观察的标签),其中包含一个热向量。然而,这并不是必须的!由于可能的单热向量的数量仅为size_of_vocabulary,因此y可能只是一个num_of_training_sequences大小的数组,其中包含对预先分配的单热向量的引用(也称为指针)。这样,如果两个序列以相同的单词结束,并且应该具有相同的热向量,那么它们将只引用该热向量在内存中的相同地址。
每个
我注意到了在使用scikit学习在输入维为24700 x 11200的数据集上训练svm分类器时非常奇怪的行为。一旦分割成训练/测试集,训练数据部分有>18500个样本。首先,我加载一个CSV数据,其中每一行是一个句子,有24700行(样本)。然后,我调用一系列NLP进程来处理这些行,以提取特征(如n-gram、pos标记),并将原始数据转换为一个24700×m<e