TypeError:不可哈希类型: training word2vec中的'list‘

在使用Word2Vec模型进行训练时，遇到TypeError: unhashable type: 'list'错误，通常是因为在数据预处理或模型训练过程中，传递了一个不可哈希的类型（如列表）给需要哈希类型的函数或方法。

基础概念

哈希类型：在Python中，可哈希的对象（如整数、字符串、元组）可以用作字典的键或集合的元素，因为它们具有不变性和唯一性。不可哈希的对象（如列表、字典）则不能用作这些用途。

Word2Vec：是一种用于生成词向量的神经网络模型，常用于自然语言处理任务中，以捕捉词汇之间的语义关系。

问题原因

在Word2Vec训练过程中，通常需要将文本数据转换为词索引（word indices），然后这些词索引会被用作模型的输入。如果在这个过程中传递了一个列表而不是单个的词索引或词向量，就会引发TypeError。

解决方法

确保数据预处理正确：
- 将文本数据分割成单词或词组。
- 使用词汇表将单词转换为对应的索引。

检查数据格式：
- 确保传递给Word2Vec模型的数据是单个的词索引或词向量，而不是列表。

以下是一个简单的示例代码，展示如何正确预处理文本数据并训练Word2Vec模型：

from gensim.models import Word2Vec
from gensim.utils import simple_preprocess

# 示例文本数据
documents = [
    "this is a sample sentence",
    "this is another example sentence",
    "one more sentence for good measure"
]

# 预处理文本数据
processed_docs = [simple_preprocess(doc) for doc in documents]

# 训练Word2Vec模型
model = Word2Vec(sentences=processed_docs, vector_size=100, window=5, min_count=1, workers=4)

# 检查模型是否训练成功
print(model.wv['sentence'])