在使用主题建模和考虑LDA & LSA方法时,我遇到了一个问题,然而,我发现有些主题并没有像我喜欢的那样被精确地定义。是否有可能将单词定义为主题,以帮助机器更好更容易地学习?如果没有,我可以用什么方法来解决这个问题呢?
如前所述,我尝试了LDA和LSA技术来进行主题建模,发现LDA是最准确的,其一致性评分为0.46,并重新定义了主题名称。但是,主题中的单词并不反映主题名称,这需要对模型进行调优。
我已经研究过其他的NLP解决方案,如关键字提取和命名实体关系(NER),但不认为它们适合我的问题。
如果可能的话,我希望有两个级别的分类,其中第1级是概述,第2级是在更详细的。下面的示例是一个粗略总结的客户反馈示例:
1级
2级
理想情况下,这是我希望主题建模输出产生的格式,但不确定这是否可行?
实际上,对案文的加权进行工作是可行的。示例:
“公司提供的优秀培训”--可分为培训(1级)和决心良好(2级)。这里学到的单词是很棒的,因为它们在分类方面比其他单词更重要。
如有需要,乐意提供进一步资料。
发布于 2022-04-04 08:49:38
发布于 2022-05-13 13:00:03
似乎不可能得到多个层次来回答我的问题,但是有一种方法是通过运行两次主题建模方法来获得两个不同的级别。但是,这就需要对主题输出的定义以及您在每个主题中要定义的内容有更多的了解。
经过广泛研究后,我发现有用的技术方法是CorEx -主题。
它允许您自行定义主题的数量,更重要的是,您可以在每个主题中定义您想要的单词。我发现这回答了我的问题,以一种更有监督的方法。
https://stackoverflow.com/questions/71691917
复制相似问题