我试图找出文章之间的共同主题,使用附加到每一篇文章的相应标记来阅读。
我的迷你项目的背景:我想要解决的问题是看一群搜索同一个关键词的读者阅读的文章,以便更好地了解他们感兴趣的内容的性质。
正如我所理解的,主题模型通常用于主题提取。考虑到我已经有了一个包含文章标记(“主题”)的数据集,我想知道这是否适合我的问题。还是一个简单的概率模型更合适?
简单概率模型的说明:
关键词搜索:“生活方式”
用户1阅读的文章:时尚、健康、有机食品、清洁饮食
用户阅读的文章:健身
用户3阅读的文章:食谱,饮食计划,清洁饮食
结果:清洁饮食占25%,饮食计划占12.5%。
对不起,我希望我的解释没有混淆!
发布于 2016-08-02 05:20:07
我能想到多种方法。
https://datascience.stackexchange.com/questions/13114
复制相似问题