我对做一个关于文档分类的项目很感兴趣,并且一直在寻找对文本挖掘中与此相关的理论部分有用的书籍,或者描述从具有分类的文档(带子类别)的训练数据到预测文档类别的系统的过程的文章示例。似乎有一些(相当贵!)标题可用,但这些是会议记录与较小的非常具体的主题的文章。有人能推荐数据挖掘文献中的书籍,为文本挖掘项目提供良好的理论基础,特别是文档分类或概述这一过程的文章吗?
发布于 2011-03-09 14:33:19
克里斯托弗·D·曼宁、普拉巴卡·拉加万和欣里希·舒策拥有free information retrieval book。试试chapter 13 - Text classification & Naive Bayes。
另请参阅曼宁和舒茨的nlp book,特别是links for the text categorization chapter的配套网站。
Fabrizio Sebastiani撰写了a useful tutorial about text categorization(PDF)和review paper of machine learning for text categorization (PDF)。
https://stackoverflow.com/questions/5245437
复制