当涉及到信息提取时,我是一个新手。在过去的几天里,我阅读了大量的学术论文,并订购了一本关于NLP的书。我想弄清楚如何构建一个类似FlipDog.com的系统(希望不是从头开始)。他们从60,000多个公司网站中提取职位空缺。我该如何开始?
我对学习任何编程语言都持开放态度。有没有人用过锤子/GATE/MinorThird或RoadRunner?理想情况下,我希望能够使用特定于我的领域的数据集训练系统,并让它基于该数据集提取信息。为此,您建议使用哪种平台?
谢谢!
发布于 2010-10-04 02:06:11
提取招聘信息的更快方法是使用dapper.net (网站上的一种web scraping服务)。您可以很容易地教dapper使用可视化编辑器提取数据。当你的目标网站上有表格时,它工作得很好。
为了学习信息提取,我建议从lingpipe开始。它是一个用于信息提取的java框架,因此您不需要学习该框架的体系结构特定功能,例如Gate或Apache UIMA。在lingpipe网站上,你会找到许多教程,这些教程将帮助你学习各种信息提取方法。之后,我建议学习Gate和UIMA。
如果您想实现这样一个网站,您还需要学习如何使用web爬虫框架(如nutch)、web搜索引擎(yahoo, google, bing)和信息检索引擎(如apache lucene)在提取的数据之上提供搜索服务。
更新:
对于python,最好从http://www.nltk.org/开始:
https://stackoverflow.com/questions/3808780
复制相似问题