首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何开始信息提取?

如何开始信息提取?
EN

Stack Overflow用户
提问于 2010-09-28 08:07:19
回答 1查看 2.7K关注 0票数 3

当涉及到信息提取时,我是一个新手。在过去的几天里,我阅读了大量的学术论文,并订购了一本关于NLP的书。我想弄清楚如何构建一个类似FlipDog.com的系统(希望不是从头开始)。他们从60,000多个公司网站中提取职位空缺。我该如何开始?

我对学习任何编程语言都持开放态度。有没有人用过锤子/GATE/MinorThird或RoadRunner?理想情况下,我希望能够使用特定于我的领域的数据集训练系统,并让它基于该数据集提取信息。为此,您建议使用哪种平台?

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2010-10-04 02:06:11

提取招聘信息的更快方法是使用dapper.net (网站上的一种web scraping服务)。您可以很容易地教dapper使用可视化编辑器提取数据。当你的目标网站上有表格时,它工作得很好。

为了学习信息提取,我建议从lingpipe开始。它是一个用于信息提取的java框架,因此您不需要学习该框架的体系结构特定功能,例如Gate或Apache UIMA。在lingpipe网站上,你会找到许多教程,这些教程将帮助你学习各种信息提取方法。之后,我建议学习Gate和UIMA。

如果您想实现这样一个网站,您还需要学习如何使用web爬虫框架(如nutch)、web搜索引擎(yahoo, google, bing)和信息检索引擎(如apache lucene)在提取的数据之上提供搜索服务。

更新:

对于python,最好从http://www.nltk.org/开始:

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3808780

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档