首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >使用Wikipedia的NLP (java编程)

使用Wikipedia的NLP (java编程)
EN

Stack Overflow用户
提问于 2011-12-01 16:07:34
回答 1查看 697关注 0票数 2

寻求帮助以便做出明确的决定。几个月以来,我一直在寻找一个Java,它可以帮助我访问Wikipedia并获取文章的内容。我的项目是构建给定域概念的分类。详细信息:

  1. 我有一个领域文本的语料库,我提取第一组术语(代表领域)。
  2. 我在维基百科上搜索这些词的文章,以提取它们的定义。这个词的定义帮助我找到这个词的同义词。对Wikipedia的调用肯定会在java循环中完成。
  3. 我搜索前一步中发现的同义词的定义,以找到它们的同义词,等等。
  4. 我画了一个图表,把这些词和它们的同义词联系起来。

我的问题是,对于第二步,我不能作出明确的决定。

  1. 我编写了Java代码来在线访问维基百科。它成功了,但是我连接的速度决定了执行是成功还是失败,给出了一组异常。有时,执行只给我2到3篇文章。
  2. 我试着用JWPL来处理维基百科的转储。我失败是因为我没有足够的内存。
  3. 我现在在一组Java之间犹豫不决。

如果你已经在这个意义上做了什么,请给我你的观点。我进行了认真的调查,发现了以下链接:

  1. http://wdm.cs.waikato.ac.nz:8080/wiki/Wiki.jsp?page=Installing%20the%20Java%20API
  2. http://jwikiapi.sourceforge.net/index.html
  3. http://code.google.com/p/gwtwiki/
  4. 页面
  5. http://jwbf.sourceforge.net/

如有任何建议,我将不胜感激。

EN

回答 1

Stack Overflow用户

发布于 2011-12-05 21:17:55

我在做硕士论文的时候也做了类似的事情。我没有方便的代码,但我想我编写了一个独立的python库(使用python请求)来获取维基百科页面。

我记得偶尔也会有例外。我的解决方案是派生一个线程来执行获取,如果该线程不活动,则使用当前术语重新启动提取进程。连接速度不重要,维基百科页面并不大。我觉得维基百科的API没有多大帮助。编写一个python或ruby脚本来抓取维基百科是很简单的事情。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8350155

复制
相关文章

相似问题

领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文