我正在编写一个用户应用程序,将用户的输入作为当前打开的维基百科页面。我编写了一段代码,将其作为模块的输入,并使用webscraping和自然语言处理生成与该特定文章相关的关键字列表。
我想扩展应用程序的功能,除了我已经确定的关键字之外,还提供了一组与相关的主题(),用户可能会感兴趣。维基百科提供的任何API能起到这个作用吗?如果没有,谁能告诉我我应该研究什么(以防我不得不从头开始编写代码)。此外,我将欣赏任何识别任何算法的指针,这些算法将训练机器识别主题地图。我是,不是在寻找任何文件,而是一个基本的实际实现。
所以总结一下,
ps。请具体一点,因为我已经研究过许多显而易见的可能性,谢谢。
发布于 2012-03-18 10:24:16
如果你想的话,你可以刮分类。如果您正在使用python,您可以直接从它们的API中读取wikitext,并使用mwlib解析文章并找到链接。
一个更有趣但更难实现的方法是创建一组相关术语,并给出从一篇文章中提取的术语列表,找到与它们最接近的术语。
发布于 2014-12-18 14:59:13
“也见”是维基百科网页中经常出现的一节。它的结构如下所示,来自[文章(出版)]:
==See also==
* [[Article directory]]
* [[Electronic article]]
然后,您应该解析wikicode (您可以通过转储或Mediawiki来解析wikicode,正如前面的答案所暗示的那样),并使用前面提到的文章。
另一种方法是直接使用维基百科的分类,这方面有API。。
https://stackoverflow.com/questions/9760636
复制