腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
从
维基百科
表格
中
提取
第一
列
中
的
文本
数据
?
、
、
我一直在尝试开发一个将Wikipedia
数据
读取到JSON文件
中
的
scraper类。我需要能够读取
表格
,
从
第一
列
提取
链接,从这些链接检索信息,并使其成为JSON文件。我遇到
的
问题是,当我试图
从
表行中
提取
表
数据
时,我收到了错误消息,如NoneType has no attribute find_all。同时,同一类
的
其他函数在其他页面
中
也可以很好地
浏览 15
提问于2018-12-24
得票数 0
3
回答
有没有过滤
维基百科
表格
的
方法?
、
、
我正在寻找一种方法来过滤经常出现在
维基百科
文章
中
的
表格
,所以我只能比较我感兴趣
的
行(和
列
)。
维基百科
引擎中一个我不知道
的
内置特性按
列
值过滤多级排序
浏览 0
提问于2014-08-07
得票数 19
2
回答
从
表格
中
提取
信息三元组
、
、
、
我有一个非常大
的
HTML表
数据
集(最初是
从
Wikipedia
提取
的
)。我想从每个表中
提取
有意义
的
tripleSet (这与
从
维基百科
信息框中
提取
三元组并不矛盾,因为这相对容易得多)。对于人类来说,三元组必须是语义上有意义
的
,而不是像DBpedia那样将三元组
提取
为URI和其他格式。因此,我可以只
提取
表
文本
值。 请记住各种
表格
<e
浏览 5
提问于2012-12-31
得票数 0
回答已采纳
1
回答
获取
列
的
表单元格
中
的
文本
、
、
、
我是Scrapy
的
新手,我正在搜索像this这样
的
维基百科
网站,这些网站有几个
表格
。我
的
目标是
从
每个表
的
第一
列
中
获取所有
文本
,将每个
文本
附加到一个字符串列表
中
。 某些
文本
是链接
的
一部分。
第一
个单元格在锚点元素"Double steaming“内有一个
文本
,但也有
文本
浏览 15
提问于2021-08-18
得票数 0
回答已采纳
1
回答
维基百科
文章
的
第一
句话和Java
、
、
、
我必须找到>200个单词
的
定义。我想使用
维基百科
从
列表
中
搜索以给定单词为标题
的
文章,然后
提取
其定义
的
原始
文本
(文章
的
第一
句话)。事实上,在我
的
项目中,我有一个Jlist,它包含单词(简单
的
和合成
的
)。我想使用
维基百科
为每个单词找到一个定义(我之所以选择这个百科全书,是因为这些单词是从一个专门
的
语料库中
提取
浏览 1
提问于2011-11-23
得票数 0
3
回答
从
Google
中
的
Cell中
提取
网站标题
如何
从一个单元格中
提取
网站标题名称,然后自动将其粘贴到Google
中
的
另一个单元格
中
?google.com/jhsdgfjkhsgd在A1
中
,我需要手动输入B1 wikipara.com/therock
中
的
A2,我需要手动输入A2
中
的
浏览 0
提问于2022-07-21
得票数 0
1
回答
如何
通过wikipedia api获取特定章节
的
文本
、
、
我只想从
维基百科
页面中
提取
一个特定
的
场景:Many houses have several large rooms .....我们可以
从
如下文章
中
获得空洞
的
文本
: 但是
如何
获得特定章节
的
文本
呢?
浏览 4
提问于2019-12-27
得票数 5
回答已采纳
1
回答
从
wiki表中
提取
数据
以及
从
该表链接到JSON
的
最佳方法是什么?
、
、
、
我在web dev是个新手,对于
从
维基百科
上获取
数据
有个问题。我正在制作一个个人网络应用程序,将保持跟踪过去
的
UFC事件。我找不到有事件细节和结果
的
开源api。然而,
维基百科
上
的
以下
表格
有很多我需要
的
信息:和我已经看过几个教程,介绍
如何
从
维基
表格
中
获取信息,并使用谷歌电子
表格
或其他软件(如openrefine )将其格式化为.csv格式。但是,我
浏览 3
提问于2015-01-14
得票数 0
1
回答
coldfusion 10电子
表格
从
列
中
获取元
数据
、
我们目前正在使用cfspreadsheet来处理导入到我们应用程序
中
的
excel电子
表格
。目前,我们没有一种简单
的
方法来验证
从
数据
中导入
的
数据
类型,因为我们试图在内存中使用电子
表格
之后使用QoQ对象。 是否有一种简单
的
方法来循环查询对象以检测查询
数据
集中每一
列
的
数据
类型?excludeheaderrow="yes">
浏览 2
提问于2013-09-05
得票数 2
回答已采纳
7
回答
从
PDF文件中
提取
文本
、
、
我需要从PDF文件中
提取
文本
。该
文本
可能是
表格
格式,它将用于外部方和我们
的
系统之间
的
数据
自动传输。 我在这里发现了一些想法,但我认为这家伙更多
的
是在谈论一次性
的
情况,我说
的
更像是日常生活:
浏览 18
提问于2009-08-14
得票数 7
回答已采纳
1
回答
如何
在Rapidminer
中
遍历ExampleSets?
、
我正在尝试
从
pdf中
提取
数据
,而不需要
表格
中
的
数据
。 我使用了“读取PDF
表格
”,它将每个
表格
从
pdf
中
抽取为一个ExampleSet。因此,输出是ExampleSets
的
ioo对象集合。我尝试了不同
的
“循环”操作符从这个ioo对象集合中
提取
文本
(从上面的步骤
中
),但是操作符似乎只
提取
了i
浏览 0
提问于2019-07-08
得票数 0
1
回答
如何
将
列
标题重命名为该标头中
的
特定字符串
、
我
的
公司使用电子
表格
记录制造
数据
,但他们也使用电子
表格
给用户指示。这些指令位于
列
标题中,用于记录需要记录
的
数据
。我正试图从这个电子
表格
中
为质量工程师创建一个报告,我需要能够
从
列
中
提取
一个特定
的
字符串作为列名。幸运
的
是,我需要
的
字符串在括号内,通过降低标题和transposing,我能够在分隔符之间添加一个新
列
并
浏览 6
提问于2021-12-07
得票数 0
回答已采纳
5
回答
抓取
维基百科
表格
到熊猫
数据
框架
、
、
我需要把
维基百科
的
表格
刮到熊猫
的
数据
框架
中
,然后创建三
列
: PostalCode、Borough和居民区。下面是我使用
的
代码:website_url = requests.get('https://en.wikipedia.org/wiki/List_of_postal_codes_of_CanadaDowntown Toronto 5 Harbourfront (
浏览 3
提问于2019-02-26
得票数 5
回答已采纳
2
回答
如何
在itextSharp
中
检测表启动?
、
、
、
、
pdf文件具有
表格
格式
的
数据
,
第一
行为标题。我已经可以
从
单元格中
提取
文本
,比较
表格
中
文本
的
基线,并检测换行符,但我需要比较
表格
边框来检测
表格
的
开始。我不知道
如何
检测和比较PDF
中
的
线条。
浏览 2
提问于2013-04-02
得票数 3
回答已采纳
1
回答
从
Google
中
的
HTML
文本
中
提取
href属性
、
、
、
我有大约3000行在我
的
谷歌电子
表格
和每一行包含
数据
约一篇文章
从
我们
的
网站。在一
列
中
(例如A:A)以HTML格式存储
文本
。我需要从这个
列
中
提取
href=""属性
中
的
所有URL,然后使用它们。(它可以是数组或
文本
字符串,用昏迷或B
列
中
的
空格分隔) 我试着使用REGEXTRACT公式,但它只给了
浏览 5
提问于2017-10-11
得票数 4
回答已采纳
1
回答
用Excel宏进行Powerpoint
数据
提取
、
、
在过去
的
一周里,我一直在使用VBA开发一个excel宏,该宏可以
从
几个断点幻灯片中
提取
特定
的
数据
。我能够编写一个宏,该宏能够
提取
Title对象
中
的
所有细节,并将它们放在一
列
中
。我需要能够
从
所有其他字段中
提取
数据
,但它们是表而不是
文本
框。我想出了
如何
提取
文本
框
的
内容,但是我想不
浏览 0
提问于2019-11-14
得票数 1
回答已采纳
1
回答
我可以在谷歌电子
表格
中使用谷歌图表库吗?
、
、
、
谷歌电子
表格
有
列
图表,但我想使用“绘制注释”,如这 (注释)。
列
图表不显示条形图值为“绘制注释”在顶部。我
的
图表包括:我找到下面的代码,但它不能在我
的
工作表上工作。
浏览 0
提问于2015-05-04
得票数 4
2
回答
返回
维基百科
页面上
的
所有图片
、
我正在尝试编写一个SPARSQL查询,该查询将返回与资源相关联
的
所有可能
的
图像URL。我可以退回foaf:depiction,如果有的话,但当我访问
维基百科
上
的
页面时,我经常看到有其他我无法“获取”
的
图片。例如,对于视频游戏,有一个概念是游戏封面和盒子艺术(对于某些游戏,不是所有游戏),但我不知道
如何
通过查询返回它们
的
URL。一个展示
如何
返回
的
例子,比如像超级马里奥兄弟这样
的
游戏
的
盒盖和墨盒图片,可
浏览 2
提问于2011-06-19
得票数 9
回答已采纳
1
回答
PDFBox :在
提取
文本
时维护PDF结构
、
我正在尝试
从
PDF中
提取
文本
,PDF
中
充满了
表格
。在某些情况下,
列
是空
的
。当我
从
PDF中
提取
文本
时,emptys
列
会被跳过并替换为空格,因此,我
的
正则表达式无法确定在这个位置有一个没有信息
的
列
。更好地理解图像:我们可以看到,在
提取
的
文本
中
,
列
并不
浏览 2
提问于2017-08-23
得票数 3
回答已采纳
1
回答
有没有办法只返回
维基百科
文章
中
的
(干净)
文本
?
、
、
我
的
总体目标是只返回干净
的
句子
从
维基百科
的
文章,没有任何标记。显然,有一些方法可以返回JSON、XML等,但是这些方法都是标记
的
。到目前为止,我最好
的
方法是返回
维基百科
所称
的
raw。我坚持raw格式,因为我发现它是最容易清理
的
。虽然到目前为止,我用Java编写
的
文章已经很好地解决了这个问题,但还是有很多情况不了了之。这些案例包括
维基百科
时间表
的
标记、
维基百
浏览 2
提问于2013-12-02
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何将excel表格中同列的重复数据筛选并提取出来?
【WPS神技能】如何从Excel表格中快速提取不重复数据?
excel表格中怎么导入来自文本中的数据
如何在Excel表格中快速的进行两列数据的互换?
【WPS神技能】如何判断Excel表格中的某列数据是不是在数据库中?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券