腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(908)
视频
沙龙
2
回答
如
何在
Python
中用
Beautifulsoup
抓取
结构
不好
的
html
表格
?
、
、
、
、
这个网站
的
表似乎组织得不太好。
表格
单元格
的
唯一标识符是每个tr标记内
的
宽度。我想要
抓取
全部60页
的
信息。我怎样才能找到一种方法来适当地
抓取
每一行
表格
?我知道header
的
大小是10列,但是因为对于一些tr标签,我有5个td标签,而对于其他一些标签,我有或多或少
的
td标签,根据它
的
列准确地
抓取
数据是不容易
的
。在这里,您可以看到代码
的
一部分,它只提取
浏览 7
提问于2019-03-29
得票数 2
2
回答
如何使用
python
从网站
的
搜索栏中提取数据?
、
我想从一个包含许多医生和医院名称
的
网站中提取数据,我想做一些评估,所以我决定使用搜索栏,但不幸
的
是,似乎无法得到我想要
的
结果!import requests
浏览 3
提问于2018-06-11
得票数 2
回答已采纳
1
回答
从pdf
表格
中提取数据为
结构
化格式
、
、
、
我想要
抓取
任何
结构
化格式
的
pdf
表格
数据,
如
html
,xml,json。我使用
的
是
python
。我首先使用pdftotext命令行函数将pdf转换为文本。但是我不能区分pdf中
表格
的
数据。
浏览 4
提问于2018-04-17
得票数 1
1
回答
使用BS4从
python
中
抓取
团队统计表
、
、
、
我正在尝试从职业足球参考中
抓取
一个
表格
,特别是来自
的
团队进攻表。每当我尝试下面的代码时,我都会得到一个空列表或一个NoneType。我已经
抓取
了其他网站,
如
ESPN,没有任何问题。import requests url = 'https://www.pro-football-reference.com/years/{}= soup.find('table',
浏览 2
提问于2020-08-13
得票数 1
3
回答
用
python
刮网站
、
、
、
、
我已经看过多个教程和博客,最常见
的
库是漂亮汤和scrapy。如果有一种方法可以在不使用任何第三方库(
如
beautifulsoup
和scrapy )
的
情况下
抓取
一个网站,那么就可以使用
beautifulsoup
。
浏览 1
提问于2020-06-09
得票数 1
回答已采纳
2
回答
尝试将数据从网站加载到json文件中。
、
、
m=1" print(r.text)print(r.json)继续::import json“,s,err.value)到None json.decoder.JSONDecodeError: err.value:第1列(char 0)”程序完成“★★ 我只想在json文件中加载数
浏览 2
提问于2020-05-10
得票数 0
2
回答
使用
BeautifulSoup
创建循环并将结果放入列表中
、
我有以下代码,我正在尝试获取GEC列中
的
所有内容,并将其放入列表中。我下面的代码可以
抓取
第一个'AF‘,我可以继续添加find_next('tr')来
抓取
下一个,但我很难弄清楚如
何在
这个场景
中用
漂亮
的
汤创建一个循环。import jsonimport
html
from functoolspa
浏览 25
提问于2020-07-15
得票数 1
回答已采纳
1
回答
如何使用美丽
的
汤和熊猫从这个网站上捕获
结构
化格式
的
表格
?
、
、
、
、
我想从这个网站上
抓取
表格
,因为它每小时都在更新,所以我也想跟踪变化。我尝试过使用selenium
抓取
数据,但它们都在一个列中,没有任何表。如何使用pandas和Beautiful Soup以
结构
化
的
格式
抓取
表格
并跟踪更改。这就是我想弄明白
的
代码。import pandas as pdsoup =
BeautifulSoup
(
html
, &
浏览 7
提问于2020-09-23
得票数 0
回答已采纳
2
回答
days=7days“中
抓取
数据
、
、
我正在尝试从"“网站上
抓取
表格
,因为
python
的
输出正在
抓取
表格
。import requests url = 'https://www.nseindia.com/companies-listing/corporate-filings-event-calendar/79.0.3945.117 Safari/537.36'
浏览 3
提问于2020-10-27
得票数 0
2
回答
当web在
Python
中搜索表时,返回一个空表。
我需要通过使用
Python
中
的
BeautifulSoup
库进行web
抓取
,从网站
抓取
一个表。来自URL https://www.nytimes.com/interactive/2021/world/covid-vaccinations-tracker.
html
当我运行这段代码时,我得到了一个空表/interactive/2021/world/covid-vaccinations-trac
浏览 0
提问于2021-04-18
得票数 3
回答已采纳
4
回答
使用PHP或
Python
的
PHP
抓取
技术
、
、
我需要刮大约100个网站,在他们提供
的
内容非常相似。第二项质询。我
的
主要语言是PHP,但在Stackoverflow上搜索此处后,我发现
Python
中
的
"Beautiful Soup“是最高级
的</
浏览 2
提问于2011-01-03
得票数 3
1
回答
如何访问谷歌搜索结果
的
第一个结果(突出一个视频链接)?
、
、
、
在上面提供
的
链接中,第一个结果就是视频链接到youtube,我想访问提供
的
链接。我怎么能在蟒蛇身上做到这一点呢? 编辑:我
的
输入将是我在谷歌搜索框中查询
的
字符串。就像这个“黑色安息日铁人”
浏览 1
提问于2014-12-11
得票数 0
回答已采纳
1
回答
如何通过
python
向服务器提交表单并从服务器获取csv文件?
、
、
、
、
我需要提交一个
表格
到服务器,并从服务器获得csv文件通过互联网与
python
。到目前为止,我总是选择项目和日期,然后单击按钮。然后,当显示文件保存对话框时,我从服务器保留csv文件。我想用
python
自动完成这些手工工作。我研究过
python
和web
抓取
,并使用过
p
浏览 0
提问于2014-07-23
得票数 1
1
回答
如
何在
没有分页请求和美观
的
情况下
抓取
页面?
、
、
我正在
抓取
web (使用
Python
请求和漂亮
的
汤),我需要浏览项目列表中
的
所有页面,但我需要单击下一页,到目前为止,代码只返回代码中
的
第50行import requestsfrom bs4 import
BeautifulSoup
url = 'http://sistemas.anatel.gov.br/se/public/view/b/licenciamento&
浏览 2
提问于2021-02-23
得票数 0
2
回答
将数据从Tripadvisor导入Google电子
表格
或Excel
、
、
、
是否可以获取此数据
的
列表:阿姆斯特丹所有餐馆
的
名单。如果可能的话,还有详细
的
地址等等。非常感谢!
浏览 1
提问于2020-09-17
得票数 0
1
回答
从Tableau公共仪表板中
抓取
数据
、
、
、
我对从网站上
抓取
数据
的
世界非常陌生,不知道如何从使用Tableau Public
的
网站上
抓取
数据 网址:https://showmestrong.mo.gov/data/public-health/我一直在阅读一些关于如何检查元素并找到其中
的
表
的
资料,但我不知所措。我试过在
Python
、requests和
BeautifulSoup
中使用,但不知道如何工作。import requests from bs4
浏览 17
提问于2020-09-30
得票数 1
回答已采纳
2
回答
使用
python
抓取
AJAX电子商务站点
、
、
、
、
我在使用
BeautifulSoup
抓取
电子商务网站时遇到了问题。我做了一些谷歌搜索,但我仍然无法解决问题。但是当我运行
python
程序时,我无法在
python
结果中得到相同
的
代码和标记。在googling之后,我发现这个网站使用AJAX查询来获取数据。任何人都可以通过
抓取
AJAX站点来帮助我获得这些产品
的
数据。我想用在
表格
中显示数据。我
的
代码:from bs4 import
Beautiful
浏览 0
提问于2019-01-28
得票数 2
回答已采纳
1
回答
将lxml输出传递给
BeautifulSoup
、
、
我
的
离线代码运行得很好,但我在通过lxml将网页从urllib传递到
BeautifulSoup
时遇到了问题。我使用urllib进行基本身份验证,然后使用lxml进行解析(对于我们需要
抓取
的
特定页面,它提供了很好
的
结果),然后再转换为
BeautifulSoup
。# TypeError: expected stri
浏览 7
提问于2012-12-12
得票数 1
回答已采纳
1
回答
使用
python
中
的
BeautifulSoup
从url
的
源代码中提取特定部分下
的
文本
、
、
、
、
我是
python
的
初学者,对
HTML
没有真正
的
经验。我刚看了一段关于网络
抓取
的
youtube视频(),并对从
python
的
URL中提取文本感兴趣。from bs4 import
BeautifulSoup
url = "https://
浏览 4
提问于2021-08-23
得票数 0
回答已采纳
1
回答
<script>在<div id="xxxxx">下找不到
、
、
、
我正在尝试从这个URL
中用
python
来
抓取
历史价格。我在chrome浏览器上查看了开发工具,其中有我想在<script>中获得
的
信息,它位于我附加了元素图像
的
<div id="market-stats">下面。我使用了漂亮
的
汤来清除数据,但似乎<script>中
的
信息从未出现在终端中。我
的
假设是这部分信息可能不允许
抓取
?KHTML, like Gecko) Chrome
浏览 2
提问于2022-11-26
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Python实现网页表格数据爬取
使用多个Python库开发网页爬虫(一)
python爬虫-解析网页的几种方法之BeautifulSoup
python爬虫简述
如何抓取网页中的表格
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券