腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
Requests
/
BeautifulSoup
VS
robots.txt
、
、
、
、
现在我已经用Scrapy构建了它,在所有的调整(包括不遵守
robots.txt
)之后,它工作得很好,并且它自动地运行在数据挖掘的循环上。现在我需要做一些东西,它将通过输入抓取单个页面 问题是,我唯一能够访问的页面是
robots.txt
页面,并且我无法在网上找到任何关于
robots.txt
的信息。有没有关于如何使用BS或
Requests
的教程?
浏览 35
提问于2019-12-05
得票数 1
回答已采纳
1
回答
403使用Python拉取HTML时禁止的错误,但可以在web浏览器中查看
、
当使用Python中的请求库来拉取给定URL的HTML时,例如:如下所示: import
requests
HTML = temp.text 对于某些
浏览 19
提问于2020-04-15
得票数 0
2
回答
AttributeError:字节对象没有属性'find_all‘
、
、
、
但是我得到了这个属性错误:**文件“J:/Programs/Web刮刀/ESPN Cric Info.py",第6行,在我的守则是:
浏览 6
提问于2019-11-15
得票数 0
2
回答
在需要身份验证的地方使用
BeautifulSoup
、
、
、
、
我正在使用
BeautifulSoup
4和Python为公司项目抓取局域网数据。由于网站有一个登录界面,我没有被授权访问数据。登录界面是一个弹出,不允许我访问页面源或检查页面元素而不登录。我已经尝试过
requests
_ntlm、selenium、python请求,甚至ParseHub,但是它没有工作。我已经被困在这个阶段一个月了!如有任何帮助,我将不胜感激。下面是我的初始代码:from
requests
_ntlm import HttpNtlmAuth from bs4 import <em
浏览 5
提问于2017-10-28
得票数 2
回答已采纳
1
回答
服务器在python中使用请求库时发送403个状态代码,但与浏览器一起工作。
、
、
、
、
以下是代码:import lxmlimport os req =
requests
.get(url).textready = soup.pr
浏览 2
提问于2021-03-10
得票数 2
回答已采纳
1
回答
使用
BeautifulSoup
进行网页抓取时出现429错误
、
、
、
我正在尝试使用这些代码行来收集数据from bs4 import
BeautifulSoup
html_page =
requests
.get(baseurl).textprint(soup) 作为输出,我没有得到预期的超文本标记语言页面,而是另一个超
浏览 3
提问于2018-08-02
得票数 1
回答已采纳
2
回答
美汤找不到任何元素
import timefrom selenium import webdriver driver.get(url)time.sleep(4)soup =
BeautifulSoup
浏览 25
提问于2020-01-03
得票数 0
回答已采纳
1
回答
解析html时的ValueError (祝福汤)
、
这是代码response=
requests
.get(wikiurl)table= soup.find('table', id="Past_events") df=pd.read_html
浏览 14
提问于2021-10-18
得票数 0
回答已采纳
1
回答
Python漂亮汤抓取桌
、
from bs4 import
BeautifulSoup
test=soup.findAll('div', {'class
浏览 6
提问于2014-04-02
得票数 2
回答已采纳
2
回答
正在删除\r和空格
、
、
、
NHL: Columbus Blue Jackets at San Jose Sharks 02:30 - 04:30 NCAAB: Quinnipiac
vs
Timbers at Los Angeles Galaxy - Channel 05import urllib, urllib2, re, HTML
浏览 2
提问于2018-03-05
得票数 2
2
回答
在美丽汤中使用soup.select(‘占位符’)[0].get_text()时列出超出范围的错误
、
、
我正在尝试使用漂亮的汤从维基百科页面中获取Wheelbase值(最终是其他东西)(稍后我将处理
robots.txt
) from oauth2client.client import SignedJwtAssertionCredentialsfrom bs4 import
BeautifulSoup
import
requests
response =
requests
.get ('https://en.
浏览 6
提问于2015-09-11
得票数 0
回答已采纳
1
回答
使用Python更快地解析
、
、
、
、
此网页允许您(根据
robots.txt
)每分钟发送2000个请求。import lxml.html as lh lines = f.readlines() def updat
浏览 0
提问于2015-10-15
得票数 2
1
回答
用美丽的汤得到一个特定的文本
、
主要的问题是,使用漂亮汤,我得到行的所有html标记:from bs4 import
BeautifulSoup
soup =
BeautifulSoup
(page.content, 'html.parser') resultstext-la
浏览 2
提问于2021-03-05
得票数 0
回答已采纳
2
回答
用美丽的汤学习
、
、
我在努力soup<bound method
BeautifulSoup
.find of \n<td class="listtable_1" height="16">\n<a href="http://steamco
浏览 24
提问于2018-02-20
得票数 2
回答已采纳
1
回答
在注释后,
Beautifulsoup
无法在html代码中找到div
、
、
、
我正在使用python和
Beautifulsoup
进行代码抓取。leads 2-0" class="tooltip make">●</div><div style=&q
浏览 7
提问于2022-02-04
得票数 -2
回答已采纳
3
回答
使用请求和
BeautifulSoup
下载文件
、
、
、
我正在尝试使用
beautifulsoup
4.和请求从下载一堆pdf文件这是我的密码:from bs4 import
BeautifulSoup
as bs _URL = 'http://www.desconversa.com.br/' + _MATERIAS + _CONTEXT r =
requests
.get
浏览 0
提问于2013-09-27
得票数 4
1
回答
Python
beautifulSoup
:创建和合并列表,并删除冗余,如\n
、
、
、
import
requests
from bs4 import
BeautifulSoup
import json lehigh =
requests
.get(url).text soup
浏览 14
提问于2020-01-06
得票数 1
回答已采纳
1
回答
Python -
BeautifulSoup
- For循环以错误的顺序输出数据
、
import
requests
cookies = {'mycountries' : '101,28,3,102,42,10,18,4,2'} return
BeautifulSoup
(r.text,"lxml") def然后,我尝试按照下面的
浏览 14
提问于2020-07-19
得票数 1
回答已采纳
2
回答
使用
BeautifulSoup
抓取Web数据
、
、
、
第一种方法:import
requests
r =
requests
.get(url) weathernDome\r\n
浏览 8
提问于2021-06-03
得票数 1
回答已采纳
1
回答
使用Python从web目录下载多个csv文件,并使用锚文本作为文件名存储在磁盘中。
、
、
我想我现在的主要任务是检索锚标签的文本:import
requests
url_dir = "http://
vs
-web-fs-1.oecd.org/piaac/puf-data/CSV" r =
requests</
浏览 3
提问于2019-02-15
得票数 0
回答已采纳
点击加载更多
相关
资讯
Python爬虫入门--使用requests和BeautifulSoup库
2024,Python爬虫系统入门与多领域实战(完结)
Python入门基础——爬虫开发指引
Python网络爬虫:抓取网页数据的实战
给 iOS 开发者的 python 学习日记十五
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券