Requests / BeautifulSoup VS robots.txt

文章/答案/技术大牛

发布

2回答

、、、、

现在我已经用Scrapy构建了它，在所有的调整(包括不遵守robots.txt)之后，它工作得很好，并且它自动地运行在数据挖掘的循环上。现在我需要做一些东西，它将通过输入抓取单个页面问题是，我唯一能够访问的页面是robots.txt页面，并且我无法在网上找到任何关于robots.txt的信息。有没有关于如何使用BS或Requests的教程？

浏览 35提问于2019-12-05得票数 1

回答已采纳

1回答

403使用Python拉取HTML时禁止的错误，但可以在web浏览器中查看

、

当使用Python中的请求库来拉取给定URL的HTML时，例如：如下所示： import requestsHTML = temp.text 对于某些

浏览 19提问于2020-04-15得票数 0

2回答

AttributeError:字节对象没有属性'find_all‘

、、、

但是我得到了这个属性错误：**文件“J:/Programs/Web刮刀/ESPN Cric Info.py"，第6行，在我的守则是：

浏览 6提问于2019-11-15得票数 0

2回答

在需要身份验证的地方使用BeautifulSoup

、、、、

我正在使用BeautifulSoup4和Python为公司项目抓取局域网数据。由于网站有一个登录界面，我没有被授权访问数据。登录界面是一个弹出，不允许我访问页面源或检查页面元素而不登录。我已经尝试过requests_ntlm、selenium、python请求，甚至ParseHub，但是它没有工作。我已经被困在这个阶段一个月了！如有任何帮助，我将不胜感激。下面是我的初始代码：from requests_ntlm import HttpNtlmAuth from bs4 import <em

浏览 5提问于2017-10-28得票数 2

回答已采纳

1回答

服务器在python中使用请求库时发送403个状态代码，但与浏览器一起工作。

、、、、

以下是代码：import lxmlimport os req = requests.get(url).textready = soup.pr

浏览 2提问于2021-03-10得票数 2

回答已采纳

1回答

使用BeautifulSoup进行网页抓取时出现429错误

、、、

我正在尝试使用这些代码行来收集数据from bs4 import BeautifulSouphtml_page = requests.get(baseurl).textprint(soup) 作为输出，我没有得到预期的超文本标记语言页面，而是另一个超

浏览 3提问于2018-08-02得票数 1

回答已采纳

2回答

美汤找不到任何元素

import timefrom selenium import webdriver driver.get(url)time.sleep(4)soup = BeautifulSoup

浏览 25提问于2020-01-03得票数 0

回答已采纳

1回答

解析html时的ValueError (祝福汤)

、

这是代码response=requests.get(wikiurl)table= soup.find('table', id="Past_events") df=pd.read_html

浏览 14提问于2021-10-18得票数 0

回答已采纳

1回答

Python漂亮汤抓取桌

、

from bs4 import BeautifulSoup test=soup.findAll('div', {'class

浏览 6提问于2014-04-02得票数 2

回答已采纳

2回答

正在删除\r和空格

、、、

NHL: Columbus Blue Jackets at San Jose Sharks 02:30 - 04:30 NCAAB: Quinnipiac vsTimbers at Los Angeles Galaxy - Channel 05import urllib, urllib2, re, HTML

浏览 2提问于2018-03-05得票数 2

2回答

在美丽汤中使用soup.select(‘占位符’)[0].get_text()时列出超出范围的错误

、、

我正在尝试使用漂亮的汤从维基百科页面中获取Wheelbase值(最终是其他东西)(稍后我将处理robots.txt ) from oauth2client.client import SignedJwtAssertionCredentialsfrom bs4 import BeautifulSoupimport requests response =requests.get ('https://en.

浏览 6提问于2015-09-11得票数 0

回答已采纳

1回答

使用Python更快地解析

、、、、

此网页允许您(根据robots.txt)每分钟发送2000个请求。import lxml.html as lh lines = f.readlines() def updat

浏览 0提问于2015-10-15得票数 2

1回答

用美丽的汤得到一个特定的文本

、

主要的问题是，使用漂亮汤，我得到行的所有html标记：from bs4 import BeautifulSoup soup = BeautifulSoup(page.content, 'html.parser') resultstext-la

浏览 2提问于2021-03-05得票数 0

回答已采纳

2回答

用美丽的汤学习

、、

我在努力soup<bound method BeautifulSoup.find of \n<td class="listtable_1" height="16">\n<a href="http://steamco

浏览 24提问于2018-02-20得票数 2

回答已采纳

1回答

在注释后，Beautifulsoup无法在html代码中找到div

、、、

我正在使用python和Beautifulsoup进行代码抓取。leads 2-0" class="tooltip make">●</div><div style=&q

浏览 7提问于2022-02-04得票数 -2

回答已采纳

3回答

使用请求和BeautifulSoup下载文件

、、、

我正在尝试使用beautifulsoup4.和请求从下载一堆pdf文件这是我的密码：from bs4 import BeautifulSoup as bs _URL = 'http://www.desconversa.com.br/' + _MATERIAS + _CONTEXT r = requests.get

浏览 0提问于2013-09-27得票数 4

1回答

Python beautifulSoup:创建和合并列表，并删除冗余，如\n

、、、

import requests from bs4 import BeautifulSoupimport json lehigh = requests.get(url).text soup

浏览 14提问于2020-01-06得票数 1

回答已采纳

1回答

Python - BeautifulSoup - For循环以错误的顺序输出数据

、

import requests cookies = {'mycountries' : '101,28,3,102,42,10,18,4,2'} return BeautifulSoup(r.text,"lxml") def然后，我尝试按照下面的

浏览 14提问于2020-07-19得票数 1

回答已采纳

2回答

使用BeautifulSoup抓取Web数据

、、、

第一种方法：import requestsr = requests.get(url) weathernDome\r\n

浏览 8提问于2021-06-03得票数 1

回答已采纳

1回答

使用Python从web目录下载多个csv文件，并使用锚文本作为文件名存储在磁盘中。

、、

我想我现在的主要任务是检索锚标签的文本：import requestsurl_dir = "http://vs-web-fs-1.oecd.org/piaac/puf-data/CSV" r = requests</

浏览 3提问于2019-02-15得票数 0

回答已采纳

点击加载更多