为python webscraping脚本中的错误创建异常

文章/答案/技术大牛

发布

1回答

、、、

我是一个在python和编程方面的乞讨者。我用python编写了一段代码，用于将特定网站的数据转换为csv数据。一般来说，它对我来说工作得很好。我通常会让它在晚上运行，那时网站的响应会更快更稳定。问题是:有时我自己的连接失败了，或者在网站上发生了一些不稳定的事情，脚本返回了一个错误，这让我失去了很多时间。我想用一些错误处理方法来改进代码，这样它就可以继续检查insternet连接是否正常工作，并在它工作时移动到下一个链接，而不是崩

浏览 15提问于2020-08-07得票数 1

回答已采纳

1回答

为什么我不能给tryCatch (R)的错误函数中的变量赋值？

、、

我正在创建一个webscraping脚本，它有时要求我在遇到错误时引发异常。但是，即使使用tryCatch函数，也会弹出错误消息(尽管不会中断代码)。但是，当出现错误时，我已经为变量指定了一个新值。然而，它似乎没有被分配。为什么会发生这种情况？我希望拥有与Python和try相同的功能。}, found_university

浏览 1提问于2022-08-25得票数 2

回答已采纳

5回答

使用crontab运行selenium (python)

、、、

我有一个python脚本，它使用下一行selenium调用chrome。ff = webdriver.Chrome('/home/user01/webScraping/CollectAndGo/chromedriver') python脚本是从shell脚本调用的。python /home/user01/webScraping/

浏览 8提问于2014-05-28得票数 18

回答已采纳

1回答

csv - python抓取的多个读数

、、

Instaloader() print(profile.followers) 我想通过csv传递多个用户，脚本将为每个用户运行

浏览 18提问于2021-01-16得票数 0

1回答

Python抓取: soup.select的问题

、

我正在开发一个python脚本，用于从特定站点( )中刮取数据这次我使用soup.select方法，类名为W(100%) M(0)，我的代码如下所示：import pandas as pdtable = soup.select("W(100%) M(0)

浏览 4提问于2022-09-13得票数 0

1回答

错误2002 (HY000)：无法通过Lubuntu20.04LTS上的socket '/var/run/mysqld/mysqld.sock‘(2)连接到本地MySQL服务器

、、

(scrapy_course) andylu@andylu-Lubuntu-PC:~/Desktop/Misc_python_scripts/Scrapy_Webscraping_Course/books_crawler下一首,我尝试连接到mysql：( andylu@andylu-Lubuntu-PC:~/Desktop/Misc_python_scripts/Scrapy_Webscraping_Course/books_crawler最后

浏览 0提问于2020-12-06得票数 0

1回答

webkitbrowser注入javascript修改输入文本值时出错

、、、、

我在使用Python2.7中的WebkitBrower从网页获取输入文本的值时遇到了问题。下面是示例代码： user_agent='Mozilla/5.0 (compatible; MSIE 9.0; TOB 6.11; Windows NT 6.1

浏览 2提问于2015-01-01得票数 1

回答已采纳

1回答

Selenium将在没有根权限的情况下运行，显示WebDriverException: Message: Service /usr/bin/chromedriver意外退出错误

、、、、

我有一个selenium脚本，在另一个python程序中执行。此程序只在我使用ssh作为root登录到服务器时执行，而不是由www-data用户执行，因为它返回时会出现错误：我使用以下命令运行脚本： os.system('python3 /var/website/webscraping.py'

浏览 16提问于2021-12-31得票数 2

回答已采纳

2回答

如何创建一个for循环来填充DataFrame？

、、

我已经开始学习python，并偶然发现了一个利用python的机会，这是我在工作中的优势。 i+= 1但最终还是出现了这样的错误： Traceback (most recent call l

浏览 4提问于2022-05-27得票数 0

2回答

用Python和selenium抓取URL

、、、

我正在尝试让python selenium脚本工作，它应该执行以下操作：我希望我们能使这个工作，然后请帮助我一步一步地使它运行。gDrive/AudioBookReviews/WebScra

浏览 0提问于2019-09-08得票数 2

回答已采纳

2回答

将刮取的数据加载到Postgresql中

、

我已经结合了一些关于网络抓取的教程，并制作了一个简单的网页爬虫，这是刮新张贴的问题在这里所以。我想将它们加载到我的postgresql数据库中，但是我的爬虫给我看的解码错误有问题。错误：

浏览 3提问于2015-06-09得票数 1

回答已采纳

1回答

如何完全删除python中包含类的HTML标记？

、、、

我有一个网络刮刀，从CNN，福克斯，和英国广播公司在BeautifulSoup的文章。然后，在进行了一些预处理之后，我将原始文章返回给API。但是，我不知道如何完全删除包含Python中令人讨厌的类的HTML标记。我尝试了lxml清理器，但是我可以删除标记，但不仅仅是包含某个类的标记。如果在本例中我试图删除“帮助”，我想要一个脚本，该脚本将转换如下所示的HTML： <p class="help&quo

浏览 1提问于2022-03-08得票数 0

回答已采纳

2回答

更改URL字符串中的单个值

、、

我正在学习网络抓取，我正在example.webscraping.com上练习。我可以从一个页面中提取我想要的信息，但我想知道如何以最简单的方式遍历多个页面。然而，即使创建一个整数并尝试将其作为字符串输入到URL中，该url上有一个计数器，以便在每个完整的循环周期后更改url，我也没有任何运气。我意识到这可能不是普遍接受的方法，但我不知道除了创建字典和尝试之外还有其他方法，但它似乎打开了另一个蠕虫罐头。此外，webloop是一个函数，在该函数中

浏览 2提问于2019-11-06得票数 0

1回答

、、

尝试webscraping的第一步，并遵循一个简单的教程。我正在运行的脚本位于"C:/Python“中我正在运行的完整代码是 import requests page = requests.get("http://dataquestio.github.io/web-scraping-pages/simple.html") 我收到错误消息 File C:\

浏览 14提问于2020-01-04得票数 0

回答已采纳

1回答

ConnectionError: HTTPSConnectionPool(host='www.google.com'，port=443)：

、、、

我想从google.com中抓取网页结果。我遵循了这个问题的第一个答案，。不幸的是，我得到了连接错误。我碰巧也查过其他网站，它没有连接。是因为公司的代理设置吗？文件"c:\users\appdata\local\programs\python\python37\webscraping\lib\site-packages\requests\api.py"，第75行，在get返回请求(‘get’，url，params=params，**

浏览 1提问于2018-10-29得票数 0

1回答

使用BeautifulSoup抓取问题

、

我刚开始使用python进行数据抓取，它给了我和错误以及idk如何解决它。 single_phone = soup.find('li', class_ = 'Listing').text 这就是错误信息使用python/olxweb.py进行E:\Softwares\Anaconda\python.exe“D:/Cours

浏览 0提问于2021-06-20得票数 1

回答已采纳

2回答

Python中退出代码0的条件语句

、

当脚本成功完成时，有什么方法可以让Python打印语句呢？code variable' == 0:else:如何将退出代码的值传递给变量我觉得这将是一个很好的事情，包括在脚本为其他用户。谢谢。

浏览 0提问于2016-02-29得票数 0

回答已采纳

1回答

为什么BeautifulSoup和多处理会在列表中产生超出范围的索引？

、、、

下面是抛出异常的函数： page = requests.get(url) File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7_value In

浏览 7提问于2018-01-09得票数 0

1回答

如何将文件保存到包含“&”等特殊字符的路径中？(“&”与英文键盘中键入的“&”不同)

、、

我需要将一个文件写入包含R中一个特殊字符的特定路径，路径类似于：C:/Users/Technology ＆ Innovation/Webscraping files/US_data/data我发现“&”和“&”有细微的<

浏览 2提问于2020-11-12得票数 2

1回答

为一个简单的python脚本获取一个跟踪错误来刮取GoodReads.com urls

、、

这是一个脚本，用于获取图书标题列表(BookTitles.txt)，搜索站点Goodreads以获得每个标题的第一个结果，并将一个URL列表返回给csv文件(GoodReadsBooksNew.csv)我得到的错误如下：追溯(最近一次调用)：文件"/home/i

浏览 0提问于2019-11-24得票数 0

点击加载更多