使用Selenium的WebScraping Next pages

文章/答案/技术大牛

发布

2回答

、

origin=topnav&breadcrumb=Home%2FSale%2FMen%2FClothing&sort=Boosted 我只能抓取前4页，然后我的脚本就停止了我尝试过使用xpath、css_selector和WebDriverWait选项 pages_remaining = True while pages

浏览 27提问于2019-06-19得票数 0

2回答

Selenium单击下一页链接，不加载下一页

、、、、

我对selenium和webscraping是个新手，我正在尝试从以下链接获取信息：while max_pages > 0: next_page = driver.find_element_by_xpath('//div[@class="ne

浏览 30提问于2018-01-06得票数 0

1回答

AttributeError: Web_scraping对象没有属性“_Web_scraping__headless”

、、

Web_scraping__headless’import osfrom seleniumimport webdriver from scraping.browser_manager.automate_browser

浏览 3提问于2022-09-11得票数 1

1回答

Selenium webdriver在意外退出后无法重新启动

、、、

在几天前的最后一次使用之后，我还没有能够启动python的selenium webdriver的实例。根据错误信息，我上次使用它时它意外退出，现在，在重启我的macbook后，卸载并重新安装chromedriver/selenium：from selenium imp

浏览 5提问于2016-09-06得票数 0

1回答

如何使用ChromeDriver和Selenium通过Python打开和访问Chrome中的多个(近50个)选项卡

、、、、

我正在尝试使用selenium和python.I从某些网页中收集一些信息，我有一个用于单个选项卡的工作代码。但现在我有一个情况，我需要打开50个标签的铬一次，并处理每页的数据。1)因此，一次打开50个选项卡--我已经得到的代码--2)更改选项卡之间的控件，处理页面中的信息，关闭选项卡，然后移动到下一个选项卡，并执行相同的操作。from selenium import webdriver from selen

浏览 1提问于2020-01-23得票数 1

1回答

为一个简单的python脚本获取一个跟踪错误来刮取GoodReads.com urls

、、

这是一个脚本，用于获取图书标题列表(BookTitles.txt)，搜索站点Goodreads以获得每个标题的第一个结果，并将一个URL列表返回给csv文件(GoodReadsBooksNew.csv)我得到的错误如下：追溯(最近一次调用)：文件"/home/WebScraping/Go

浏览 0提问于2019-11-24得票数 0

3回答

使用BeautifulSoup多个页面使用click()方法进行with抓取

、、

为了对多个页面这样做，我使用了selenum包的click()方法。这是我的代码：from selenium import webdriver pages = [strr"C:\Users\yefida\Desktop\Study_folder\Online_Courses\The Complete Python Course\Project 2 - Quotes Webscrapin

浏览 1提问于2018-11-23得票数 1

回答已采纳

1回答

Nodejs从承诺异步函数返回对象并在网页上显示它？

、、、、

我是NodeJS的新手，我想要构建一个自定义的web刮刀应用程序--到目前为止，我已经开始使用刮刀器了，但是我想在网页上呈现返回的对象。刮板创建一个包含视频数组的对象--这个数组是我想要在浏览器中显示的东西。index.js const webscraping = require(".vide

浏览 3提问于2019-11-03得票数 0

5回答

使用crontab运行selenium* (python)*

、、、

我有一个python脚本，它使用下一行selenium调用chrome。ff = webdriver.Chrome('/home/user01/webScraping/CollectAndGo/chromedriver') python脚本是从shell脚本调用的。python /home/user01/webScraping/CollectAndGo/cgcom.py > &#x

浏览 8提问于2014-05-28得票数 18

回答已采纳

1回答

网络抓取python错误(NameError:未定义名称'reload‘)

、

回溯(最近一次调用)：未定义重新加载(Sys)中的文件"/home/l/gDrive/AudioBookReviews/WebScraping/GoodreadsScraper.py"，第3行NameErrorimport webdriverfrom selenium.webdriver.supportimport expected

浏览 18提问于2019-09-01得票数 1

回答已采纳

1回答

BeautifulSoup蒸汽市场网刮错

、、、

我试图用python和BeautifulSoup4编写一个程序，它可以查看某个游戏的蒸汽市场头版(在本例中是Rust)，并查看每个项目并取其名称和价格。到目前为止，我已经成功地实现了第一页的工作(因为每一页只显示10项，但是当我更改第二页的web地址时，我得到的第一页的输出与第一页完全相同。我为第一页使用的网址是：守则是：import urllib.request for web_page in range(1,3):

浏览 0提问于2018-01-28得票数 1

回答已采纳

1回答

为什么我想使用python selenium从chrome下载文件时出现错误？

、

from selenium import webdriver preferences = {"download.default_directory": "D:\sourcetree_\webscraping_example\testing", "safebrowsing.enableddriver.find_element(By

浏览 61提问于2020-12-17得票数 1

回答已采纳

2回答

用Python和selenium抓取URL

、、、

然后使用Python/Selenium搜索站点，GoodReads.com查找该标题。获取结果的URL，并生成一个新的.CSV文件，其中包含列1=book标题和列2=Site URL from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver

浏览 0提问于2019-09-08得票数 2

回答已采纳

3回答

如何使用Python使用Selenium从多个div类中提取文本

、、

我试图从中获取文本类的价格值for ratevalue in rateText:未发现结果：回溯(最近一次调用)：文件"D:\project\totempop\webscrapingrateText=WebDriverWait(驱动程序，rateText=WebDriverWait‘//divstarts with(@class，“price”)

浏览 11提问于2022-04-21得票数 1

1回答

但是HTML指向了其他的东西

、、

我试图收集市场分析报告中的一些元数据。他们拥有各种的数据，如先进材料、生物技术等。当我点击一个nav页面，比如2号，页面就会“刷新”。这自然地将更多的结果加载到屏幕上。现在的问题是，当我使用nav页面的href (一个例子是)检查链接时，它会带我回到主题的主页，而不是第二个页面。我想知道是否有人能帮我。编辑:在我点击导航页面链接之前和之后，导航页面源的截图。

浏览 1提问于2019-04-07得票数 0

回答已采纳

2回答

刮除LinkedIn连接

、、、

我正在尝试从LinkedIn中抓取这样的数据。我想把我的关系联系起来。我用Python、BeautifulSoup和Selenium编写了代码，这些代码将获取我的连接并进入连接的配置文件页面。然后它可以刮掉我连接的前10个连接，但是我不能让它用next按钮做任何事情。我用Python代码使用Selenium来选择按钮： inputElement = driver.find_element_by_css_selector("b

浏览 9提问于2016-12-27得票数 2

回答已采纳

1回答

使用BeautifulSoup从使用AJAX分页的站点刮取

、、、、

我对编码和Python相当陌生，所以如果这是一个愚蠢的问题，我很抱歉。我想要一个脚本，它可以遍历所有19,000个搜索结果页面，并为所有的urls抓取每个页面。我已经完成了所有的报废工作，但不知道如何处理页面使用AJAX分页这一事实。通常，我只需使用url循环来捕获每个搜索结果，但这是不可能的。这是页面：with io.open('heritageURLs.txt', 'a', encoding='utf8') a

浏览 2提问于2014-12-28得票数 2

回答已采纳

2回答

使用python scrapy抓取同一链接的下一页

、、

我想抓取链接的下一页：https://www.thetoptens.com/animals/，使用scrapy-selenium点击next按钮，但它抓取了链接的第一页。我也尝试过使用webdriver，但显示了相同的结果。使用scrapy-selenium的代码： import scrapy from scrapy_selenium import Selen

浏览 35提问于2020-12-17得票数 1

1回答

Tweepy属性错误

、

open('home_timeline.jsonl', 'w') as f: for page in Cursor(client.home_timeline, count=200).pages, in __next__ return

浏览 1提问于2017-06-28得票数 0

回答已采纳

1回答

如何在MacOSX上获取Eclipse Neon路径中的geckodriver可执行文件？

、、、

我正在尝试在mac上安装selenium，以便使用eclipse neon进行webscraping，并获得"'geckodriver‘可执行文件需要在路径中“。我试过执行整个"export PATH=$PATH:usr/local/bin/geckodriver2“命令，也试过更新和降级selenium (两种不同的建议)。有没有人有这个问题？

浏览 0提问于2017-05-30得票数 0

点击加载更多