开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

无法使用Selenium找到正确的href /BS4

Selenium是一个用于自动化浏览器操作的工具，而BeautifulSoup (BS4)是一个用于解析HTML和XML文档的Python库。在使用Selenium和BS4时，有时可能会遇到无法找到正确的href的问题。

这个问题可能有以下几个原因：

元素定位问题：使用Selenium定位元素时，需要确保使用的定位方法和定位表达式是准确的。可以尝试使用不同的定位方法（如ID、class、XPath、CSS选择器等）来定位元素，以确保能够找到正确的元素。
页面加载问题：有时候，Selenium在页面加载完成之前就开始查找元素，导致找不到正确的href。可以尝试使用Selenium的等待机制，等待页面加载完成后再进行元素定位和操作。
动态生成的内容：如果页面上的内容是通过JavaScript动态生成的，那么Selenium可能无法直接找到正确的href。可以尝试使用Selenium的执行JavaScript的功能，通过执行相关的JavaScript代码来获取正确的href。

综上所述，解决无法使用Selenium找到正确的href /BS4的问题需要确保准确的元素定位、等待页面加载完成以及处理动态生成的内容。以下是一些相关的腾讯云产品和文档链接，供参考：

腾讯云产品：腾讯云提供了云服务器、云数据库、云存储等多个云计算产品，可以根据具体需求选择适合的产品。详细信息请参考腾讯云官方网站：https://cloud.tencent.com/
腾讯云文档：腾讯云提供了详细的产品文档和开发指南，可以帮助开发者更好地使用腾讯云产品。可以在腾讯云文档中搜索相关产品的文档，获取更多详细信息。文档链接：https://cloud.tencent.com/document/product

请注意，以上答案仅供参考，具体的解决方法可能需要根据具体情况进行调整和优化。

相关搜索:Python和Selenium:无法找到要单击的特定(href)元素无法使用bs4在div中收集href 无法使用BS4找到css选择器使用selenium无法通过id找到元素无法使用python中的selenium webdriver找到元素 Python和Selenium:无法单击框架中的HREF 无法在带有bs4的标记中获取特定href链接无法使用selenium单击带有href值的框架内的锚点 C# Selenium contains()未找到正确的元素无法使用selenium python从表中找到链接 Scipy优化无法找到正确的结果无法使用cv2.HoghCircle找到正确的圆 Selenium:如何为add_arguments()找到正确的命令？如何在Python中找到使用Selenium定位所需元素的正确方法？无法使用Selenium WebDriver Python在iframes中找到元素无法按名称找到checkbox元素，正在使用Selenium Java bs4无法正确打开本地存储的html页面 Selenium无法在找到的元素中发送密钥 Python、Selenium无法找到基于xpath的输入字段无法使用漂亮的汤获取HREF

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

不是你无法入门自然语言处理（NLP），而是你没找到正确的打开方式

另外说明下，here 整篇文字内容相对是比较入门，甚至有的点可能描述的不太客观正确，限于当前的认知水平…… 还请您海涵，希望您在评论中指正！...1、向量的维度会随着句子的词的数量类型增大而增大；2、任意两个词之间都是孤立的，根本无法表示出在语义层面上词语词之间的相关信息，而这一点是致命的。...在前面基于矩阵的分布表示方法中，最常用的上下文是词。如果使用包含词序信息的 n-gram 作为上下文，当 n 增加时， n-gram 的总数会呈指数级增长，此时会遇到维数灾难问题。...另外一点很实用的建议，在你做某一项具体的 NLP 任务时如你要用到词向量，那么我建议你：要么 1、选择使用别人训练好的词向量，注意，得使用相同语料内容领域的词向量；要么 2、自己训练自己的词向量。...网上随便一搜 “word2vec”、“词向量”，然后一大堆的关于 word2vec、cbow、skip-gram 数学公式的讲解，并且还都是千篇一律的东西…… 但最让人无法理解的是，基本上没有人去详细地提一提这些东西他的出现他的存在的上下文

9056 0

不是你无法入门自然语言处理（NLP），而是你没找到正确的打开方式

另外说明下，here 整篇文字内容相对是比较入门，甚至有的点可能描述的不太客观正确，限于当前的认知水平…… 还请您海涵，希望您在评论中指正！...1、向量的维度会随着句子的词的数量类型增大而增大；2、任意两个词之间都是孤立的，根本无法表示出在语义层面上词语词之间的相关信息，而这一点是致命的。...在前面基于矩阵的分布表示方法中，最常用的上下文是词。如果使用包含词序信息的 n-gram 作为上下文，当 n 增加时， n-gram 的总数会呈指数级增长，此时会遇到维数灾难问题。...另外一点很实用的建议，在你做某一项具体的 NLP 任务时如你要用到词向量，那么我建议你：要么 1、选择使用别人训练好的词向量，注意，得使用相同语料内容领域的词向量；要么 2、自己训练自己的词向量。...网上随便一搜 “word2vec”、“词向量”，然后一大堆的关于 word2vec、cbow、skip-gram 数学公式的讲解，并且还都是千篇一律的东西…… 但最让人无法理解的是，基本上没有人去详细地提一提这些东西他的出现他的存在的上下文

1.3K6 0

Python 自动化指南（繁琐工作自动化）第二版：十二、网络爬取

bs4解析 HTML，网页编写的格式。 selenium启动并控制一个网络浏览器。selenium模块能够在这个浏览器中填写表格和模拟鼠标点击。...如果你需要从网上下载东西，只需使用requests模块。接下来，做一个简单的测试来确保requests模块正确安装。...使用selenium，你可以用比requests和bs4高级得多的方式与网页互动；但是因为它启动了一个网络浏览器，如果你只是需要从网上下载一些文件，它就有点慢，很难在后台运行。...在这个页面上，我们试图找到类名为'bookcover'的元素，如果找到这样的元素，我们使用tag_name属性打印它的标签名。如果没有找到这样的元素，我们打印一条不同的消息。...如何将一个 BeautifulSoup Tag对象的所有属性存储在一个名为linkElem的变量中？跑import selenium不行。如何正确导入selenium模块？

8.7K7 0

使用Python轻松抓取网页

这给只能从静态网页中提取数据的Python库带来了问题。事实上，当涉及到JavaScript时，Requests库将无法使用。这个时候就是Selenium网络抓取的用武之地。...它在网页抓取方面的优势源于它能够像任何浏览器一样通过运行JavaScript来呈现网页——标准的网络爬虫无法运行这种编程语言。目前Selenium已被开发人员广泛使用。...Part 1 导入和使用库是时候使用我们之前安装的所有包了： import pandas as pd from bs4 import BeautifulSoup from selenium import...，找到上面列出的所有出现的类，然后将嵌套数据附加到我们的列表中： import pandas as pd from bs4 import BeautifulSoup from selenium import...您需要检查我们获得的数据是不是分配给指定对象并正确移动到数组的。检查您获取的数据是否正确收集的最简单方法之一是使用“print”。

13.9K2 0

python实战案例

在源代码处搜索呈现的数据，无法找到。熟练使用浏览器抓包工具： Chrome 浏览器右键检查或者 F12，上方大类选择 Network；刷新页面，此时所有返回的请求都在此处显示。...解析 Python 的 bs4 模块使用 python 的 bs4 模块为第三方模块，需要先安装，安装 cmd 语法如下： pip install bs4 抓取示例：北京新发地菜价(已失效，仅可参考...) 注：页面重构，下示例代码仅可参考，无法运行，网站改为浏览器渲染，使用 POST 请求 # 页面源代码中能找到数据，所以直接爬取，后使用bs4提取数据即可 import requests import...(1) # 找到输入框，输入python ---> 输入回车/点击搜索 # 此处实现输入回车，找到输入框，使用.send_keys()输入内容 # 键盘回车通过第二行的包中的Keys模块实现，点进Keys...time.sleep(1) # 查找存放数据的位置，进行数据提取(注：此处代码由于网页重构已失效，无法运行！)

3.5K2 0

用re和xpath进行爬虫信息提取

用python做网络爬虫，也可以分3步：通过各种手段获取网络响应，得到网页源码，其中源码包含想要爬取的各种数据，例如requests、urllib、selenium等，具体方法根据目标网页反爬措施而异...；在获得的网页源码中提取数据，常用方法包括re、Xpath、Bs4等；对提取的数据进行处理保存，例如写入文件（.csv，.txt等等）或者存储数据库等。...一般而言，3种提取数据的方法中，re速度最快，但设计正则表达式规则相对复杂；xpath速度其次，其设计规则一定程度上类似有些类似于从sql中查询数据，难度居中；bs4速度较慢，但理解简单实现也较为容易。..._Element对象转化为string对象时，还踩了一个坑，即直接tostring()后，会出现格式混乱即中文无法显示的问题，此时仅链式增加.decode()仅能解决格式混乱的问题，中文字符仍然会用&#...△ tostring()指定编码后再解码中文显示正确

7752 0

运用Python抓取二手房价格与信息的两种常用方法

在HTML中找到所有区域及region_href。 ?...(region.text) 本次使用BeautifulSoup解析网页数据，获取region_href及对应行政区域名称region_name。...data.shape >>> (6027, 13) Selenium模拟浏览器由于此网站监控较为严格，可利用selenium模拟浏览器一定程度上规避反爬机制。...可参考《selenium 爬取动态加载信息》分析网页的方法同上，但此次并不是循环请求网页获取网页数据，而是通过模拟浏览器操作，再通过Xpath获取数据。...可参考《XPath解析》导入并初始化浏览器驱动 import requests from bs4 import BeautifulSoup from selenium import webdriver

5663 0

Python Requests 实现简单网络请求

快速抓取网页: 使用urllib最基本的抓取功能,将百度首页的内容保存到本地目录下. >>> import urllib.request >>> >>> res=urllib.request.urlopen...bs4库爬取西刺代理: 使用库的方式爬取,啪啪啪,三下五除二搞定. import re import requests from bs4 import BeautifulSoup head = {'user-agent...自动化测试库的使用: 的博客园自动爬行工具,用于备份非常不错. from selenium import webdriver from bs4 import BeautifulSoup import...html parser #定义一个MyParser继承自HTMLParser class MyParser(HTMLParser): re=[]#放置结果 flg=0#标志，用以标记是否找到我们需要的标签

1.5K2 0

Python动态网页爬虫—爬取京东商城

动态网页爬虫工具—Selenium和PhantomJS 2.1 Selenium简介 Selenium是一个Web自动化测试工具，可以用来操作一些浏览器驱动，以及使用一些headless(无图形用户界面...="true">→ 3.2 程序代码 # 引入所需模块 import selenium.webdriver from bs4...查看网页源代码：图书的结构，图书以列表li的形式在网页上显示： ? 这个页面使用了滑动填充书籍的方式显示书籍。...selenium定位“下一页”元素，并模拟点击要爬取200多本书籍的信息，不能在一页内就读取完成，要使用selenium提供模拟点击功能，跳转多页爬取信息。...参考 [1] 什么是动态脚本 [2] Python爬虫,使用Python爬取动态网页-腾讯动漫(Selenium) [3] selenium控制滚轮滑动 [4] selenium元素定位与模拟点击事件

1.6K2 0

推荐一款小众且好用的 Python 爬虫库 - RoboBrowser

find_all 查询当前页面拥有共同属性的一个列表元素 select 通过 CSS 选择器，查询页面，返回一个元素列表需要指出的是，RoboBrowser 依赖于 BS4，所以它的使用方法和 BS4...select() 方法匹配出所有的搜索列表元素遍历搜索列表元素，使用 find() 方法查询出每一项的标题及 href 链接地址 # 查看结果 result_elements = rb.select...) 最后，使用 RoboBrowser 中的 follow_link() 方法模拟一下「点击链接，查看网页详情」的操作 # 跳转到第一个链接 rb.follow_link(first_href) # ...最后文中结合百度搜索实例，使用 RoboBrowser 完成了一次自动化及爬虫操作相比 Selenium、Helium 等，RoboBrowser 更轻量级，不依赖独立的浏览器及驱动如果想处理一些简单的爬虫或...Web 自动化，RoboBrowser 完全够用；但是面对一些复杂的自动化场景，更建议使用 Selenium、Pyppeteer、Helium 等我已经将文中完整源码文件传到后台，关注公众号，后台回复

7772 0

Python爬虫---爬取腾讯动漫全站漫画

找到腾讯动漫的漫画目录页，简单看了一下目录，发现全站的漫画数量超过了三千部（感觉就是爬下来也会把内存撑爆）于是我觉得爬取首页的推荐漫画会是一个比较好的选择（爬取全站漫画只需要稍稍改一下网址构造就可以做到了...《li》标签，点击里面包裹的链接地址会跳转到一个新的网页，这个网页正是我想要找的漫画地址，可以见得我的猜测是正确的，等到实际操作的时候再用表达式提取信息就非常容易了提取漫画章节地址进入漫画的目录页，...from time import sleep from bs4 import BeautifulSoup from selenium.webdriver.chrome.options import Options...我认为失败的原因可能是刚打开界面的时候会有一个导航条挡住滑块，导致无法定位到滑块的坐标（因为我用其他网页测试的时候都是可以拖动的）使用的try是为了防止有一些章节会弹出付费窗口，导致程序报错，使后续无法运行...import webdriver from time import sleep from bs4 import BeautifulSoup from selenium.webdriver.chrome.options

6.5K3 0

【Python】下载 XKCD 漫画如何实现教程

所以选择器'#comic img'将从 BeautifulSoup 对象中选出正确的元素。有一些 XKCD 页面有特殊的内容，不是一个简单的图像文件。这没问题，跳过它们就好了。...可以从这个元素中取得 src 属性，将它传递给 requests.get()，下载这个漫画的图像文件。保存图像，找到前一张漫画让你的代码看起来像这样： #!...用 os.path.join()连接这个名称和 xkcd 文件夹的名称，这样程序就会在 Windows 下使用倒斜杠（\），在 OS X 和 Linux 下使用斜杠（/）。...然后，选择器'a[rel="prev"]'识别出rel 属性设置为 prev 的元素，利用这个元素的 href 属性，取得前一张漫画的 URL，将它保存在 url 中。...或者，你希望编程浏览的网站可能要求你先登录。selenium 模块将让你的程序具有执行这种复杂任务的能力。完整代码 #!

6322 0

《手把手带你学爬虫──初级篇》第5课 Selenium WebDriver的用法

将`phantomjs.exe`所在目录增加到环境变量中 Mac OS X系统安装方法：建议使用HomeBrew工具进行安装： brew install phantomjs Selenium用法体验入门...如果没有找到，则会出现NoSuchElementException的异常。...import webdriver In [2]: from selenium.webdriver.common.keys import Keys In [3]: from bs4 import BeautifulSoup...使用Selenium WebDriver的API控制浏览器的前进后退功能，回到ipython环境中： In [60]: browser = webdriver.Chrome() In [62]: browser.get...headless Chrome的用法 Selenium WebDriver已经通知我们，将废弃对PhantomJS的支持，那么，我们来使用一下headless Chrome吧。

2.7K3 2

Python爬虫—爬取小说

导入库 from selenium import webdriver from bs4 import BeautifulSoup from selenium import webdriver from...，可以运行测试一下 from selenium import webdriver from bs4 import BeautifulSoup from selenium import webdriver...li里面的a的href属性，所以我们执行all_li = all_li.find_all('a')获取所有a的值。...查看all_li的值：第1章序第2章上个路口遇见你 1 可以发现所有的href链接都是有长度相等的字符串，所以可以用切片的方法获取每一章的链接： for li in all_li: str...import requests from bs4 import BeautifulSoup import time from lxml import etree from selenium import

6841 0

web爬虫项目实战-分类广告网站的数据抓取

今天我们使用Web抓取模块（如Selenium，Beautiful Soup和urllib）在Python中编写脚本来抓取一个分类广告网站Craigslist的数据。...search_distance=5&postal=94201&max_price=500 我们根据这个地址来看具体的代码编写过程，最后将完整的代码展示给大家：首先导入要使用的安装包： from selenium...import TimeoutException from bs4 import BeautifulSoup import urllib.request 接下来我们定义一个类实现抓取网站的具体操作: location...selenium打开浏览器，然后进行3秒的延迟加载后获取到搜索框的元素这里是id为searchform： ?...，对于Selenium、BeautifulSoup不太熟悉的童鞋可以参考之前的文章： web爬虫-搞一波天涯论坛帖子练练手 web爬虫-用Selenium操作浏览器抓数据今天的学习就到这里了，下节见吧

1.7K3 0

Python 爬取飞猪上全国景点的数据

需要安装 requests，bs4，selenium 这个第三方库，直接 pip install 就可以了。...2 代码万恶之首先导包 import csv import time import requests from bs4 import BeautifulSoup from selenium import...得到的 links 是一个列表，需要一个一个获取需要的 href 属性，因为这个属性里面的就是景点的链接。...res = requests.get(link.get_attribute("href"), timeout=10)的意思就是用 requests 去请求获取到的链接。...，也就是 soup 中找到 class 属性为 sell-count 的 dl 标签，然后在 dl 标签里面找到 dd 标签，接着找到 em 标签。

2.6K1 0

Python网络爬虫-第一行代码-windows环境

系统无法识别pip命令，但也可能有pip但是不在环境变量path目录，所以无法识别。通过牛逼的everything软件可以搜索到pip.exe ? 我们到这个目录下看一看 ?...库会直接安装到Python默认的包目录下，直接可以识别找到。如果提示pip版本低，执行升级命令 ? 成功将pip升级到20.0.2版本。...上面是requests库的用法，爬虫库常见的还有selenium。下面我们演示用selenium抓取网页，同时解析获得的html数据中的信息。先安装selenium ?...selenium可以启动浏览器，用浏览器访问地址获取数据。接下来安装解析html需要的bs4和lxml。 ? 安装lxml ? 要确保path的环境目录下有chromedriver ?...selenium模拟浏览器获取的数据是我们想要的，requests方式对于这个网页获取不到感兴趣的数据，这个需要具体分析页面找到另一个url才能正确获得，具体找另一个url的方法后续会单独介绍。

1K3 0

Python浏览器爬虫

安装依赖pip install requests beautifulsoup4 lxml selenium -i https://mirrors.aliyun.com/pypi/simple/# 使用前导入...from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.common.by...Keysimport timefrom bs4 import BeautifulSoup# 使用 Selenium执行 JavaScript，需要进行一些设置# 设置 ChromeDriver 的路径...html_content = driver.page_source print(html_content) finally: # 关闭浏览器 driver.quit()没有出现正确的结果...列表解析使用soup解析xml，得到歌曲列表：from bs4 import BeautifulSoup# 文件路径file_path = r'L:\driver\chart.html'# 读取文件内容到

1130 0

Python 爬取飞猪上全国景点的数据

需要安装 requests，bs4，selenium 这个第三方库，直接 pip install 就可以了。...2 代码万恶之首先导包 import csv import time import requests from bs4 import BeautifulSoup from selenium import...得到的 links 是一个列表，需要一个一个获取需要的 href 属性，因为这个属性里面的就是景点的链接。...res=requests.get(link.get_attribute("href"), timeout=10)的意思就是用 requests 去请求获取到的链接。...，也就是 soup 中找到 class 属性为 sell-count 的 dl 标签，然后在 dl 标签里面找到 dd 标签，接着找到 em 标签。

9494 1

如何使用Selenium WebDriver查找错误的链接？

我将演示了使用Selenium Python进行的断开链接测试。 Web测试中的断开链接简介简单来说，网站（或Web应用程序）中的损坏链接（或无效链接）是指无法访问且无法按预期工作的链接。...在检测到断开的链接时显示的HTTP状态代码以下是网络服务器在遇到断开的链接时显示的一些常见HTTP状态代码： HTTP状态码描述 400（错误请求）服务器无法处理请求，因为提到的URL不正确。...400（错误请求-错误主机）这表明主机名无效，由于该主机名无法处理请求。 400（错误请求-错误URL）这表明服务器无法处理请求，因为输入的URL格式不正确（例如，缺少括号，斜杠等）。...如何使用Selenium WebDriver查找断开的链接？不论Selenium WebDriver使用哪种语言，使用Selenium进行断开链接测试的指导原则都保持不变。...通过CSS选择器“ a”属性找到Web元素，可以找到被测URL上存在的链接（即cnds博客）。

6.7K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭