文章/答案/技术大牛

发布

python抓取js数据库

Python 抓取 JavaScript 数据库并不是一个直接的任务，因为 JavaScript 数据库通常是运行在浏览器中的，而 Python 是服务器端的编程语言。但是，可以通过以下几种方法来实现这一目标：

基础概念

JavaScript 数据库：通常指的是运行在浏览器中的客户端数据库，如 IndexedDB、WebSQL（已废弃）等。
Python 抓取：使用 Python 通过网络请求获取数据。

类型与应用场景

类型：
- 静态页面抓取：通过分析网页源代码获取数据。
- 动态页面抓取：通过模拟浏览器行为（如使用 Selenium）来获取 JavaScript 渲染后的数据。
应用场景：
- 数据分析：从网站获取数据进行进一步分析。
- 监控系统：实时监控网站数据变化。
- 自动化测试：模拟用户行为进行功能测试。

遇到的问题及解决方法

问题1：无法直接抓取 JavaScript 渲染后的数据

原因：JavaScript 数据库中的数据通常是在客户端通过 JavaScript 动态生成的，直接使用 Python 的 requests 库无法获取这些数据。

解决方法：

使用 Selenium 模拟浏览器行为，获取渲染后的页面内容。
使用 Headless Browser（如 Puppeteer）在无头模式下运行浏览器。

示例代码（使用 Selenium）

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time

# 设置 ChromeDriver 路径
service = Service('/path/to/chromedriver')
driver = webdriver.Chrome(service=service)

# 打开目标网页
driver.get('http://example.com')

# 等待页面加载完成
time.sleep(5)

# 获取数据
data = driver.find_element(By.ID, 'data-id').text
print(data)

# 关闭浏览器
driver.quit()

问题2：性能问题

原因：使用 Selenium 或 Headless Browser 可能会导致性能下降，特别是在需要频繁抓取数据的情况下。

解决方法：

使用 API 接口：如果目标网站提供了 API 接口，优先使用 API 获取数据。
优化代码：减少不必要的等待时间，使用并发请求提高效率。

示例代码（使用 requests 和 API）

import requests

url = 'http://example.com/api/data'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

response = requests.get(url, headers=headers)
data = response.json()
print(data)

总结

Python 抓取 JavaScript 数据库需要结合多种技术和工具，具体方法取决于目标网站的结构和数据获取方式。通过合理选择和使用工具，可以有效解决抓取过程中遇到的问题。

页面内容是否对你有帮助？

有帮助

没帮助

在中，如何处理“陈旧元素引用:元素没有附加到页面文档”中的致命错误？

、、

我需要阅读从低温货币市场的要价/出价。但是，当市场过于拥挤时，就会出现“陈腐元素错误”。这是我第一次尝试选择数据：这是最后一个： $driver->wait()->until(WebD

浏览 5提问于2019-07-14得票数 1

回答已采纳

2回答

将Python脚本连接到Nodejs

、

完成Node.js新手入门。最近，我接到一个任务，用python在web上抓取一个网站，然后使用Node.js中的python-shell包将python脚本连接到Node.js。我已经完成了抓取部分，但对Node.js没有任何先验知识。你能指导我如何解决这个问题吗？

浏览 0提问于2020-01-07得票数 0

1回答

是否更容易抓取AMP版本的网页？

、、、、

我知道AMP协议要求Javascript的精简版本，我也知道Javascript (在一定程度上)使网站管理员能够检测/防止抓取。因此，从逻辑上讲，我认为抓取AMP网站会更容易一些。

浏览 11提问于2019-04-08得票数 0

2回答

我知道使用Python的Beautiful Soup抓取HTML的基础知识。但是，页面会进行AJAX调用，以获取球员上场时间的数据。(我使用firebug识别了网络调用)。我的问题是:有没有可能使用python来“抓取”这些信息？我需要什么工具，除了HTML我还应该知道什么？(我目前正在阅读有关JavaScript和AJAX的文章)。更新:几天后，我提出了一个在Python语言中结合使用Selenium和PhantomJS的解决方案。基本上，我使用Selenium转到每个链接，等待页面加载，然后抓

浏览 0提问于2013-11-02得票数 0

1回答

如何使用MatLab从这个特定的网站中读取文本来分析音乐偏好

、、、

因此，荷兰每年都会举行一项名为"Top2000“的广播活动，人们可以投票选出他们最喜欢的艺术家和歌曲。我觉得分析一下音乐和艺术家的喜好会很酷。为此，我需要朗读投票列表上的艺术家/歌曲，这些列表是通过网址与我共享的，例如 one。我已经尝试了webread，urlread和wget来下载网页，如下所示：Data1 = webread(url);com

浏览 2提问于2018-12-02得票数 0

2回答

Python -如何运行数组批处理

、、

我是Python的新手，目前正在开发一个多网页抓取器。当我使用Python时，我发现了线程，这真的加快了代码的速度。问题是，这个脚本抓取了很多站点，我喜欢在使用线程的时候以“批处理”的方式来处理。当我有一个包含1000个项目的数组时，我想要抓取10个项目。当脚本完成这10个项目时，抓取10个新项目，直到什么都没有了from multiprocessing import Pool return

浏览 0提问于2017-06-28得票数 0

3回答

从许多不同网站上抓取数据的最好方法

、、

此数据不是以任何标准格式(XML、RSS等)提供的并且必须从HTML中抓取。我需要抓取这些数据，并将其存储在数据库中以备将来参考。理想情况下，抓取例程将在循环的基础上运行，并且只将新记录存储在数据库中。对于我来说，应该有一种方法可以在这些网站上轻松地检测到旧记录中的新记录。有什么建议吗？

浏览 0提问于2012-09-04得票数 0

1回答

webcrawling-有哪些可能的方法来检测使用javascript加载的页面？

我想抓取一些网站。我正在使用selenium/PhantomJS抓取JS(react、angular、jquery等)。和python爬行其他所有的东西。我的主要问题是，我无法区分页面是否使用JS加载。任何想法都将受到欢迎！

浏览 2提问于2018-03-15得票数 0

1回答

如何从javascript文件运行我的纯python (.py)文件

、、

我正在创建一个网站，从一个网站抓取数据，并在我的网站上显示该数据。我使用selenium进行抓取，这完全是用python编写的，它可以将抓取的数据转换为JSON。首先，如何通过虚拟主机在web浏览器中运行python文件。其次，我想要的是每天我的Javascript代码运行python文件，这样每当网站更新时，更新的数据也会显示在我的网站上。谁能指导我如何从Javascript运行Python文件。我也看过Brython，但它不能运行我的python

浏览 147提问于2021-01-03得票数 0

1回答

如何知道你是否被屏蔽从一个网站的网页刮刮？

、

catch (e){}</script> <script type="text/javascript" src="/fundadst.rvezxdcvwbzdewcsbar.js

浏览 6提问于2019-11-01得票数 0

回答已采纳

4回答

Web爬行并将数据提供给我的角度网页

、、

所以我现在使用的是角，我想知道是否可以使用网络抓取和提供信息，我得到了我的角度Webpage.Is，有一个方法，如果是这样，有什么好的做法，你可以推荐吗？我可以将我的Python代码或者更具体的结果与我的结合起来吗？非常感谢你的帮助。

浏览 7提问于2020-04-08得票数 1

回答已采纳

1回答

从Python调用JavaScript (第三方库)

、

另一种方法是使用selenium和无头铬或本地node.js服务，但这两种方法听起来都很重。

浏览 0提问于2019-10-21得票数 0

2回答

Django: Postgresql中不存在关系

、

每当我在ubuntu中运行我的项目的python manage.py时，它都会引发以下错误。我被卡住了。我找不到解决办法，请帮帮忙。/home/vagrant/.envs/mycars/lib/python3.4/site-packages/djorm_pgfulltext/models.py:323: RemovedInDjango18Warning%s' % (app_config.name, module_to_search)) File "

浏览 5提问于2015-08-22得票数 2

回答已采纳

1回答

在python中浏览/解析html页面

、、、、

我正在使用Python3，到目前为止，我有Request用于简单的网页加载、自定义get和post消息，BeautifulSoup用于解析HTML树，我正在考虑尝试机械化来进行简单的网页交互。是否有某种集合的地方，所有的Python库挂起？因为我有时会发现很难找到我要找的东西。

浏览 3提问于2014-04-17得票数 1

回答已采纳

2回答

使用Python自动化创建例程的最佳方法

、

它应该做的是浏览几个网站，点击一些按钮，抓取所需的信息，存储收集的信息，并填写一些表格。使用Python可以做到这一点吗？如果是，那么最紧凑的方法是什么？

浏览 1提问于2013-05-06得票数 0

1回答

如何在使用BeautifulSoup浏览网页时提取javascript中的内容

、、、

我在某处读到BS只解析HTML内容，而不解析JS部分。我该怎么做呢？要快速遍历，请查找我想要抓取的ModuleId 372309。谢谢！！ <script type="text/javascript" src="//www.walmart.com/c/midas/hl.js"></script"><

浏览 2提问于2014-04-13得票数 0

2回答