JSON是一种与XML在格式上很像, 但是占用空间更小的数据交换格式, 全程是 JavaScript Object Notation, 本文中的36Kr动态加载时获取到的信息就是JSON类型的数据....网站为了节省空间, 加快响应, 常常没有对 JSON 进行格式化, 导致 JSON 的可读性差, 难以寻找我们要的信息....我们通过右键打开获取到的 XHR 请求, 然后看看数据是怎样的
[izgjhxaak7.png]
[未使用JSON Handle前]
[使用后]
使用 Json Handle 后的数据可读性就很高了
Step...不同的是获取信息不再通过Xpath这些工具, 而是直接通过 JSON 取值
取值方式简单粗暴, 点击对应的内容就可以看路径了
[JSON Handle查看路径]
接着用scrapy shell工具测试下正确性...json
import re
from scrapy import Request
from ..items import FinvestItem
class A36krSpider(scrapy.Spider