Python爬取中国裁判文书网

文章来源：企鹅号 - Python凡梦

需要获取的数据：2018年上海市的刑事案件接下来进入实战讲解。

第一步，观察换页之后的网页地址变化规律。打开中国裁判文书网2018年上海市刑事案件的第一页，在换页时，如下图中的地址，发现网址是完全不变的，这种情况就是属于隐藏，使用抓包分析进行爬取。

第二步，查找变化字段。从Fiddler中可以找到，获取某页的文书数据的地址：http://wenshu.court.gov.cn/Li...

可以发现没有对应的网页变换，意味着中国裁判文书网换页是通过POST进行请求，对应的变化数据不显示在网址中。通过F12查看网页代码，再换页操作之后，如下图，查看ListContent，其中有几个字段需要了解：

Param:检索条件

Index:页码

Page:每页展示案件数量

...

重要的是最后三个字段（vl5x,number,guid）该如何获取？首先，guid即uuid，叫全球唯一标识，是利用python中的uuid随机生成的字段。其次是number字段，找到ListContent上面的GetCode请求，恰好其Response中包含了number字段的值。而GetCode又是通过POST请求的，发现请求的字段只要guid这一项,那么问题便迎刃而解。

最后，难点在于vl5x字段如何获取？打开Fiddler，在换页操作后，查看ListContent中的vl5x的值，并在此次ListContent之前出现的数据包中的TextView里寻找这个字段或值，一般的网站可以很容易找到，但中国裁判文书网是政府网站，反爬策略非常高明，寻找的过程需要极高的耐心。

事实上，中国裁判文书网的vl5x字段可以从某个js包中获得，获取的方式是通过getKey()函数。从网页源代码中找到getKey()函数的js代码，由于代码是packed状态，用unpacked工具，将其进行解码，后利用js界面美观工具可以方便理解。

但无关紧要，只需直接将getKey()函数s代码复制到unpack_js.html中，就可以解出vl5x字段的值，其中需要用到Cookie中的vjkl5字段值。需要注意提前下载好base64.js和md5.js，并在unpack_js.html加载。

第三步，以下是中国裁判文书网爬虫完整代码：

发表于: 2019-01-282019-01-28 16:10:33
原文链接：https://kuaibao.qq.com/s/20190128A0QJOV00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Python爬取中国裁判文书网

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐