某网站的店铺列表页以及详情页和评论页的加密不一样
店铺列表页的加密为字体加密,打开网页源代码就可以看到显示的都是 &#x****
这种类型的数据。
所以只要找到字体文件。在右上角的css
文件点击,就会进入到该 css
文件。
在 css
文件中就找到了这个字体文件,直接访问就可以下载下来。需要主要的每一个 class
对应一个字体文件
可以分别保存到数据库,做相应处理。
使用 FontCreator
打开该字体文件
由于大众点评对相应的 unicode
码进行了处理,所以就只能使用一些识图的 api
或者工具,识别出其中的内容,并保存构造相应的字典。因为大众点评的字体文件会更新,所以建议可以保存到 reids
中,方便处理。
注意:第一页时 URL
不能加 p
, 从第二页开始就可以加了。评论需要登录后的 cookies
。
ip
的抓取频率不能太快,或者加上代理 ip
建立 cookie
池
这个具体的大家直接去百度吧。
本文分享自 Python爬虫scrapy 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!