前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于某点评网站的字体加密以及 CSS 加密

关于某点评网站的字体加密以及 CSS 加密

作者头像
andrew_a
发布2020-03-11 13:38:20
1.5K0
发布2020-03-11 13:38:20
举报
文章被收录于专栏:Python爬虫与数据分析

破解大众点评的加密

某网站的店铺列表页以及详情页和评论页的加密不一样

店铺列表页的加密为字体加密,打开网页源代码就可以看到显示的都是 &#x**** 这种类型的数据。

所以只要找到字体文件。在右上角的css 文件点击,就会进入到该 css 文件。

css 文件中就找到了这个字体文件,直接访问就可以下载下来。需要主要的每一个 class 对应一个字体文件

可以分别保存到数据库,做相应处理。

使用 FontCreator 打开该字体文件

由于大众点评对相应的 unicode 码进行了处理,所以就只能使用一些识图的 api 或者工具,识别出其中的内容,并保存构造相应的字典。因为大众点评的字体文件会更新,所以建议可以保存到 reids 中,方便处理。

评论抓取

注意:第一页时 URL 不能加 p , 从第二页开始就可以加了。评论需要登录后的 cookies

ip 的抓取频率不能太快,或者加上代理 ip

建立 cookie

这个具体的大家直接去百度吧。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫scrapy 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 破解大众点评的加密
  • 评论抓取
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档