首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >⛳️ 黄页 字体反爬 实战场景

⛳️ 黄页 字体反爬 实战场景

作者头像
梦想橡皮擦
发布2022-08-30 15:31:55
发布2022-08-30 15:31:55
8540
举报

目录

⛳️ 黄页 字体反爬 实战场景

本次采集的目标站点为 https://huangye88.com ,首页截图如下所示。

在官网找到【企业黄页】选项卡,然后得到如下界面,其中涉及的信息如下,随机找到一个企业公开数据。

在公司黄页详情页可以查看到联系人和联系号码。

这里明显看到手机字体与其它字体有所差异,通过开发者工具进行验证之后,确定存在字体反爬。

保存字体文件,得到下述字体矢量图。

结果字体的编码是固定的英文,那这字体反爬的难度就变的极低了。

⛳️ 实战编码

通过开发者工具可以找到字体文件在网页源码中,所以我们编写一下相关提取代码。

代码语言:javascript
复制
import re

import requests
import base64
from fontTools.ttLib import TTFont

url = 'https://b2b.huangye88.com/qiye1edkfp0964c7/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Safari/537.36'
}

res_text = requests.get(url=url, headers=headers).text
ba64 = re.findall('base64,(.*?)\"\)', res_text)[0]
# print(ba64)

data = base64.b64decode(ba64)
with open('./fonts/519.woff', 'wb') as f:
    f.write(data)
font = TTFont('./fonts/519.woff')
font.saveXML('./fonts/519.xml')

得到字体之后,保存的 XML 文档如下所示。

本案例已经结束。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ⛳️ 黄页 字体反爬 实战场景
  • ⛳️ 实战编码
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档