最有深度的研究笔记由程序员界最会排版的追星族运营
文章信息
作者: Lateautumn4lin 来源:云爬虫技术研究笔记
AKA 逆向小学生
郑重声明:本项目的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,因为滥用技术产生的风险与本人无关。
这篇文章是公众号《云爬虫技术研究笔记》的《2019年末逆向复习系列》的第六篇:《从猫眼字体反爬分析谈谈字体反爬的前世今生》
本次案例的代码都已上传到Review_Reverse上面,后面会持续更新,大家可以Fork一波。
「
背景分析
」
「
历史分析
」
python -m fonts.xxxx
首先我们先理解字体反爬的原理,就是前端工程师通过自定义的字体来替换页面中某些关键的数据,那在HTML中如何使用自定义字体呢?答案就是使用@font-face,我们举个例子看看@font-face
@font-face {
font-family: <identifier>;
src: <fontsrc> [, <fontsrc>]*; <font>;
}
里面的font-family也就是一个特定的名字,src就表示你需要引用的具体的文件,而这个文件就是字体文件,一般是ttf类型,eot类型,当然,现在因为ttf文件过大,在移动端使用的时候会导致加载速度过慢,woff类型的文件最近也广泛会用,所以一般大家现在碰到的都是woff类型的文件。那woff文件中的内容是什么呢?它是怎样把数据进行替换的呢?下面我们先简单的看个例子。 我们先把woff文件打开,需要使用两种工具打开:
这里我们使用FontCreator,我们把FontCreator下载下来,传来一个我们之前准备好的woff文件看看效果
我们可以看到woff文件中每个字符都有一个编码对应,woff实际上就是编码和字符的映射表。我们再来看看页面中的被替换的词是什么形式
我们对比下可以发现,页面源码中的被替换字的就是woff文件中字符的编码加上$#x,所以大家可以发现字体替换的原理就是这样,我们使用一个简单的等式来表现
“替换数据”=“$#x{woff文件中被替换数据的编码}”
现在我们懂得了原理,下面开始回顾下字体反爬的演变历程
1. 阶段一:通过固定的字体文件进行数据替换
from pathlib import Path
from fontTools.ttLib import TTFont
woff_path = Path(__file__).absolute().parent/"base64 (1).woff"
font = TTFont(woff_path)
font_names = font.getGlyphOrder()
font_str = [
"8", "验", "杨", "女", "3", "届", "7", "男", "高", "赵", "6", "2", "下", "以", "技", "黄", "周",
"4", "经", "专", "硕", "刘", "吴", "陈", "士", "E", "5", "中", "博", "1", "科", "大", "9", "本",
"王", "B", "无", "李", "应", "生", "校", "A", "0", "张","M"
]
print(dict(zip(font_names[2:],font_str)))
我们解析woff文件得到一定顺序的编码集再结合在FontCreator中的字符集得到字符编码字典,在我们解析HTML源码的时候替换就行了。
{'uniE032': '8', 'uniE200': '验', 'uniE267': '杨', 'uniE2DF': '女', 'uniE34E': '3', 'uniE39C': '届',
'uniE42A': '7', 'uniE481': '男', 'uniE51F': '高', 'uniE555': '赵
', 'uniE595': '6', 'uniE608': '2', 'uniE6CD': '下', 'uniE72D': '以', 'uniE7C1': '技', 'uniE7C6': '黄',
'uniE7D3': '周', 'uniE841': '4', 'uniE84B': '经', 'uniE8A4': '专', 'uniE8E6': '硕', 'uniE8F4': '刘',
'uniE906': '吴', 'uniE9CF': '陈', 'uniEA8F': '士', 'uniEB2C': 'E', 'uniEBBA': '5', 'uniEBE2': '中', 'uniED0E': '博',
'uniEF3E': '1', 'uniF003': '科', 'uniF012': '大', 'uniF01A': '9', 'uniF02F': '本',
'uniF0D7': '王', 'uniF160': 'B', 'uniF180': '无', 'uniF205': '李', 'uniF2A0': '应', 'uniF3B5': '生', 'uniF501': '校',
'uniF6E9': 'A', 'uniF71C': '0', 'uniF76F': '张', 'uniF877': 'M'}
2. 阶段二:字体信息不换,动态更换字符编码
from pathlib import Path
from fontTools.ttLib import TTFont
font1_path = Path(__file__).absolute().parent/"font_1.xml"
font2_path = Path(__file__).absolute().parent/"font_2.xml"
woff1_path = Path(__file__).absolute().parent/"base64 (1).woff"
woff2_path = Path(__file__).absolute().parent/"base64 (2).woff"
font_1 = TTFont(woff1_path)
font_2 = TTFont(woff2_path)
font_1.saveXML(font1_path)
font_2.saveXML(font2_path)
得到文件是这样的
我们根据刚才生字的两个不同编码寻找,得到下面这两个结构
我们可以看到,虽然这两个字符的坐标不一样,但是从旧字符根据一定的偏移量可以得到新字符,所以我们破解这一代字体反爬的手段可以是把最先的字符和字符的坐标保留下来,之后请求得到的字符和字符坐标,根据一定量的偏移去匹配是否是同一个字,类似这样
from pathlib import Path
from fontTools.ttLib import TTFont
woff1_path = Path(__file__).absolute().parent/"base64 (1).woff"
woff2_path = Path(__file__).absolute().parent/"base64 (2).woff"
font_1 = TTFont(woff1_path)
font_2 = TTFont(woff2_path)
font_old_order = font_1.getGlyphOrder()[2:]
font_new_order = font_2.getGlyphOrder()[2:]
def get_font_flags(font_glyphorder, font_ttf):
f = {}
for i in font_glyphorder:
flags = font_ttf['glyf'][i]
if "flags" in flags.__dict__:
f[tuple(list(flags.flags))] = i
return f
def comp(arr1, arr2):
if len(arr1) != len(arr2):
return 0
for i in range(len(arr2)):
if arr1[i] != arr2[i]:
return 0
return 1
def get_old_new_mapping():
old, new = get_font_flags(font_glyphorder=font_old_order, font_ttf=font_1), get_font_flags(
font_glyphorder=font_new_order, font_ttf=font_2)
result_dict = {}
for key1, value1 in old.items():
for key2, value2 in new.items():
if comp(key1, key2):
result_dict[value1] = value2
return result_dict
print(get_old_new_mapping())
我们会得到新旧两个字符的映射
{'uniE032': 'uniF889', 'uniE595': 'uniEB52', 'uniF01A': 'uniF07A', 'uniF71C': 'uniEBDE'}
3. 阶段三:有了动态的编码,再搞个动态字体坐标?
反爬方:动态更换字符编码集也能根据字体坐标来破解,要是新旧两个字符的坐标不是按照一定的偏移量来做的呢?例如我们新的字符和旧的字符的字体不一样,新的字体做了一定量的变形,导致某些坐标的缺少以及坐标的偏移量不一致,所以可以做几百套不同字体坐标,不同字符编码的动态字体集(真的变态!)。
应对方:这一阶段的反爬看到过很多大佬的实现:
4. 阶段四:展望未来。。。
整个字体反爬的演变历程就是上面介绍的这样,下面我们开始做实战分析。
「
猫眼实战分析
」
猫眼国内票房榜地址
猫眼字体反爬分析
猫眼字体KNN思路分析
「
代码实战
」
python -m maoyan.xxxx
我们这次使用Sklearn来做KNN
1. 收集猫眼的多套字体文件
def get_font_content() -> str:
response = requests.get(
url=_brand_url,
headers=_headers
)
woff_url = re.findall(r"url\('(.*?\.woff)'\)", response.text)[0]
font_url = f"http:{woff_url}"
return requests.get(font_url).content
def save_font() -> None:
for i in range(5):
font_content = get_font_content()
with open(f'./fonts/{i+1}.woff', 'wb') as f:
f.write(font_content)
def get_coor_info(font, cli):
glyf_order = font.getGlyphOrder()[2:]
info = list()
for i, g in enumerate(glyf_order):
coors = font['glyf'][g].coordinates
coors = [_ for c in coors for _ in c]
coors.insert(0, cli[i])
info.append(coors)
return info
把FontCreator的字符补充上
def get_font_data() -> List[List[List[int]]]:
font_1 = TTFont('./fonts/1.woff')
cli_1 = [6, 7, 4, 9, 1, 2, 5, 0, 3, 8]
coor_info_1 = get_coor_info(font_1, cli_1)
font_2 = TTFont('./fonts/2.woff')
cli_2 = [1, 3, 2, 7, 6, 8, 9, 0, 4, 5]
coor_info_2 = get_coor_info(font_2, cli_2)
font_3 = TTFont('./fonts/3.woff')
cli_3 = [5, 8, 3, 0, 6, 7, 9, 1, 2, 4]
coor_info_3 = get_coor_info(font_3, cli_3)
font_4 = TTFont('./fonts/4.woff')
cli_4 = [9, 3, 4, 8, 7, 5, 2, 1, 6, 0]
coor_info_4 = get_coor_info(font_4, cli_4)
font_5 = TTFont('./fonts/5.woff')
cli_5 = [1, 5, 8, 0, 7, 9, 6, 3, 2, 4]
coor_info_5 = get_coor_info(font_5, cli_5)
infos = coor_info_1 + coor_info_2 + coor_info_3 + coor_info_4 + coor_info_5
return infos
2. 使用knn算法训练数据
import numpy as np
import pandas as pd
from maoyan.font import get_font_data
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
def main() -> None:
# 处理缺失值
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
data = pd.DataFrame(imputer.fit_transform(pd.DataFrame(get_font_data())))
# 取出特征值\目标值
x = data.drop([0], axis=1)
y = data[0]
# 分割数据集
# x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)
x_train = x.head(30)
y_train = y.head(30)
x_test = x.tail(10)
y_test = y.tail(10)
# 标准化
# std = StandardScaler()
# x_train = std.fit_transform(x_train)
# x_test = std.transform(x_test)
# 进行算法流程
knn = KNeighborsClassifier(n_neighbors=1)
# 开始训练
knn.fit(x_train, y_train)
# 预测结果
y_predict = knn.predict(x_test)
print(y)
# 得出准确率
print(knn.score(x_test, y_test))
3. 得到训练好的流程之后我们进行测试
def get_board() -> None:
map_dict = get_map(
text=requests.get(
url=_board_url,
headers=_headers
).text
)
for uni in map_dict.keys():
text = text.replace(uni, map_dict[uni])
html = etree.HTML(text)
dd_li = html.xpath('//dl[@class="board-wrapper"]/dd')
for dd in dd_li:
p_li = dd.xpath(
'./div[@class="board-item-main"]//div[@class="movie-item-info"]/p')
title = p_li[0].xpath('./a/@title')[0]
star = p_li[1].xpath('./text()')[0]
releasetime = p_li[2].xpath('./text()')[0]
p_li = dd.xpath(
'./div[@class="board-item-main"]//div[@class="movie-item-number boxoffice"]/p')
realtime_stont = ''.join(
list(map(lambda x: x.strip(), p_li[0].xpath('.//text()'))))
total_stont = ''.join(
list(map(lambda x: x.strip(), p_li[1].xpath('.//text()'))))
print(title)
print(star)
print(releasetime)
print(realtime_stont)
print(total_stont)
print('-' * 50)
get_board()
把训练好的结果和官网对比一下,是不是感觉美滋滋,连最新的字体反爬也被我们破解啦!
「
复习要点
」
号主介绍
多年反爬虫破解经验,AKA“逆向小学生”,沉迷数据分析和黑客增长不能自拔,虚名有CSDN博客专家和华为云享专家。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有