首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >​HOG特征也可以作为图像重建的目标!FAIR&JHU提出新的one-stage自监督预训练模型MaskFeat!

​HOG特征也可以作为图像重建的目标!FAIR&JHU提出新的one-stage自监督预训练模型MaskFeat!

作者头像
CV君
发布于 2022-01-20 05:59:39
发布于 2022-01-20 05:59:39
5520
举报

写在前面

在本文中,作者提出了用于视频模型自监督预训练的掩蔽特征预测(Masked Feature Prediction,MaskFeat)。本文的方法首先随机掩蔽输入序列的一部分,然后预测掩蔽区域的特征。

作者研究了五种不同类型的特征,并发现梯度方向直方图(HOG),这是一种手工设计的特征描述符,在性能和效率方面都非常有效。在早期的视觉识别工作中,使用HOG进行局部对比度归一化是非常必要的。

本文的方法可以学习丰富的视觉知识并驱动基于Transformer的大型模型。在不使用额外模型权重或监督的情况下,在未标记视频上预训练的MaskFeat在Kinetics-400上使用MViT-L获得了86.7%的性能,在Kinetics-600上达到了88.3%,在Kinetics-700上达到了80.4%,在AVA上达到了38.8%的mAP,在SSv2上达到了75.0%。

MaskFeat进一步推广到图像输入,可以将其表示为单帧视频,并在ImageNet上获得具有竞争力的结果。

1. 论文和代码地址

Masked Feature Prediction for Self-Supervised Visual Pre-Training

论文地址:https://arxiv.org/abs/2112.09133

代码地址:未开源

2. Motivation

自监督预训练在自然语言处理方面取得了惊人的成功,为具有十亿规模数据的大型Transformer提供了支持。其基本思想是一个非常简单的掩蔽和预测(mask-and-predict)任务,即首先掩蔽文本中的一些token,然后预测给定可见文本的不可见内容。

人类有一种非凡的能力来预测世界是如何出现和移动的。如上图的第一列所示,即使看不到隐藏的内容,我们也能够通过使用相关的可见部分的视觉知识来理解对象结构并绘制想象信息的大致轮廓。

在这项工作中,作者表明了预测某些mask特征(例如第2列中的梯度直方图)可以成为自监督视觉预训练的强大目标,特别是在包含丰富视觉信息的视频域中。

视觉和语言之间的一个本质区别是,视觉没有预先存在的词汇来将预测任务塑造成一个明确的分类问题。原始时空视觉信号是连续且密集的,这对mask视觉预测提出了重大挑战。

一个直接的解决方案是通过构建一个视觉词汇表来模拟语言词汇表,该词汇表将帧patch离散化为token,如BEiT中所述。然而,这需要额外的tokenizer,这在计算密集型视频理解场景中可能受到限制。

作者提出了掩蔽特征预测(MaskFeat),这是一个直接回归mask内容特征的预训练目标。具体而言,本文的方法使用视觉Transformer主干接收mask时空输入,并预测mask内容的特定特征表示。通过这种方式,预训练的模型获得了对密集视觉信号中复杂的时空结构的充分理解。

作者研究了广泛的特征类型,从像素值和手工制作的特征描述符到离散的视觉token,深度网络的激活以及网络预测中的伪标签。实验结果表明:

1)梯度方向直方图 (上图中的中心列)就性能和效率而言,是MaskFeat的一个特别有效的目标。

2)mask视觉预测不需要对视觉信号进行离散化,连续特征回归可以很好地工作。

3)来自人类标注的语义知识并不总是有助于MaskFeat。

本文的方法在概念上和实现上都很简单,MaskFeat使用单个网络预测每个样本的单个视图。与以前的mask视觉预测方法相比,带有HOG的MaskFeat不涉及任何外部模型,例如dVAE。结果表明,MaskFeat能够对具有较好泛化能力的大规模视频模型进行预训练。

3. 方法

3.1. Masked Feature Prediction

本文的方法执行mask视觉预测任务,该任务首先随机mask视频中的几个时空立方体,然后根据剩余的视频预测被mask的时空立方体。通过对mask样本建模,该模型在识别物体的部分和运动上实现了视频理解。

该任务的一个关键组成部分是预测目标。Masked language modeling将语料库标记为目标词汇。相比之下,原始视觉信号是连续的、高维的,并且没有可用的自然词汇。在MaskFeat中,作者提出预测mask区域的特征,通过从原始完整样本中提取的特征提供监督。

在典型的视频视觉Transformer中,视频首先被划分为时空立方体,然后将多维数据集投影(即卷积)到token序列。为了执行mask,序列中的一些token通过被替换为[MASK] token来随机mask。

为了进行预测,[MASK] token替换后的token序列(添加了位置嵌入)由Transformer处理。mask立方体的输出token通过线性层投影到预测。输出通道的数量根据特定目标特征进行调整(例如,如果预测16×16 patch中像素的RGB颜色,则为3×16×16)。损失函数仅对mask立方体进行操作,如上图所示。

MaskFeat可以很容易地在图像域中实例化,它可以被解释为一个单帧视频。大多数操作都是共享的,只是没有时间维度,每个token只表示空间patch,而不是时空立方体。

3.2. Target Features

作者考虑了不同类型的目标特征。目标分为两类:

1)可直接获得的一阶段(one-stage)目标,包括像素颜色和HOG。

2) 由预训练的深层网络或教师模型提取的两阶段(two-stage)目标。

由于预测两阶段目标是从预训练的深度网络教师那里有效地学习,因此它类似于模型蒸馏的一种形式;因此,教师模型的预训练和推理的额外计算成本是不可避免的。

Pixel colors

最直接的目标可以说是预测视频像素的颜色。具体而言,作者使用RGB值,该值通过数据集的平均值和标准差进行归一化。作者最小化了模型预测和Ground Truth之间RGB值之间的L2距离。

虽然简单,但作为目标的像素有一个潜在的缺点,即过度匹配局部统计数据(例如照明和对比度变化)和高频细节,这可能对视觉内容的解释不重要。

HOG

梯度方向直方图(HOG)是描述局部子区域内梯度方向或边缘方向分布的特征描述符。HOG描述符通过简单的梯度滤波(即减去相邻像素)来实现,以计算每个像素处梯度的大小和方向。

然后,将每个小局部子区域或单元内的梯度累积到多个单元的方向直方图向量中,由梯度大小投票。直方图归一化为单位长度。这些特征也用于著名的SIFT描述符,用于检测关键点,或以密集方式用于分类。

HOG的特点是捕捉局部形状和外观,同时只要平移在空间单元内并且旋转小于方向框大小,就不受几何变化的影响。此外,当图像梯度和局部对比度归一化亮度发生变化和前景背景对比度变化时,它提供了对亮度变化的不变性。

最后,HOG计算成本低,开销可以忽略不计。它可以实现为两通道卷积,以在x轴和y轴上生成梯度(或通过减去相邻的水平和垂直像素),然后进行histogramming和标准化。

本文的方法简单地预测mask patch的直方图。首先在整个图像上获得一个HOG特征图,然后将特征图分割为多个patch,而不是仅在mask patch上计算HOG。这样可以减少了每个mask patch边界上的填充。

然后对mask patch的直方图进行处理,并将其连接成一维向量作为目标特征。本文的损失最小化了预测和原始HOG特征之间的L2距离。

Discrete variational autoencoder (dVAE)

为了解决视觉信号的连续高维特性,DALL-E提出用dVAE码本压缩图像。特别是,每个patch被编码到一个token中,该token可以使用预先训练的dVAE模型假设为8192个可能值。现在的任务是通过优化交叉熵损失来预测mask token的分类分布。然而,预训练dVAE和tokenize图像会导致额外的计算成本。

Deep features

与离散token相比,作者也考虑了直接使用连续深网络特征作为预测目标。作者使用预训练过的模型作为教师生成特征,CNN或ViT,然后损失最小化了余弦距离。对于CNN教师,作者使用最后一层对应于mask token的特性,对于ViT,作者使用相应的输出patch token。

自监督模型中的特征被认为比监督模型中的特征包含更多不同的场景布局,并保留更多的视觉细节。监督学习的特征应该更具语义性,因为它们是通过人工标注进行训练的。

Pseudo-label

为了探索更高层次的语义预测目标,作者考虑mask patch的类标签。作者利用Token Labeling提供的标签,其中每个patch都分配了一个特定于位置的IN-1K伪标签。该类标签图由经过预训练的高性能监督深度教师网络生成,并通过交叉熵损失优化mask特征预测。

4.实验

上表展示了视频任务上重建不同特征的实验结果,可以看出重建HOG能够达到比较好的性能。

上表展示了ImageNet分类任务上重建不同特征的实验结果,可以看出重建HOG能够达到比较好的性能。

上表展示了Kinetics-400数据集上,本文方法和其他方法的实验结果对比。

上表展示了Kinetics-600和Kinetics-700数据集上,本文方法和其他方法的实验结果对比。

上表展示了AVA v2.2数据集上,本文方法的迁移结果。

上表展示了Something-Something v2数据集上,本文方法的迁移结果。

上表展示了不同mask策略的实验结果,可以看出用cube进行mask的实验结果是最好的。

上表展示了不同mask ratio的实验结果,可以看出mask ratio在40%的时候,实验效果较好。

上表展示了不同大小的模型在不同epoch数的实验结果。

上表展示了ImageNet-1K上本文方法和其他方法的对比结果。

上表展示了不同HOG实现下的实验结果。

上图展示了预测像素和预测HOG特征的实验结果。

上表展示了多任务下的实验结果,可以看出同时mask像素和HOG特征对实验结果并没有提升。

5. 总结

在本文中,作者将图像的mask modeling分成了两类,一种是one stage的,比如直接通过重建像素值,另一种是two stage的,比如重建通过DALL-E获得的离散code。

因此,作者尝试了重建多种特征,包括像素值、HOG特征、深度网络学习的特征等。作者发现,HOG特征能够在不需要预训练模型的情况下达到较好的实验性能。

相比于直接重建像素的one stage方法,它的性能更好;相比于其他two stage方法,它不需要额外预训练模型,在训练时也不需要复杂的特征计算过程。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
自监督预训练在自然语言处理方面取得了惊人的成功,其基本思路中包含着掩码预测任务。前段时间,何恺明一作的论文《Masked Autoencoders Are Scalable Vision Learners》提出了一种简单实用的自监督学习方案 MAE,将 NLP 领域的掩码预测(mask-and-predict)方法用在了视觉问题上。现在来自 Facebook AI 研究院(FAIR)的研究团队又提出了一种自监督视觉预训练新方法 MaskFeat。
机器之心
2022/02/18
5640
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
VideoMAE:南大MCG&腾讯AI Lab 提出第一个视频版MAE框架,使用90%甚至95%遮挡,性能SOTA!
本文分享论文『VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training』,由南大王利民团队提出第一个VideoMAE 框架,使用超高 masking ratio(90%-95%),性能SOTA,代码已开源!
CV君
2022/09/01
8000
VideoMAE:南大MCG&腾讯AI Lab 提出第一个视频版MAE框架,使用90%甚至95%遮挡,性能SOTA!
BEIT:基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源!
在本文中,作者介绍了一种自监督视觉表示模型BEIT (B idirectional E ncoder representation from I mage T ransformers)。继BERT在自然语言处理领域开发之后,作者提出了一种用于预训练视觉Transformer的masked image modeling 任务。
CV君
2021/12/02
1.1K0
BEIT:基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源!
北大美女学霸力压大神何恺明新作MAE!怒摘12个SOTA,灵感竟来自16年前CVPR论文
【新智元导读】近日,北大校友、约翰·霍普金斯大学博士生提出了一种新的方法:MaskFeat,力压大神何恺明的新作MAE,摘下12个SOTA!
新智元
2021/12/22
7700
北大美女学霸力压大神何恺明新作MAE!怒摘12个SOTA,灵感竟来自16年前CVPR论文
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
Transformer在自然语言处理方面取得了极大成功,而ViT将Transformer改进到了一系列计算机视觉任务上,包括图像分类、对象检测、语义分割等,同样取得了令人印象深刻的结果。而训练一个高效的ViT通常需要大规模的有监督数据集,预训练的ViT通过使用数亿张标记图像来获得良好的性能。对于视频任务中的Transformer,它们通常基于图像任务中的Transformer,并且在很大程度上依赖于来自大规模图像数据的预训练模型(例如在ImageNet上进行预训练)。
用户1324186
2024/05/31
4230
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
见微知著,掩码自监督学习让你一叶知秋
在前面的两篇文章中,我们介绍了基于各类代理任务 (Pretext Task) 和基于对比学习 (Contrastive Learning) 的自监督学习算法。
OpenMMLab 官方账号
2022/04/08
2.6K0
见微知著,掩码自监督学习让你一叶知秋
CVPR2022Mask Modeling在视频任务中也有效?复旦&微软提出Video版本BEVT,在多个视频数据集上SOTA!
本文分享 CVPR 2022 论文『BEVT: BERT Pretraining of Video Transformers』,复旦&微软提出 Video 版本 BERT,在多个视频数据集上SOTA!
CV君
2022/09/01
1.1K0
CVPR2022Mask Modeling在视频任务中也有效?复旦&微软提出Video版本BEVT,在多个视频数据集上SOTA!
多模态理解与生成,西南交大&MSRA提出统一的"视频和语言预训练"模型:UniVL!
本文分享论文『UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation』,由西南交大&MSRA提出《UniVL》,用于多模态理解和生成的统一视频和语言预训练模型!
CV君
2022/09/01
7340
多模态理解与生成,西南交大&MSRA提出统一的"视频和语言预训练"模型:UniVL!
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
本文提出一个用于掩码图像建模(masked image modeling)的简单框架SmiMIM。作者简化了最近提出的方法,而无需任何特殊设计,如利用离散VAE或聚类进行块级别的掩码和分词。为了让掩码图像建模任务能学到更好的表示,作者表示该框架中每个组件的简单设计已经能显示出其优异的学习能力:
Amusi
2021/12/01
1.1K0
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
​加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略!
图像包含大量冗余信息,这使得在大规模上高效地从图像中学习表示变得具有挑战性。最近的工作通过在视觉-语言对比学习过程中 Mask 图像块来解决这个问题[15, 33, 36, 70]。一种简单的方法是随机丢弃大量图像块,通过减少每次训练迭代的计算成本和内存使用来提高训练效率[36]。另一种策略是 Mask 语义相关的图像块集合[15, 33, 70],比如属于同一物体的块。这迫使学习到的模型从上下文中预测描述缺失场景结构的单词,从而改进了学习的表示。然而,这种方法需要单独的机制来将语义相关的块分组在一起,这增加了学习过程的复杂性并且计算成本高昂。
AIGC 先锋科技
2024/07/08
2750
​加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略!
VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
代码和预训练权重已经在Github开源:https://github.com/MCG-NJU/VideoMAE
新智元
2023/01/08
9460
VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
一个既能做CV任务,也能做NLP任务的Transformer模型!谷歌&UCLA提出统一的基础模型
本文分享论文『Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text』,由谷歌& UCLA 联合提出统一的基础模型,是一个既能做 CV 任务,也能做 NLP 任务的 Transformer 模型!
CV君
2022/01/20
5610
一个既能做CV任务,也能做NLP任务的Transformer模型!谷歌&UCLA提出统一的基础模型
万字综述!从21篇最新论文看多模态预训练模型研究进展
在传统的NLP单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于Transformer结构的多模态预训练模型,通过海量无标注数据进行预训练,然后使用少量有标注数据进行微调即可。
NewBeeNLP
2021/11/19
4.9K0
万字综述!从21篇最新论文看多模态预训练模型研究进展
字节&约翰斯·霍普金斯&上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!
语言Transformer的成功主要归功于masked language modeling(MLM) 的预训练任务,其中文本首先被标记为语义上有意义的片段。在这项工作中,作者研究了masked image modeling(MIM) ,并指出了使用语义上有意义的视觉标记器(visual tokenizer) 的优势和挑战。作者提出了一个自监督的框架iBOT ,它可以通过在线标记器(online tokenizer) 执行mask预测。
CV君
2021/12/13
8110
字节&约翰斯·霍普金斯&上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
机器之心专栏 机器之心编辑部 复旦大学、微软 Cloud+AI 的研究者将视频表征学习解耦为空间信息表征学习和时间动态信息表征学习,提出了首个视频 Transformer 的 BERT 预训练方法 BEVT。该研究已被 CVPR 2022 接收。 在自然语言处理领域,采用掩码预测方式的 BERT 预训练助力 Transformer 在各项任务上取得了巨大成功。近期,因为 Transformer 在图像识别、物体检测、语义分割等多个计算机视觉任务上取得的显著进展,研究人员尝试将掩码预测预训练引入到图像领域,通
机器之心
2022/04/24
8670
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!
本篇文章分享论文『Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality』,南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!
CV君
2022/09/01
6430
南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!
FAIR何恺明等人提出组归一化:替代批归一化,不受批量大小限制
选自arXiv 作者:吴育昕、何恺明 机器之心编译 自 Facebook 在 2017 年 6 月发布 1 小时训练 ImageNet 论文以来,很多研究者都在关注如何使用并行训练来提高深度学习的训练速度,其研究所使用的批尺寸也呈指数级上升。近日,FAIR 研究工程师吴育昕、研究科学家何恺明提出了组归一化(Group Normalization)方法,试图以小批尺寸实现快速神经网络训练,这种方法对于硬件的需求大大降低,并在实验中超过了传统的批归一化方法。 批归一化(Batch Norm/BN)是深度学习中非
朱晓霞
2018/04/18
8520
FAIR何恺明等人提出组归一化:替代批归一化,不受批量大小限制
FAIR 何恺明、Piotr、Ross等新作,MAE才是YYDS!仅用ImageNet1K,Top-1准确率87.8%!
在本文中,作者证明了masked autoencoders(MAE) 是一种可扩展的计算机视觉自监督学习方法。本文的MAE方法很简单:mask输入图像的随机patch,并重建丢失的像素 。它基于两个核心设计的。
CV君
2021/11/18
8580
FAIR 何恺明、Piotr、Ross等新作,MAE才是YYDS!仅用ImageNet1K,Top-1准确率87.8%!
追求极致速度,极简多模态预训练模型ViLT,推理速度比UNITER快60倍!(ICML2021)
视觉和语言预训练(VLP)提高了各种联合视觉和语言下游任务的表现。然而,当前的VLP方法严重依赖于图像特征提取的过程,其中大部分涉及区域监督(例如,目标检测)和卷积结构(例如,ResNet)。他们存在以下两方面的问题:
CV君
2022/03/23
1.1K0
追求极致速度,极简多模态预训练模型ViLT,推理速度比UNITER快60倍!(ICML2021)
MAE再次升级,FocusMAE开源 | 源于MAE又高于MAE,有更高质量的表征&全新的架构设计
胆管癌(GBC)。近来,自动检测GBC的技术引起了研究者的极大兴趣。GBC在早期很难被检测出来,而且当疾病被发现时大多数患者已经处于晚期,手术切除变得不可行。因此,这种疾病的生存统计数据非常惨淡。晚期GBC患者的5年生存率仅为5%,平均生存时间仅为六个月。因此,早期发现GBC对于及时干预和提高生存率至关重要。
集智书童公众号
2024/03/27
8740
MAE再次升级,FocusMAE开源 | 源于MAE又高于MAE,有更高质量的表征&全新的架构设计
推荐阅读
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
5640
VideoMAE:南大MCG&腾讯AI Lab 提出第一个视频版MAE框架,使用90%甚至95%遮挡,性能SOTA!
8000
BEIT:基于图像重建进行预训练!微软提出BEIT,Top-1准确率达86.3%!代码已开源!
1.1K0
北大美女学霸力压大神何恺明新作MAE!怒摘12个SOTA,灵感竟来自16年前CVPR论文
7700
NeurIPS 2022 | VideoMAE:掩蔽自编码器是自监督视频预训练的高效数据学习器
4230
见微知著,掩码自监督学习让你一叶知秋
2.6K0
CVPR2022Mask Modeling在视频任务中也有效?复旦&微软提出Video版本BEVT,在多个视频数据集上SOTA!
1.1K0
多模态理解与生成,西南交大&MSRA提出统一的"视频和语言预训练"模型:UniVL!
7340
续何恺明的MAE后!MSRA提出掩码图像建模新框架:SimMIM
1.1K0
​加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略!
2750
VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
9460
一个既能做CV任务,也能做NLP任务的Transformer模型!谷歌&UCLA提出统一的基础模型
5610
万字综述!从21篇最新论文看多模态预训练模型研究进展
4.9K0
字节&约翰斯·霍普金斯&上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!
8110
CVPR 2022 | 视频Transformer自监督预训练新范式,复旦、微软云AI实现视频识别新SOTA
8670
南理工&上海AI Lab提出Uniform Masking,为基于金字塔结构的视觉Transformer进行MAE预训练!
6430
FAIR何恺明等人提出组归一化:替代批归一化,不受批量大小限制
8520
FAIR 何恺明、Piotr、Ross等新作,MAE才是YYDS!仅用ImageNet1K,Top-1准确率87.8%!
8580
追求极致速度,极简多模态预训练模型ViLT,推理速度比UNITER快60倍!(ICML2021)
1.1K0
MAE再次升级,FocusMAE开源 | 源于MAE又高于MAE,有更高质量的表征&全新的架构设计
8740
相关推荐
比MAE更强,FAIR新方法MaskFeat用HOG刷新多个SOTA
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档