Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >StarNet:关于 Element-wise Multiplication 的高性能解释研究 | CVPR 2024

StarNet:关于 Element-wise Multiplication 的高性能解释研究 | CVPR 2024

原创
作者头像
VincentLee
发布于 2024-08-14 01:41:59
发布于 2024-08-14 01:41:59
2410
举报

论文揭示了star operation(元素乘法)在无需加宽网络下,将输入映射到高维非线性特征空间的能力。基于此提出了StarNet,在紧凑的网络结构和较低的能耗下展示了令人印象深刻的性能和低延迟来源:晓飞的算法工程笔记 公众号

论文: Rewrite the Stars

Introduction


  最近,通过元素乘法融合不同的子空间特征的学习范式越来越受到关注,论文将这种范例称为star operation(由于元素乘法符号类似于星形)。

  为了便于说明,论文构建了一个用于图像分类的demo block,如图 1 左侧所示。通过在stem层后堆叠多个demo block,论文构建了一个名为DemoNet的简单模型。保持所有其他因素不变,论文观察到逐元素乘法(star operation)在性能上始终优于求和,如图 1 右侧所示。

  在这项工作中,论文证明star operation具有将输入映射到极高维的非线性特征空间的能力,从而解释star operation的强表达能力。论文不依赖直观或假设的高级解释,而是深入研究star operation的细节。通过重写和重新表述star operation计算过程,论文发现这个看似简单的运算实际可以生成一个新的特征空间,含大约 $(\frac{d}{\sqrt{2}})^2$ 线性独立维度。

  与增加网络宽度(又称通道数)的传统神经网络不同,star operation类似于在不同通道上进行成对特征乘法的核函数,特别是多项式核函数。当应用到神经网络中并通过多层堆叠时,每一层都会带来隐式维度复杂性的指数增长。只需几层,star operation就可以在紧凑的特征空间内实现几乎无限的维度。在紧凑的特征空间内计算,同时受益于隐含的高维度,这就是star operation的独特魅力所在。

  根据上述见解,论文推断star operation本质上更适合高效、紧凑的网络,而不是常规使用的大型模型。为了验证这一点,论文提出了一种概念验证的高效网络StarNet,其特点是简洁和高效。StarNet非常简单,缺乏复杂的设计和微调的超参数。在设计理念上,StarNet与现有网络明显不同,如表 1 所示。利用star operationStarNet甚至可以超越各种精心设计的高效模型,如MobileNetv3EdgeViTFasterNet等。这些结果不仅从经验上验证了论文对恒星运行的见解,而且强调了其在实际应用中的实用价值。

  论文简要总结并强调这项工作的主要贡献如下:

  • 证明了star operation的有效性,如图 1 所示,揭示了star operation具有将特征投影到极高维隐式特征空间的能力,类似于多项式核函数。
  • 从分析中汲取灵感,确定了star operation在高效网络领域的实用性,并提出了概念验证模型StarNet。无需复杂的设计或精心选择的超参数即可实现高性能,超越了许多高效的设计。
  • 基于star operation存在大量未探索的可能性,论文的分析可以作为指导框架,引导研究人员远离随意的网络设计尝试。

Rewrite the Stars


Star Operation in One layer

  在单层神经网络中,star operation通常写为 $(\mathrm{W}{1}^{\mathrm{T}}\mathrm{X}+\mathrm{B}{1})\ast(\mathrm{W}{2}^{\mathrm{T}}\mathrm{X}+\mathrm{B}{2})$,通过逐元素乘法融合两个线性变换的特征。为了方便起见,将权重矩阵和偏置合并为一个实体 $\mathrm{W} = \Bigg\begin{array}{c}{\mathrm{W}}\{\mathrm{B}}\end{array}\Bigg$,同样地,通过 $\mathrm{X} = \Bigg\begin{array}{c}{\mathrm{X}}\{\mathrm{1}}\end{array}\Bigg$,得到star operation $(\mathrm{W}{1}^{\mathrm{T}}\mathrm{X})\ast(\mathrm{W}{2}^{\mathrm{T}}\mathrm{X})$。

  为了简化分析,论文重点关注涉及单输出通道转换和单元素输入的场景。具体来说,定义 $w_1, w_2, x \in \mathbb{R}^{(d+1)\times 1}$,其中 $d$ 为输入通道数。这可以随时进行 $\mathrm{W}_1, \mathrm{W}_2 \in \mathbb{R}^{(d+1)\times(d^{\prime}+1)}$ 扩展以适应多个输出通道,以及处理多元素输入 $\mathrm{X} \in \mathbb{R}^{(d+1)\times n}$。

  一般来说,可以通过以下方式重写star operation

$$

\begin{array}{l}

{{w{1}^{\mathrm{T}}x\ast w{2}^{\mathrm{T}}x}}

&

(1)

\

{{=\left(\sum{i=1}^{d+1}w{1}^{i}x^{i}\right)*\left(\sum{j=1}^{d+1}w{1}^{i}w_{2}^{j}x^{j}\right)}}

&

(2)

\

{{=\sum{i=1}^{d+1}\sum{j=1}^{d+1}w{1}^{i}w{2}^{j}x^{i}x^{j}}}

&

(3)

\

=\underbrace{{\alpha{(1,1)}x^{1}x^{1}+\cdots+\alpha{(4,5)}x^{4}x^{5}+\cdots+\alpha{(d+1,d+1)}x^{d+1}x^{d+1}}}{(d+2)(d+1)/2\ \mathrm{items}}

&

(4)

\end{array}

$$

  其中 $i,j$ 作为通道下标,$\alpha$ 为个子项的系数:

$$

{\alpha}{(i,j)}=\left{\begin{array}{c c}{{{w}{1}^{i}{w}{2}^{j}}}&{{\mathrm{if}\;i==j,}}\ {{{w}{1}^{i}{w}{2}^{j}+{w}{1}^{j}{w}_{2}^{i}}}&{{\mathrm{if}\;i!=j.}}\end{array}\right.

\quad\quad(5)

$$

  重写star operation后,可以将其展开为 $\frac{(d+2)(d+1)}{2}$ 个不同子项的组合,如等式 4 所示。值得注意的是,除了 $\alpha_{(d+1,:)}x^{d+1}x$ 的每个子项(这里是 $x^{d+1}$ 偏置项)都与 $x$ 呈非线性关联,表明它们是单独的隐式维度。

  因此,在 $d$ 维度空间中使用计算效率高的star operation,可以得到${\frac{(d+2)(d+1)}{2}}\approx(\frac{d}{\sqrt{2}})^2$($d\gg 2$)的隐式维度特征空间。从而在显著放大特征维度的同时,不会在单层内产生任何额外的计算开销,这个突出的属性与内核函数有着相似的理念。

Generalized to multiple layers

  通过堆叠多个层,可以递归地将隐式维度以指数方式增加到几乎无限。

  对于宽度为 $d$ 的初始网络层,应用一次star operation($\sum{i=1}^{d+1}\sum{j=1}^{d+1}w{1}^{i}w{2}^{j}x^{i}x^{j}$),可得到 $\mathbb{R}^{(\frac{d}{\sqrt{2}})^{2^{1}}}$ 的隐式特征空间内。

  让 ${O}_{l}$ 表示第 $l$ 个star operation的输出,可得:

$$

\begin{array}{l l}

{{O{1}=\sum{i=1}^{d+1}\sum{j=1}^{d+1}w{(1,1)}^{i}w_{(1,2)}^{j}x^{i}x^{j}\qquad\in\mathbb{R}^{({\frac{d}{\sqrt{2}}})^{2^{1}}}}}

&(6)

\

{{O{2}=\mathrm{W}{2,1}^{\mathrm{T}}\mathrm{O}{1}\ast\mathrm{W}{2,2}^{\mathrm{T}}O_{1}}}\qquad\qquad\qquad\,\,{{\in\,\mathbb{R}^{({\frac{d}{\sqrt{2}}})^{2^{2}}}}}

&(7)

\

{{O{2}=\mathrm{W}{3,1}^{\mathrm{T}}\mathrm{O}{2}\ast\mathrm{W}{3,2}^{\mathrm{T}}O_{2}}}\qquad\qquad\qquad\,\,{{\in\,\mathbb{R}^{({\frac{d}{\sqrt{2}}})^{2^{3}}}}}

&(8)

\

\cdots

&(9)

\

{{O{2}=\mathrm{W}{l,1}^{\mathrm{T}}\mathrm{O}{l-1}\ast\mathrm{W}{l,2}^{\mathrm{T}}O_{l-1}}}\qquad\qquad\quad\,\,{{\in\,\mathbb{R}^{({\frac{d}{\sqrt{2}}})^{2^{l}}}}}

&(10)

\end{array}

$$

  也就是说,通过堆叠 $l$ 层可以隐式获得 $\mathbb{R}^{({\frac{d}{\sqrt{2}}})^{2^{l}}}$ 维特征空间。例如,给定一个宽度为 128 的 10 层网络,通过star operation获得的隐式特征维数近似为 $90^{1024}$ ,相当于无限维度。因此,通过堆叠多个层,即使只有几个层,star operation也可以以指数方式大幅放大隐式维度。

Special Cases

  实际上,并非所有star operation都遵循公式 1 那样,两个分支都进行变换。例如,VANSENet包含一个identity分支,而GENet-$\theta^{-}$无需任何需学习的变换(池化、最近邻插值后乘回原特征)即可运行。

  • Case I: Non-Linear Nature of $\mathrm{W}{1}$ and/or $\mathrm{W}{2}$

  在实际场景中,大量研究(例如Conv2FormerFocalNet等)通过合并激活函数将变换函数 ${\mathrm{W}}{1}$ 和/或 ${\mathrm{W}}{2}$ 变为非线性。尽管如此,最重要的其实是看通道间的处理是否像公式 2 那样实现,是则其隐式维度仍然保持不变(大约为 $\frac{d}{\sqrt{2}})^2$ )。

  • Case II: $\mathrm{W}_{1}^{\mathrm{T}}\mathrm{X}\ast \mathrm{X}$

  当移除 $\mathrm{W}_{2}$ 变换时,隐式维度从大约 $\frac{d^{2}}{2}$ 减少到 $2d$。

  • Case III: $\mathrm{X}\ast \mathrm{X}$

  在这种情况下,star operation将特征从特征空间 ${{x}^{1},{x}^{2},\cdots,\;{x}^{d}} \in\mathbb{R}^{d}$ 转换为 ${{x}^{1}{x}^{1},{x}^{2}{x}^{2},\cdots,\;{x}^{d}{x}^{d}} \in\mathbb{R}^{d}$ 的新特征空间。

  有几个值得注意的方面需要考虑:

  • star operation及其特殊情况通常会(尽管不一定)与空间交互集成,比如通过池化或卷积实现线性变换。但许多这些方法只强调扩大感受野带来的好处,往往忽视隐式高维空间赋予的优势。
  • 组合这些特殊情况是可行的,如Conv2Former合并了Case ICase II,以及GENet-$\theta^{-}$混合了Case ICase III
  • 虽然Case IICase III可能不会显著增加单层的隐式维度,但使用线性层(主要用于通道通信)和skip连接依然可以通过堆叠多个层来实现高隐式维度。

Proof-of-Concept: StarNet


  鉴于star operation的独特优势—在低维空间中计算的同时产生高维特征,论文确定了其在高效网络架构领域的实用性。因此,论文提出StarNet作为概念验证模型,特点是极其简约的设计和显著减少的人为干预。尽管StarNet很简单,但它展示了卓越的性能,强调了star operation的功效。

StarNet Architecture

StarNet采用 4 级分层架构,利用卷积层进行下采样,并使用修改后的demo block进行特征提取。为了满足效率的要求,将Layer Normalization替换为Batch Normalization,并将其放置在深度卷积之后(可以在推理时融合)。受到MobileNeXt的启发,论文在每个块的末尾加入了一个深度卷积。通道扩展因子始终设置为 4,网络宽度在每个阶段加倍。遵循MobileNetv2设计,demo block中的GELU激活被替换为ReLU6

Experimental


Star Operation

StarNet

如果本文对你有帮助,麻烦点个赞或在看呗~undefined更多内容请关注 微信公众号【晓飞的算法工程笔记】

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LORS:腾讯提出低秩残差结构,瘦身模型不掉点 | CVPR 2024
论文: LORS: Low-rank Residual Structure for Parameter-Efficient Network Stacking
VincentLee
2024/04/22
2260
LORS:腾讯提出低秩残差结构,瘦身模型不掉点 | CVPR 2024
Latex数学公式符号编写大全
LaTeX是一种标记语言,主要用于创建高质量的学术文档,特别是数学、物理和计算机科学领域的文档。它基于TeX排版系统,由美国数学家Donald E. Knuth开发。在LaTeX中,你可以轻松地编写复杂的数学公式,并控制文档的布局和样式。
皮大大
2023/08/29
2.4K0
LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重 | CVPR 2024
论文: You Only Need Less Attention at Each Stage in Vision Transformers
VincentLee
2024/09/02
1360
LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重 | CVPR 2024
CeiT:商汤提出结合CNN优势的高效ViT模型 | 2021 arxiv
论文: Incorporating Convolution Designs into Visual Transformers
VincentLee
2024/05/23
2280
CeiT:商汤提出结合CNN优势的高效ViT模型 | 2021 arxiv
PeLK:101 x 101 的超大卷积网络,同参数量下反超 ViT | CVPR 2024
论文: PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution
VincentLee
2024/04/24
3310
PeLK:101 x 101 的超大卷积网络,同参数量下反超 ViT | CVPR 2024
YoloV9改进策略:主干网络篇|StarNet,重写星操作
本文主要集中在介绍和分析一种新兴的学习范式——星操作(Star Operation),这是一种通过元素级乘法融合不同子空间特征的方法,通过元素级乘法(类似于“星”形符号的乘法操作)将不同子空间的特征进行融合,从而在多个研究领域中展现出出色的性能和效率。
AI浩
2024/10/22
8870
YoloV9改进策略:主干网络篇|StarNet,重写星操作
Involution:空间不共享?可完全替代卷积的高性能算子 | CVPR 2021
论文: Involution: Inverting the Inherence of Convolution for Visual Recognition
VincentLee
2022/06/20
7840
Involution:空间不共享?可完全替代卷积的高性能算子 | CVPR 2021
ICCV 2023 | 基于模型的深度视频压缩
传统的混合视频编码框架和现有的基于深度学习的视频压缩(DLVC)方法都遵循相同的视频压缩方法,通过设计各种模块来减少空间和时间冗余。它们使用同一帧或相邻帧中的相邻像素作为参考来导出帧内或帧间预测值。由于视频序列是以高帧率(例如30fps或60fps)捕获的,因此同一场景可能出现在时域中高度相关的数百个帧中。然而,现有的压缩策略并不能很好地去除块级或帧级预测中的场景冗余。
用户1324186
2023/10/24
1.4K0
ICCV 2023 | 基于模型的深度视频压缩
YoloV9改进策略:Block篇|即插即用|StarNet,重写星操作,使用Block改进YoloV9(全网首发)
本文主要集中在介绍和分析一种新兴的学习范式——星操作(Star Operation),这是一种通过元素级乘法融合不同子空间特征的方法,通过元素级乘法(类似于“星”形符号的乘法操作)将不同子空间的特征进行融合,从而在多个研究领域中展现出出色的性能和效率。
AI浩
2024/10/22
3760
YoloV9改进策略:Block篇|即插即用|StarNet,重写星操作,使用Block改进YoloV9(全网首发)
Bi-MTDP:通过二值网络加速多任务密集预测,又快又提点 | CVPR 2024
论文: Efficient Multitask Dense Predictor via Binarization
VincentLee
2024/08/27
1470
Bi-MTDP:通过二值网络加速多任务密集预测,又快又提点 | CVPR 2024
SMCA:港中文提出注意力图校准的DETR加速方案 | ICCV 2021
论文: Fast Convergence of DETR with Spatially Modulated Co-Attention
VincentLee
2024/08/16
1140
SMCA:港中文提出注意力图校准的DETR加速方案 | ICCV 2021
ASE 2022 用于类比神经网络鲁棒性验证的可证更严格的近似值方法
该论文是关于神经网络鲁棒性理论类的文章。类似有Sigmoid激活函数的神经网络,由于其非线性,使得在进行神经网络鲁棒验证评估时,不可避免地会引入了不精确性。
CV君
2022/11/28
7860
ASE 2022 用于类比神经网络鲁棒性验证的可证更严格的近似值方法
SIGIR'22 序列推荐:对辅助信息解耦后再融合
本文考虑在序列推荐中对各种辅助信息进行融合来提升下一个商品的预测性能。大多数方法采用注意力方法,但是不同异构信息的混合相关性给注意力机制带来了额外的干扰,并且embedding的早期集成限制了注意力机制的表达能力。
秋枫学习笔记
2022/09/19
3920
CVPR 2024 | LORS算法:低秩残差结构用于参数高效网络堆叠,参数少、成本低、内存小
本文主要介绍 CVPR2024 录用文章LORS: Low-rank Residual Structure for Parameter-Efficient Network Stacking的主要工作。深度神经网络主要采用堆叠大量相似模块的设计范式。尽管这是一种有效的方式,但与此同时带来了参数量的显著增长,这给实际应用带来了挑战。本文算法LORS允许堆叠模块共享大多数参数,每个模块只需要少量参数就可以匹配甚至超过原始完全不同参数的方法,这显著减少了参数量。
CV君
2024/04/30
4960
CVPR 2024 | LORS算法:低秩残差结构用于参数高效网络堆叠,参数少、成本低、内存小
DiTAC:不知如何提升性能?试试这款基于微分同胚变换的激活函数 | ECCV'24
论文: Trainable Highly-expressive Activation Functions
VincentLee
2024/10/17
1800
DiTAC:不知如何提升性能?试试这款基于微分同胚变换的激活函数 | ECCV'24
【论文阅读】HIP network:Historical information passing network for extrapolation reasoning on temporal kno
authors:: Yongquan He, Peng Zhang, Luchen Liu, Qi Liang, Wenyuan Zhang, Chuang Zhang container:: Proceedings of the thirtieth international joint conference on artificial intelligence, IJCAI-21 year:: 2021 DOI:: 10.24963/ijcai.2021/264 rating:: ⭐ share:: false comment:: 时间知识图谱TKG,时间片上采用CompGCN,顺序关系上同时考虑时间片的顺序关系和实体对的顺序关系,并以三个得分函数为辅助进行推理。
EmoryHuang
2023/04/22
6200
【论文阅读】HIP network:Historical information passing network for extrapolation reasoning on temporal kno
NLP 论文领读|改善意图识别的语义表示:有监督预训练中的各向同性正则化方法
意图识别(intent detection)是面向任务对话系统的核心模块,其标注数据较少,所以研究怎样用少量数据训练出一个优秀的意图分类器(few-shot intent detection)有着很高的实用价值。
澜舟科技
2022/06/23
1.4K0
NLP 论文领读|改善意图识别的语义表示:有监督预训练中的各向同性正则化方法
SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解 | ECCV 2024
论文: A Spitting Image: Modular Superpixel Tokenization in Vision Transformers
VincentLee
2024/09/12
1300
SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解 | ECCV 2024
支持向量机(Support Vector Machines,SVM)
线性可分SVM学习方法,对线性不可分训练数据是不适用的,怎么将它扩展到线性不可分,需要修改硬间隔最大化,使其成为软间隔最大化。
Michael阿明
2020/07/13
1.9K1
支持向量机(Support Vector Machines,SVM)
YOLOv8优化创新:backbone改进 | 微软新作StarNet:超强轻量级Backbone | CVPR 2024
💡💡💡创新点:star operation(元素乘法)在无需加宽网络下,将输入映射到高维非线性特征空间的能力,这就是StarNet的核心创新,在紧凑的网络结构和较低的能耗下展示了令人印象深刻的性能和低延迟
AI小怪兽
2024/05/15
2.3K0
推荐阅读
LORS:腾讯提出低秩残差结构,瘦身模型不掉点 | CVPR 2024
2260
Latex数学公式符号编写大全
2.4K0
LaViT:这也行,微软提出直接用上一层的注意力权重生成当前层的注意力权重 | CVPR 2024
1360
CeiT:商汤提出结合CNN优势的高效ViT模型 | 2021 arxiv
2280
PeLK:101 x 101 的超大卷积网络,同参数量下反超 ViT | CVPR 2024
3310
YoloV9改进策略:主干网络篇|StarNet,重写星操作
8870
Involution:空间不共享?可完全替代卷积的高性能算子 | CVPR 2021
7840
ICCV 2023 | 基于模型的深度视频压缩
1.4K0
YoloV9改进策略:Block篇|即插即用|StarNet,重写星操作,使用Block改进YoloV9(全网首发)
3760
Bi-MTDP:通过二值网络加速多任务密集预测,又快又提点 | CVPR 2024
1470
SMCA:港中文提出注意力图校准的DETR加速方案 | ICCV 2021
1140
ASE 2022 用于类比神经网络鲁棒性验证的可证更严格的近似值方法
7860
SIGIR'22 序列推荐:对辅助信息解耦后再融合
3920
CVPR 2024 | LORS算法:低秩残差结构用于参数高效网络堆叠,参数少、成本低、内存小
4960
DiTAC:不知如何提升性能?试试这款基于微分同胚变换的激活函数 | ECCV'24
1800
【论文阅读】HIP network:Historical information passing network for extrapolation reasoning on temporal kno
6200
NLP 论文领读|改善意图识别的语义表示:有监督预训练中的各向同性正则化方法
1.4K0
SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解 | ECCV 2024
1300
支持向量机(Support Vector Machines,SVM)
1.9K1
YOLOv8优化创新:backbone改进 | 微软新作StarNet:超强轻量级Backbone | CVPR 2024
2.3K0
相关推荐
LORS:腾讯提出低秩残差结构,瘦身模型不掉点 | CVPR 2024
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档