发布日期:2025-01-15 06:14点击次数:83
作家是香港大学俞益洲训诲与博士生娄蒙AG百家乐路子。
你是否注意过东说念主类不雅察寰宇的特有形势?
迎濒临复杂场景时,咱们往往先快速赢得全体印象,再聚焦枢纽细节。这种「纵不雅全局 - 聚焦细节(Overview-first-Look-Closely-next)」的双阶段解析机制是东说念主类视觉系统弘远的主要原因之一,也被称为 Top-down Attention。
固然这种机制在很多视觉任务中得到应用,然而怎么哄骗这种机制来构建弘远的 Vision Backbone 却尚未得到充分权谋。
近期,香港大学将这种解析模式引入到了 Vision Backbone 的贪图中,从而构建了一种全新的基于动态卷积的视觉基础模子,称为OverLoCK(Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels)。该模子在 ImageNet、COCO、ADE20K 三个极具挑战性的数据集上展现出了弘远的性能。举例,30M 的参数界限的 OverLoCK-Tiny 模子在 ImageNet-1K 达到了 84.2% 的 Top-1 准确率,比拟于先前 ConvNet, Transformer 与 Mamba 模子具有赫然的上风。
论文标题:OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels论文相接:https://arxiv.org/abs/2502.20087代码相接:https://github.com/LMMMEng/OverLoCK
Top-down Attention 机制中的一个枢纽特质是哄骗大脑赢得的反应信号行为显式的信息指导,从而在场景中定位枢纽区域。关联词,现存大大批 Vision Backbone 汇注(举例 Swin, ConvNeXt, 和 VMamba)摄取的仍然是经典的金字塔架构:从低层到高层逐渐编码特征,每层的输入特征仅依赖于前一层的输出特征,导致这些方法枯竭显式的从上至下的语义指导。因此,开拓一种既能兑现 Top-down Attention 机制,又具有弘远性能的卷积汇注,仍然是一个悬而未决的问题。
经常情况下,Top-down Attention 率先会生成较为简陋的全局信息行为先验常识,为了充分哄骗这种信息,token mixer 应该具备弘远动态建模智力。具体而言,token mixer 应当既能造成大感受野来自稳健地缔造全局依赖关系,又能保抓局部归纳偏置以捕捉精致的局部特征。关联词咱们发现,现存的卷积方法无法同期称心这些需求:不同于 Self-attention 和 SSM 约略在不同输入分辨率下自稳健建模长距离依赖,大核卷积和动态卷积由于固定核尺寸的罢休,即使濒临高分辨率输入时仍局限于有限区域。此外,尽管 Deformable 卷积能在一定进度上缓解这个问题,但其可变的 kernel 形状会就义卷积固有的归纳偏置,从而会弱化局部感知智力。因此,如安在保抓强归纳偏置的前提下,使纯卷积汇注赢得与 Transformer 和 Mamba 相忘形的动态全局建模智力,雷同是亟待惩处的枢纽问题。
让 Vision Backbone 汇注具备东说念主类视觉的「两步走」机制
权谋团队从神经科学赢得枢纽启发:东说念主类视觉皮层通过 Top-down Attention,先造周全体解析再指导细节分析(Overview-first-Look-Closely-next)。据此,权谋团队舍弃了先前 Vision Backbone 采聚合经典的金字塔战略,转而提议了一种新颖的深度阶段分解(DDS, Deep-stage Decomposition) 战略来构建 Vision Backbone 汇注,该机制构建的 Vision Backbone 具有 3 个子模子:
Base-Net:聚焦于索取中低层特征,畸形于视觉系统的「视网膜」,哄骗了 UniRepLKNet 中的 Dilated RepConv Layer 来行为 token mixer,从而兑现高效的 low-level 信息感知。Overview-Net:索取较为简陋的高档语义信息,完成「第一眼解析」。雷同基于 Dilated RepConv Layer 为 token mixer,快速赢得 high-level 语义信息行为 Top-down Guidance。Focus-Net:在全局先验常识的率领下进行精致分析,兑现「凝视不雅察」。基于一种全新的动态卷积 ContMix 和一种 Gate 机制来构建基本 block,旨在充分哄骗 Top-down Guidance 信息。
来自 Overview-Net 的 Top-down Guidance 不仅会在特征和 kernel 权重两个层濒临 Focus-Net 进行率领,还会沿着前向传播经过在每个 block 中抓续更新。具体而言,Top-down Guidance 会同期参与运筹帷幄 Gate 和生成动态卷积权重,还会整合到 feature map 中,从而全场所地将 high-level 语义信息注入到 Focus-Net 中,ag百家乐九游会赢得更为鲁棒的特征暗示智力。
图 1 OverLoCK 模子全体框架和基本模块
图 2 ContMix 框架图
具有弘远 Context-Mixing 智力的动态卷积 --- ContMix
为了约略更好地稳健不同输入分辨率,同期保抓弘远的归纳偏置,进而充分哄骗 Overview-Net 提供的 Top-down Guidance,权谋团队提议了一种新的动态卷积模块 --- ContMix。其中枢改换在于通过运筹帷幄特征图中每个 token 与多个区域的中心 token 的 affinity map 来表征该 token 与全局凹凸文的关联,进而以可学习形势将 affinity map 交流为动态卷积核,并将全局凹凸文信息注入到卷积核里面的每个权重。当动态卷积核通过滑动窗口作用于特征图时,每个 token 齐会与全局信息发生调制。简言之,即即是在局部窗口进行操作,ContMix 仍然具备弘远的全局建模智力。实践中,咱们发现将现时输入的 feature map 行为 query,并将 Top-down Guidance 行为 key 来运筹帷幄动态卷积核,相较于使用二者级联得到的特征生成的 query/key pairs 具有更好的性能。
图像分类
OverLoCK 在大界限数据集 ImageNet-1K 上弘扬出了不凡的性能,相较于现存方法展现出更为出色的性能以及愈加优秀的 tradeoff。举例,OverLoCK 在近似同等参数目的条目下大幅越过了先前的大核卷积汇注 UniRepLKNet。同期,相较于基于 Gate 机制构建的卷积汇注 MogaNet 也具有相当赫然的上风。
表 1 ImageNet-1K 图像分类性能比较
场所检测和实例分割
如表 2 所示,在 COCO 2017 数据集上,OverLoCK 雷同展示出了更优的性能。举例,使用 Mask R-CNN (1× Schedule) 为基本框架时,OverLoCK-S 在 APb 认识上相较于 BiFormer-B 和 MogaNet-B 分袂进步了 0.8% 和 1.5%。在使用 Cascade Mask R-CNN 时,OverLoCK-S 分袂比 PeLK-S 和 UniRepLKNet-S 进步了 1.4% 和 0.6% APb。值得注意的是,尽管基于卷积汇注的方法在图像分类任务中与 Transformer 类方法弘扬畸形,但在检测任务上却存在赫然性能差距。以 MogaNet-B 和 BiFormer-B 为例,两者在 ImageNet-1K 上齐达到 84.3% 的 Top-1 准确率,但在检测任务中前者性能赫然逾期于后者。这一发现存力印证了咱们之前的论点 —卷积汇注固定尺寸的卷积核导致有限感受野,当摄取大分辨率输入时可能会性能下落。比拟之下,咱们提议的 OverLoCK 汇注即使在大分辨率场景下也能灵验捕捉长距离依赖关系,从而展现出不凡性能。
表 2 场所检测和实例分割性能比较
表 3 语义分割性能比较
语义分割
如表 3 所示,OverLoCK 在 ADE20K 上也进行了全面的评估,其性能在与一些弘远的 Vision Backbone 的比较中脱颖而出,况且有着更优秀的 tradeoff。举例,OverLoCK-T 以 1.1% mIoU 的上风越过 MogaNet-S,较 UniRepLKNet-T 进步 1.7%。更值得一提的是,即便与强调全局建模智力的 VMamba-T 比拟,OverLoCK-T 仍保抓 2.3% mIoU 的显赫上风。
消融权谋
值得注意的是,所提议的 ContMix 是一种即插即用的模块。因此,咱们基于不同的 token mixer 构建了雷同的金字塔架构。如表 4 所示,咱们的 ContMix 相较于其他 mixer 具有赫然的上风,这种上风在更高分辨率的语义分割任务上尤为赫然,这主如若因为 ContMix 具有弘远的全局建模智力(更多实践请参原谅文)。
表 4 不同 token mixer 的性能比较
可视化权谋
不同 vision backbone 汇注的灵验感受野对比:如图 3 所示,OverLoCK 在具有最大感受野的同期还具备显赫的局部明锐度,这是其他汇注无法兼备的智力。
Top-down Guidance 可视化:为了直不雅呈现 Top-down Guidance 的后果,咱们摄取 Grad-CAM 对 OverLoCK 中 Overview-Net 与 Focus-Net 生成的特征图进行了对比分析。如图 4 所示,Overview-Net 率先生成场所物体的粗粒度定位,当该信号行为 Top-down Guidance 注入 Focus-Net 后,场所物体的空间定位和概述特征被显赫精致化。这一征象和东说念主类视觉中 Top-down Attention 机制极为相似,印证了 OverLoCK 的贪图合感性。
图 3 灵验感受野比较
图 4 Top-down guidance 可视化