首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >医图论文 ACM MM'24 | BSBP-RWKV:用于高效医学图像分割的背景抑制与边界保留方法

医图论文 ACM MM'24 | BSBP-RWKV:用于高效医学图像分割的背景抑制与边界保留方法

作者头像
小白学视觉
发布于 2025-03-24 06:09:40
发布于 2025-03-24 06:09:40
3690
举报

点击下方“ReadingPapers”卡片,每天获取顶刊论文解读

论文信息

题目:BSBP-RWKV: Background Suppression with Boundary Preservation for Efficient Medical Image Segmentation
BSBP-RWKV:用于高效医学图像分割的背景抑制与边界保留方法
作者:Xudong Zhou、Tianxiang Chen

论文创新点

  1. 首次应用RWKV于医学图像任务:作者首次成功将RWKV应用于医学图像任务,为后续基于RWKV的高效准确方法的发展提供了新的基准和有价值的见解,开拓了医学图像分割研究的新方向。
  2. 设计DWT - PMD RWKV模块:结合Perona - Malik扩散(PMD)在抑制噪声且保留边界细节的优势与RWKV的高效结构,设计了DWT - PMD RWKV模块。该模块通过离散小波变换(DWT)与PMD的结合,在抑制背景噪声干扰的同时,能够有效保留病变区域的边界特征,提升分割的准确性。
  3. 提出多步龙格 - 库塔卷积模块:鉴于仅靠RWKV设计难以充分提取局部特征,作者提出多步龙格 - 库塔卷积模块
  4. 设计形状优化损失函数:针对现有医学图像分割损失函数在空间域优化的局限性,提出结合频率信息的形状优化损失函数

摘要

医学图像分割对于疾病诊断和治疗规划具有重要意义。尽管取得了多项进展,但目前大多数方法存在两个问题:一是对抑制影响分割精度的背景噪声干扰重视不足;二是效率不够高,尤其是在处理高分辨率图像时。为应对这两个挑战,作者借助一种传统去噪方法和一种新型高效网络结构,提出了BSBP - RWKV模型,用于实现精确且高效的医学图像分割。具体而言,作者结合了Perona - Malik扩散(PMD)在抑制噪声的同时保留边界细节的优势,以及RWKV高效的结构特点,在编码器的一个分支中设计了DWT - PMD RWKV模块。该模块能够在抑制背景噪声干扰的同时,保留病变区域的边界细节。然后,作者将去噪后的病变边界线索输入到所提出的多步龙格 - 库塔卷积模块中,以补充更多局部细节。此外,作者还提出了一种新颖的形状优化损失函数,该函数可以在空间域和频率域中,使预测的病变区域形状与真实标签掩码对齐。在ISIC 2016和Kvasir - SEG数据集上的实验表明,BSBP - RWKV模型在精度和效率方面表现卓越。具体来说,与当前最优方法相比,BSBP - RWKV模型的复杂度降低了5.8倍,并且在推理过程中,对于每一幅1024×1024的图像,GPU内存使用量减少了62.7%以上。

3. 方法

3.1 概述

作者提出了BSBP - RWKV,这是一种基于PMD和多步龙格 - 库塔方法的医学图像分割框架。如图3所示,编码器采用双分支结构,由级联的DWT - PMD RWKV模块特征提取分支和并行的多步龙格 - 库塔模块分支组成。DWT - PMD RWKV模块特征提取分支用于抑制背景噪声干扰,同时保留病变目标的边界,有助于形状感知分割。多步龙格 - 库塔模块分支旨在将DWT - PMD RWKV模块分支的边界预测与具有准确位置线索的目标主体特征相结合,进一步优化形状。共享主干用于为第一个DWT - PMD RWKV模块获取初始输入,并为第一个多步龙格 - 库塔模块提供部分输入。每个阶段的第一个多步龙格 - 库塔模块的输入由DWT - PMD RWKV模块的输出和上一阶段多步龙格 - 库塔模块的输出组成。生成的特征图随后被输入到普通解码器中,通过四个阶段逐步放大融合后的特征,直到到达分割头生成最终的掩码结果。作者设计了一个特定的损失函数来监督最终的预测。

3.2 DWT - PMD RWKV模块

Perona - Malik扩散(PMD)最初用于图像去噪任务。它可以通过保留图像边界和抑制噪声干扰来提高图像质量。医学图像经常受到背景噪声干扰的影响,有时病变区域边界模糊,这给准确的形状感知医学分割带来了巨大挑战。因此,作者打算构建一个受PMD启发的RWKV模块,作用于特征图,以便在过滤背景干扰的同时,仍能保留一些目标边界线索。

给定一个输入特征图,其PMD方程为:

其中是扩散系数;是扩散步长,可以看作是特征图所在的层深度;是一个控制扩散程度的正常数,在作者的实验中默认设置为1。值得注意的是,方程(1)是一个各向异性扩散方程:在梯度幅度较小的平坦或平滑区域(),扩散系数较大,这意味着扩散作用强,方程(1)起到高斯平滑的作用,去除噪声干扰;在靠近目标边界的地方,梯度幅度较大(),系数接近零,这意味着扩散作用弱,因此可以保留边界细节。

方程(1)也可以改写为以下形式:

其中和分别表示特征图在水平和垂直方向上的梯度。

另一方面,输入特征图的离散小波变换(DWT)可以表示为:

其中表示低频分量,主要反映图像中目标的基本结构。、和分别表示图像在水平、垂直和对角方向上的高频分量,主要捕捉边界细节。通过用近似,用近似,并将扩散步长设置为1,可以将方程(2)转换为离散形式:

在通过PMD增强特征图后,作者将扩散输出输入到由[13]实现的RWKV层中。通过在一个编码器分支的所有层中堆叠多个DWT - PMD RWKV模块(如图4所示),作者的BSBP - RWKV具备了在保留病变区域边界特征的同时抑制背景噪声干扰的能力。

3.3 多步龙格 - 库塔模块

基于ODE的方法已被证明在分割任务中是有效的。然而,大多数方法基于单步ODE求解器,由于仅使用前一步的信息来进行下一步的预测,不可避免地会导致一定程度的目标特征损失。受多步龙格 - 库塔方法的启发,作者提出了多步龙格 - 库塔模块(如图5所示),该模块输入并整合DWT - PMD RWKV模块的边界输出和目标主体位置特征,以进一步优化形状感知分割的质量。

多步龙格 - 库塔方法优于ResNet所基于的欧拉方法和经典龙格 - 库塔方法,它是一种多步ODE求解器,仅通过前两步的预测就能实现三阶预测精度。它不仅可以利用先前的值进行更精细的近似,而且有研究表明它优于其他常用的多步方法,如三阶Adams - Bashforth方法。多步龙格 - 库塔方法的公式如下:

其中,

3.4 形状优化损失

医学图像分割是一个像素级的分类问题,旨在将图像中的每个像素准确分类为目标或背景。通常,这个问题通过交叉熵损失和Dice损失来解决,其中Dice损失由Carole H Sudre等人提出,用于医学图像分割任务,以解决类别不平衡问题。然而,现有的医学图像分割损失函数是在空间域中定义的。当预测的病变区域经过迭代优化,在形状上与真实标签相似时,在空间域中进一步优化模型就变得具有挑战性,这可能导致模型陷入局部最优解。

为了解决上述问题,作者提出了形状优化损失,它通过将基于离散小波变换(DWT)的特定频率损失与现有的空间损失相结合。当预测掩码和真实标签在空间域中变得相似,模型难以进一步优化时,特别是在病变区域的边界处,该损失可以利用频率线索突出它们之间的差异,帮助模型跳出局部最优解。这是因为频率域线索对目标和背景边界处的梯度差异更为敏感。作者提出的定义如下:

其中,和分别表示通过DWT仅保留低频分量和高频分量的操作。和是超参数,且它们的和被约束为等于1。和分别代表真实标签和预测掩码。指的是和中的一个像素。

空间损失采用医学图像分割任务中常用的交叉熵损失和Dice损失的组合,它们的定义分别如下:

然后,作者可以定义提出的形状优化损失如下:

其中,表示空间域损失和频率域损失之间的平衡系数,设置为0.8。作者的BSBP - RWKV的总体损失函数包括主要损失和辅助边界损失。采用的形式,采用的形式。总体损失定义为:

4. 实验

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
科普常识:常见音频参数解析
        如果在计算机加上相应的音频卡—就是我们经常说的声卡,我们可以把所有的声音录制下来,声音的声学特性如音的高低等都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件用一定的音频程序播放,还原以前录下的声音。
朵朵花儿
2019/12/28
3.1K0
音频基础知识 - PCM 浅析
最近有个需求:对音频裁剪时,裁剪条的纵坐标必须是音频音量,以帮助用户更好的选择音频区域,所以就需要快速准确的提取出音频的音量列表。本文主要介绍下从mp4文件中提取音轨音量的方式,以及相关的知识点。
字节流动
2021/03/16
4.3K0
音频基础知识 - PCM 浅析
【Android 高性能音频】Oboe 开发流程 ( Oboe 音频帧简介 | AudioStreamCallback 中的数据帧说明 )
在 【Android 高性能音频】Oboe 开发流程 ( 导入 Oboe 库 | 使用预构建的二进制库和头文件 | 编译 Oboe 源码 ) 博客中介绍了 如何导入 Oboe 函数库到项目中 , 本博客中在导入 Oboe 函数库的基础上 , 进行 Oboe 播放器功能开发 ;
韩曙亮
2023/03/28
13.5K0
IOS播放音频编码AAC_HE_V2无声音,如何解决?
最近一些客户遇到,mp4格式的视频文件,在浏览器播放有声音,但在ios播放无声音。还有这种情况?
clairehou
2020/11/06
5.2K0
IOS播放音频编码AAC_HE_V2无声音,如何解决?
Audio Unit录音(播放伴奏+耳返)
前言 相关文章: 使用VideoToolbox硬编码H.264 使用VideoToolbox硬解码H.264 使用AudioToolbox编码AAC 使用AudioToolbox播放AAC
落影
2018/04/27
3.2K0
Audio Unit录音(播放伴奏+耳返)
直播软件开发之Java音视频解决方案:音视频基础知识
从信息论的观点来看,描述信源的数据是信息和数据冗余之和,即:数据=信息+数据冗余。音频信号在时域和频域上具有相关性,也即存在数据冗余。将音频作为一个信源,音频编码的实质是减少音频中的冗余。
云豹kj的晨曦
2020/09/14
1.2K0
直播软件开发之Java音视频解决方案:音视频基础知识
Android FFmpeg系列05--音频解码与播放
在前面的连载系列中,我们分别用FFmpeg的软解和硬解两种方式解码了本地mp4文件的视频流并使用OpenGL渲染上屏
雪月清
2022/09/21
1.5K0
Android FFmpeg系列05--音频解码与播放
【音视频原理】音频编解码原理 ② ( 采样值 - 本质分析 | 采样值 - 震动振幅值 | 采样值的录制与播放 | 采样值在播放设备中才有意义 | 音频采样率 | 音频采样精度 | 音频通道数 )
物体 发生 震动 , 在 空气中传播 , 被 人耳 接收 产生 我们理解中的声音 ;
韩曙亮
2024/01/26
8700
音频基础知识
Nyquist 采样率大于或等于连续信号最高频率分量的 2 倍时,采样信号可以用来完美重构原始连续信号。
Gnep@97
2023/09/06
4.1K0
音频基础知识
Android多媒体之认识声音、录音与播放(PCM)
一、对声音的简单认识 1、模拟信号[摘录于此] 模拟信号传输过程中就是利用传感器把各种自然界各种连续的信号转换为几乎一模一样的电信号。 比如说话声音,原本是声带的震动。经过麦克风的采集,将声波信号转换
张风捷特烈
2019/01/07
3.8K1
影视后期丨Adobe Audition安装教程-AU软件全版本下载地址 +干货分享
Adobe Audition 的是一款专业音频编辑和混合环境,其前身为 Cool Edit Pro(1997年由Syntrillium开发),2003 年被 Adobe 收购,并将其音频技术融入到了旗下 Premiere、After Effects 等影视相关的软件中。
木子学Lee
2023/02/26
3.6K0
影视后期丨Adobe Audition安装教程-AU软件全版本下载地址 +干货分享
【音视频原理】音频编解码原理 ③ ( 音频 比特率 / 码率 | 音频 帧 / 帧长 | 音频 帧 采样排列方式 - 交错模式 和 非交错模式 )
原始 PCM 采样的音频 , 其 比特率 = 采样频率 * 采样位数 * 音频通道数 ;
韩曙亮
2024/01/28
3.5K1
【音视频原理】音频编解码原理 ③ ( 音频 比特率 / 码率 | 音频 帧 / 帧长 | 音频 帧 采样排列方式 - 交错模式 和 非交错模式 )
音频基础知识
现实生活中,我们听到的声音都是时间连续的,我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。
为为为什么
2023/05/18
1.7K0
音频基础知识
Android FFmpeg系列02--音视频基础
软编(解)的时候CPU负载重,性能比硬编(解)低,但是通用性更好;硬编(解)性能高但是兼容性问题比较突出,特别是在Android平台,碎片化严重,MediaCodec的坑也是不少
雪月清
2022/09/08
1.1K0
iOS音频能力提升——PCM基础
前言 音频是移动端很重要的能力,像直播类、在线教育类、唱歌类、短视频类等APP,都离不开音频功能。 具备音频相关知识与能力,对未来的职业发展有很大优势。 本文主要围绕音频知识的基础——PCM,介绍PCM的原理和相关操作。 声音是模拟的连续信号,而计算机只能离散的存储。为了使得计算机具备音频的能力,必须支持连续音频信号的离散化描述,而PCM具备这个能力。 正文 PCM脉冲编码调制(Pulse Code Modulation) 脉冲编码调制就是把一个时间连续,取值连续的模拟信号变换成时间离散,取值离散的数
落影
2018/04/27
2.8K0
iOS音频能力提升——PCM基础
python wave音频库使用(一)
WAV是最常见的声音文件格式之一,是微软公司专门为Windows开发的一种标准数字音频文件,该文件能记录各种单声道或立体声的声音信息,并能保证声音不失真。 [图片上传中...(image.png-fc53c5-1587727221744-0)]
李小白是一只喵
2020/04/27
2.2K0
QQ音乐银河音效技术实践——音乐重放效果的补偿与修饰
音效渲染是音频或音乐播放器最为重要的后处理模块之一。LiveVideoStackCon 2022 北京站邀请到腾讯音乐银河音效开发负责人——闫震海,为大家介绍银河音效在QQ音乐播放器中的创新应用,包括空间环绕效果和音效制作工具等内容。 文/闫震海 编辑/LiveVideoStack 大家好!很高兴和大家一起分享交流关于QQ音乐银河音效的一些技术实践。 相信大家对音效处理都不陌生。它已经被广泛应用在各种音频信号、音乐信号的渲染场景中。本次分享重点是音乐重放场景,如何利用音效对最终听到的感觉进行补偿和修饰。
LiveVideoStack
2023/05/05
2K0
QQ音乐银河音效技术实践——音乐重放效果的补偿与修饰
《除了吃鸡游戏,3D位置语音还可以用在哪里?》
| 导语 在刚刚结束的首届腾讯用户开放日上,腾讯音视频实验室带着3D位置音效解决方案,向所有用户亮相,为用户提供360度立体空间的沉浸式听觉体验,那么这项技术如何结合具体的场景提升用户听感和体验呢?这篇文章将会详细阐述 基于游戏开发引擎(例如Unreal、Unity)实现的3D音效在游戏中的应用已经非常普遍了,通过游戏引擎模拟重现空间中声源方位,例如CS中射击的枪声、中弹时的音效、附近敌人轻微的脚步声,可以显著提高游戏的沉浸感,造就身临其境的游戏体验。 这里我们可以听一段音视频实验室通过3D音效算法处理后的
腾讯Bugly
2018/03/23
1.8K0
3D位置语音,引领吃鸡游戏体验升级
本文主要介绍了腾讯游戏音频引擎技术中的3D位置音效技术,通过此技术可以提升玩家在虚拟环境中的沉浸感。该技术通过算法模拟出声音在三维空间中的位置和运动轨迹,从而使玩家能够准确地判断声音来源的方向和距离。此外,该技术还能够在实时语音场景中应用,提升游戏玩家的语音沟通体验。
腾讯游戏云
2017/12/27
4.1K0
3D位置语音,引领吃鸡游戏体验升级
【Android 高性能音频】AAudio 音频流 样本缓冲 相关配置 ( 通道数 | 样本格式 | 帧缓冲 | 采样率 | 每帧样本数 == 通道数 )
创建 AAudio 音频流 , 需要先创建 AAudio 音频流构建器 , 然后在通过该构建器创建音频流 ;
韩曙亮
2023/03/27
9280
推荐阅读
科普常识:常见音频参数解析
3.1K0
音频基础知识 - PCM 浅析
4.3K0
【Android 高性能音频】Oboe 开发流程 ( Oboe 音频帧简介 | AudioStreamCallback 中的数据帧说明 )
13.5K0
IOS播放音频编码AAC_HE_V2无声音,如何解决?
5.2K0
Audio Unit录音(播放伴奏+耳返)
3.2K0
直播软件开发之Java音视频解决方案:音视频基础知识
1.2K0
Android FFmpeg系列05--音频解码与播放
1.5K0
【音视频原理】音频编解码原理 ② ( 采样值 - 本质分析 | 采样值 - 震动振幅值 | 采样值的录制与播放 | 采样值在播放设备中才有意义 | 音频采样率 | 音频采样精度 | 音频通道数 )
8700
音频基础知识
4.1K0
Android多媒体之认识声音、录音与播放(PCM)
3.8K1
影视后期丨Adobe Audition安装教程-AU软件全版本下载地址 +干货分享
3.6K0
【音视频原理】音频编解码原理 ③ ( 音频 比特率 / 码率 | 音频 帧 / 帧长 | 音频 帧 采样排列方式 - 交错模式 和 非交错模式 )
3.5K1
音频基础知识
1.7K0
Android FFmpeg系列02--音视频基础
1.1K0
iOS音频能力提升——PCM基础
2.8K0
python wave音频库使用(一)
2.2K0
QQ音乐银河音效技术实践——音乐重放效果的补偿与修饰
2K0
《除了吃鸡游戏,3D位置语音还可以用在哪里?》
1.8K0
3D位置语音,引领吃鸡游戏体验升级
4.1K0
【Android 高性能音频】AAudio 音频流 样本缓冲 相关配置 ( 通道数 | 样本格式 | 帧缓冲 | 采样率 | 每帧样本数 == 通道数 )
9280
相关推荐
科普常识:常见音频参数解析
更多 >
LV.0
腾云悦智公有云运维工程师
目录
  • 点击下方“ReadingPapers”卡片,每天获取顶刊论文解读
  • 论文信息
    • 题目:BSBP-RWKV: Background Suppression with Boundary Preservation for Efficient Medical Image Segmentation
    • BSBP-RWKV:用于高效医学图像分割的背景抑制与边界保留方法
    • 作者:Xudong Zhou、Tianxiang Chen
  • 论文创新点
  • 摘要
  • 3. 方法
    • 3.1 概述
    • 3.2 DWT - PMD RWKV模块
    • 3.3 多步龙格 - 库塔模块
    • 3.4 形状优化损失
  • 4. 实验
  • 声明
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档