首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >【图像分割大模型】医学图像分割的大突破!Pact-Net 双分支网络碾压 SOTA,皮肤癌早筛精度飙升至 86.95%

【图像分割大模型】医学图像分割的大突破!Pact-Net 双分支网络碾压 SOTA,皮肤癌早筛精度飙升至 86.95%

作者头像
_OP_CHEN
发布2026-01-14 11:27:38
发布2026-01-14 11:27:38
1560
举报
文章被收录于专栏:C++C++

前言

最近在顶刊《Computer Methods and Programs in Biomedicine》(2023 年 IF=7.0+)上看到一篇论文 ——《Pact-Net:Parallel CNNs and Transformers for Medical Image Segmentation》,这篇文章提出的 Pact-Net 网络,完美解决了医学图像分割中 "局部细节看不清、全局范围抓不准" 的痛点,在皮肤病变、息肉、细胞分割任务中全面碾压传统 U-Net 和 Transfuse 等 SOTA 模型,尤其是在 ISIC 2016 皮肤病变数据集上,关键指标 T-JAC 直接冲到 86.95%,把第二名远远甩在身后。 今天就带大家从头到脚拆解这个模型,从研究背景、核心设计到实验结果,用最通俗的语言讲明白 Pact-Net 到底牛在哪。无论你是医学 AI 领域的研究者、刚入门的算法小白,还是对皮肤癌早筛技术感兴趣的开发者,这篇文章都能让你收获满满~下面就让我们正式开始吧!


一、先聊聊为什么要做医学图像分割?这事儿真能救命!

在开始讲模型之前,咱们先搞清楚一个核心问题:医学图像分割到底有啥用?为啥学术界和工业界都在疯狂卷这个方向?

拿皮肤癌来说,它是全球最常见的癌症之一,而黑色素瘤又是其中最致命的类型。数据显示,如果黑色素瘤能早期诊断,患者 5 年生存率能达到 90%;可一旦延误,生存率会暴跌到 23%(相当于每 4 个人里只有 1 个能活过 5 年)。但现实是,传统的皮肤癌诊断全靠 dermatologist(皮肤科医生)用肉眼看 —— 医生通过 dermoscopy(皮肤镜)观察皮肤病变的形态、颜色、边界,再凭经验判断是否为恶性。可即便如此,专业医生的诊断准确率也只有 60% 左右,很多早期小病变会被漏诊,等发现时已经晚了。

这时候,医学图像分割就派上大用场了。它能自动从皮肤镜图像中把病变区域 "抠" 出来,精确标注病变的边界、大小、形状,相当于给医生装上了 "AI 放大镜"。医生再也不用对着模糊的图像反复琢磨 "这到底是不是病变",直接看 AI 生成的分割结果就能快速判断,大大提高诊断效率和准确率。

但问题来了:医学图像分割真的太难了!尤其是皮肤病变分割,简直是 AI 的 "地狱级任务",主要难在这三点:

  1. 图像质量差:皮肤镜图像对比度极低,病变和周围健康皮肤颜色差别很小,有时候肉眼都分不清边界;
  2. 干扰因素多:图像里可能有毛发遮挡、气泡反光、标记物残留,这些都会让 AI 认错病变范围;
  3. 病变多变:不同患者的病变大小、形状、位置千差万别,有的像芝麻一样小,有的能占满半张脸,AI 很难 "一视同仁"。

以前大家解决这个问题,要么用 CNN(卷积神经网络),要么用 Transformer。但这俩都有致命缺点:

  • CNN 的短板:擅长抓局部细节(比如病变边缘的纹理),但看不远 —— 没法获取全局上下文信息,经常把相邻的健康皮肤误判成病变(这叫 "过分割"),或者漏判小病变(这叫 "欠分割");
  • Transformer 的短板:擅长看全局(比如病变在整个皮肤上的位置),但看不清细节 —— 局部特征提取能力弱,分割出来的病变边界毛毛糙糙,跟实际边界差很远。

那有没有一种方法,能把 CNN 的 "局部眼" 和 Transformer 的 "全局眼" 结合起来?Pact-Net 就是为解决这个问题而生的 —— 它用并行双分支结构同时抓局部和全局特征,再通过一个超高效的融合模块把两者捏合在一起,直接把医学图像分割的精度拉到了新高度。下图为该模型的图像处理结果:

二、Pact-Net 核心设计拆解:从输入到输出,每一步都藏着巧思

Pact-Net 的整体架构其实很清晰,其实就是一条 "特征提取→特征融合→结果输出" 的流水线。咱们从左到右一步步看,搞明白每个模块的作用。

2.1 输入层:图像预处理,给 AI"喂" 好数据

工欲善其事,必先利其器。Pact-Net 处理图像时,先做了两件关键的预处理:

  • 分辨率统一:不管输入图像是多大尺寸,都统一缩放成 192×256(皮肤病变任务)、352×352(息肉任务)或 256×256(细胞任务)。这样做是为了让模型训练更稳定,避免因图像大小不一导致的训练波动;
  • 数据增强:通过垂直翻转、水平翻转、平移、缩放旋转、随机亮度调整等操作,把训练数据 "变多"。医学数据集本来就少,比如 ISIC 2016 只有 1279 张图,数据增强能有效避免模型过拟合,让 AI 在不同场景下都能稳定工作。

预处理后的图像,会同时送入两个并行的分支 ——CNN 分支和 Transformer 分支,这就是 Pact-Net 最核心的创新点之一:双分支编码器

2.2 双分支编码器:左手 CNN 抓细节,右手 Transformer 看全局

咱们先明确一个概念:编码器的作用是 "从图像中提取有用的特征"。Pact-Net 的编码器不是一个,而是两个,而且是并行工作的 —— 就像两个人同时看一张图,一个人专注看细节(比如病变上的小黑点),另一个人专注看整体(比如病变在左脸颊还是右脸颊),最后把两人的发现结合起来,就能得到更全面的信息。

2.2.1 CNN 分支:用 ResNet 做 "局部侦探",不放过任何细节

CNN 分支选择的基础模型是 ResNet(残差网络),但不是完整版的 ResNet,而是做了一点小改动:删除了 ResNet 原有的最后一个卷积块。

为什么要删?因为 ResNet 的最后一个块参数很多,但经过多次下采样后,很多参数都是 0,相当于 "无效计算"。Pact-Net 只用了 ResNet 的第 2、3、4 个块,让它们分别输出分辨率为原始图像 1/4、1/8、1/16 的特征图。

举个例子:如果输入图像是 192×256,那么 CNN 分支会输出 3 组特征图,尺寸分别是 48×64(192/4=48,256/4=64)、24×32(192/8=24)、12×16(192/16=12)。这三组特征图都饱含局部细节信息 —— 比如 48×64 的特征图能看清病变的边缘纹理,12×16 的特征图能捕捉病变的局部结构。

ResNet 的另一个好处是有残差连接,能解决深度网络的梯度消失问题。简单说就是:即便网络很深,前面层学到的细节特征也不会在后面层 "弄丢",保证 CNN 分支能一直专注于提取高质量的局部特征。

2.2.2 Transformer 分支:用 Swin Transformer 做 "全局导航",定位更精准

Transformer 分支选择的基础模型是 Swin Transformer(窗口注意力 Transformer),这也是目前计算机视觉领域的 "明星模型"。和 CNN 分支一样,Pact-Net 也对 Swin Transformer 做了裁剪:删除最后一个块,只用前 3 个块。

Swin Transformer 的核心优势是窗口注意力机制(W-MSA)和移位窗口注意力机制(SW-MSA)。咱们用通俗的话解释一下:

  • 普通 Transformer 看图像时,会把整个图像当成一个整体计算注意力,这样虽然能看全局,但计算量巨大;
  • Swin Transformer 不一样,它把图像分成一个个小窗口(比如 8×8 的窗口),先在每个窗口内计算注意力(W-MSA),再把窗口移位后计算跨窗口注意力(SW-MSA)。这样既保证了全局信息的获取,又大大减少了计算量,让模型能在 GPU 上跑起来。

Swin Transformer 分支同样输出 3 组特征图,分辨率和 CNN 分支完全对应 ——1/4、1/8、1/16。但这些特征图的侧重点和 CNN 分支不同:它们包含的是全局上下文信息,比如病变在整个皮肤中的位置、病变和周围器官(如眼睛、鼻子)的相对关系。

2.2.3 双分支的互补性:1+1 远大于 2

这里有个关键问题:为什么一定要用并行双分支?串行(先 CNN 后 Transformer)不行吗?

论文里做了对比实验:如果用串行结构,先让 CNN 提取局部特征,再让 Transformer 处理这些特征,会导致 "局部特征被全局特征覆盖"——Transformer 在处理全局信息时,会不小心把 CNN 提取的细节弄丢。而并行结构能让两个分支独立工作,各自保留最擅长的特征,不会互相干扰。

后续的消融实验也证明了这一点:双分支编码器的 ACC(准确率)达到 94.35%,JAC(Jaccard 指数)达到 79.31%;而单 CNN 分支的 ACC 只有 93.56%,JAC 只有 77.15%;单 Transformer 分支更惨,ACC 只有 87.44%,JAC 直接跌到 51.99%。这说明双分支的互补性带来的提升是实实在在的,1+1 真的远大于 2。

2.3 CSMF 融合模块:把 CNN 和 Transformer 的特征 "捏" 成黄金搭档

双分支编码器输出了 3 组对应分辨率的特征(CNN 的局部特征 + Transformer 的全局特征),但这两组特征就像 "两门不同语言的报告",直接放在一起用肯定不行 —— 得有个 "翻译官" 把它们翻译成同一种语言,再整合出一份更全面的报告。这个 "翻译官" 就是 Pact-Net 的另一个核心创新:CSMF 融合模块(Channel-Space and Multi-Scale Fusion Module,通道 - 空间 - 多尺度融合模块)。

CSMF 由两个子模块组成:CSF(通道 - 空间融合子模块)和 SSMF(自选择多尺度融合子模块)。咱们先看 CSF,它负责 "翻译";再看 SSMF,它负责 "整合"。

2.3.1 CSF 子模块:用注意力机制做 "翻译",筛选关键信息

CSF 的作用是从 "通道" 和 "空间" 两个维度,把 CNN 的局部特征和 Transformer 的全局特征 "翻译" 成可融合的形式。咱们先搞懂两个基本概念:

  • 通道注意力:判断哪些 "特征通道" 是有用的。比如在皮肤病变图像中,"色素通道" 很重要,"背景噪声通道" 没用,通道注意力会给有用通道加权重,没用通道减权重;
  • 空间注意力:判断图像中哪些 "区域" 是有用的。比如病变区域有用,毛发遮挡区域没用,空间注意力会给有用区域加权重,没用区域减权重。

CSF 的具体操作分三步:

第一步:给双分支特征分别加注意力。

  • 对 CNN 的局部特征(记为 t^i):先通过 SE-Block(通道注意力模块)生成 "局部 - 通道特征",再通过 CBAM(空间注意力模块)生成 "局部 - 空间特征";
  • 对 Transformer 的全局特征(记为 g^i):同样先过 SE-Block 生成 "全局 - 通道特征",再过 CBAM 生成 "全局 - 空间特征"。

这样一来,我们就有了 4 类精细化特征:局部 - 通道局部 - 空间全局 - 通道全局 - 空间

第二步:计算交互特征。把 CNN 的局部优化特征和 Transformer 的全局优化特征通过 3×3 卷积层相乘,得到一个 "交互特征"(记为 b^i)。这个特征的作用是捕捉两个分支的关联 —— 比如 "病变边缘"(局部)和 "病变整体位置"(全局)的对应关系,避免两个分支的特征 "各说各的"。

第三步:残差级联融合。把前面得到的 "局部 - 空间特征"、"全局 - 空间特征" 和 "交互特征" 通过残差块拼接起来,得到 CSF 的输出特征(记为 f^i)。残差连接在这里很重要,能避免融合过程中细节特征的丢失 —— 比如不会因为融合全局特征,就把病变的微小边缘弄丢了。

通过 CSF 的处理,CNN 和 Transformer 的特征终于 "说上话了",但还有一个问题:不同分辨率的特征之间存在 "语义 gap"(比如 1/16 分辨率的特征很抽象,1/4 分辨率的特征很具体),直接送给解码器会导致分割结果 "断层"。这时候就需要 SSMF 子模块出场了。

2.3.2 SSMF 子模块:用多尺度融合做 "整合",消除语义 gap

SSMF 的作用是把 CSF 输出的 3 组不同分辨率特征(1/4、1/8、1/16)整合到同一语义层面,让解码器能 "顺畅阅读"。

举个例子:假设我们要得到 1/8 分辨率的融合特征,SSMF 会做两件事:

  1. 把 1/4 分辨率的特征通过 3×3 卷积下采样到 1/8,这样它的语义就和 1/8 分辨率的原始特征更接近;
  2. 把 1/16 分辨率的特征通过 3×3 卷积上采样到 1/8,同样对齐语义;
  3. 把这三个 1/8 分辨率的特征(原 1/8 特征 + 下采样后的 1/4 特征 + 上采样后的 1/16 特征)通过特征叠加块融合,得到最终的 1/8 分辨率融合特征。

这个过程的核心是 "自适应选择"—— 模型会自动学习不同尺度特征的权重,比如在病变边界区域,会给 1/4 分辨率的细节特征加更高权重;在病变内部区域,会给 1/16 分辨率的全局特征加更高权重。这样融合出来的特征,既有细节又有全局,完美适配解码器的需求。

2.3.3 CSMF 的优势:比传统融合方法强在哪?

传统的特征融合方法要么直接相加,要么直接相乘,根本不考虑特征的有用性和语义差异。而 CSMF 有两个明显优势:

  1. 注意力筛选:通过通道 + 空间注意力,只保留有用特征,剔除无用噪声,融合效率比传统方法提升 4%-5%;
  2. 多尺度对齐:通过上 / 下采样消除语义 gap,让融合特征在全网络中语义一致,分割边界精度提升 2%-3%。

论文中的消融实验也证明了这一点:用 CSMF 的模型 JAC 达到 79.31%,而不用 CSMF、直接相加的模型 JAC 只有 74.56%,差距非常明显。

2.4 解码器与损失函数:从融合特征到分割结果,精准优化

CSMF 输出 3 组融合特征后,会送入解码器。解码器的结构比较常规,主要通过 3 次上采样操作,把融合特征的分辨率恢复到原始图像大小(比如从 12×16 恢复到 192×256),同时通过 "跳连接" 把编码器的特征直接传给解码器,进一步补充细节信息。

但 Pact-Net 的解码器有个小创新:深度监督。它不是只在解码器的最后输出层计算损失,而是在 3 个 CSMF 输出层和 3 个解码器中间层共 6 个位置计算损失。这样做能让模型在训练过程中更早发现错误,避免训练 "走偏"—— 比如如果某个中间层的分割结果漏了小病变,深度监督会及时调整参数,让后续层不再犯同样的错。

损失函数方面,Pact-Net 用了 "加权 IOU 损失 + Binary Cross Entropy(BCE)损失" 的组合:

  • 加权 IOU 损失:比传统 IOU 损失更关注病变边缘。它会给边缘像素加更高权重,让模型在分割时更精准地定位病变边界;
  • BCE 损失:适配医学图像分割的 "二分类任务"(像素要么是病变,要么是健康皮肤),能有效区分两类像素。

组合损失函数的公式是:

L_{DB}=L_{WIOU}+L_{BCE}
L_{DB}=L_{WIOU}+L_{BCE}

。实验证明,这个组合比单一损失函数的效果好得多 —— 用组合损失的模型 DICE(Dice 系数)达到 86.23%,而只用 IOU 损失的模型 DICE 只有 84.32%。

三、实验结果:碾压 SOTA!Pact-Net 在三大任务中表现封神

讲完了模型设计,咱们最关心的肯定是:Pact-Net 到底有多厉害?论文在三个医学图像分割任务上做了实验:皮肤病变分割、息肉分割、细胞分割。每个任务都用了多个公开数据集,结果只能用 "封神" 来形容 —— 全面碾压 U-Net、U-Net++、Transfuse 等 SOTA 模型。

3.1 皮肤病变分割:ISIC 三大数据集全面夺冠

皮肤病变分割是 Pact-Net 的主要目标任务,实验用了 ISIC 系列的三个权威数据集:ISIC 2016、ISIC 2017、ISIC 2018。这三个数据集是国际皮肤成像协作组织(ISIC)发布的,包含了来自全球多个医疗中心的皮肤镜图像,是皮肤病变分割领域的 "金标准"。

实验的主要评价指标是T-JAC(阈值 Jaccard)—— 这是 ISIC 挑战赛的官方主指标,规则是:如果 JAC≥0.65,就算有效分割;否则算无效分割。T-JAC 越高,说明模型的稳定分割能力越强。

咱们先看 ISIC 2018 数据集的对比结果(因为这个数据集最大,最有说服力):

模型

T-JAC(%)

JAC(%)

DICE(%)

ACC(%)

U-Net

77.56

77.33

85.45

94.01

U-Net++

78.51

78.56

87.61

94.98

Transfuse

81.01

84.47

90.89

95.48

Pact-Net(Ours)

84.14

84.32

90.75

96.91

从表格能看出,Pact-Net 的 T-JAC 达到 84.14%,比第二名 Transfuse 高 3.13 个百分点,比传统 U-Net 高 6.58 个百分点。这意味着在 ISIC 2018 的 260 张测试图中,Pact-Net 能正确分割的图像数量比 Transfuse 多 8 张左右 —— 别小看这 8 张,在临床诊断中,每多正确分割一张,就可能多挽救一个生命。

再看 ISIC 2016 和 ISIC 2017 数据集:

  • ISIC 2016:Pact-Net 的 T-JAC 达到 84.06%,比第二名高 2.93 个百分点;
  • ISIC 2017:Pact-Net 的 T-JAC 达到 72.99%,比第二名高 1.98 个百分点。

而且 Pact-Net 在其他指标上也全面领先:ACC(准确率)达到 96.91%,意味着每 100 个像素中,只有 3 个会被误判;DICE(Dice 系数)达到 90.75%,意味着分割结果和医生标注的金标准(GT)重合度极高。

论文还做了可视化对比,从图中能明显看出:Pact-Net 分割出来的病变边界最接近 GT,尤其是在有毛发遮挡、低对比度的复杂场景下 —— 比如某张图像中病变被毛发挡住了一部分,U-Net 和 Transfuse 都漏判了被遮挡的区域,而 Pact-Net 通过融合局部细节(毛发间隙的病变纹理)和全局信息(病变整体形态),精准分割出了完整的病变区域。

3.2 息肉分割:Kvasir 数据集 DICE 突破 90%

为了验证 Pact-Net 的泛化能力(能不能处理其他类型的医学图像),论文还在息肉分割任务上做了实验,用了 Kvasir 这个权威的息肉数据集(包含 1000 张结肠镜下的息肉图像)。

对比结果如下:

模型

DICE(%)

IOU(%)

U-Net

89.55

83.51

U-Net++

89.65

83.71

Transfuse

90.26

83.90

Pact-Net(Ours)

90.61

84.71

Pact-Net 的 DICE 达到 90.61%,IOU 达到 84.71%,比 Transfuse 分别高 0.35 和 0.81 个百分点。息肉分割的难点在于息肉和肠道黏膜的颜色很接近,边界模糊,但 Pact-Net 通过 CNN 抓息肉的局部纹理(比如息肉表面的褶皱)和 Transformer 抓息肉的全局位置(比如息肉在肠道的哪个部位),依然实现了高精度分割。

3.3 细胞分割:DSB2018 数据集 IOU 接近 80%

最后,论文在细胞分割任务上做了实验,用了 DSB2018 数据集(Kaggle 细胞分割竞赛的数据集,包含 670 张细胞图像)。细胞分割的难点在于细胞数量多、大小不一,而且细胞之间可能重叠。

对比结果如下:

模型

DICE(%)

IOU(%)

U-Net

85.57

76.47

U-Net++

86.02

77.20

Transfuse

87.10

78.59

Pact-Net(Ours)

87.53

79.28

Pact-Net 的 DICE 达到 87.53%,IOU 达到 79.28%,比 Transfuse 分别高 0.43 和 0.69 个百分点。这说明 Pact-Net 不仅能处理皮肤病变、息肉这种 "大目标",还能处理细胞这种 "小目标",泛化能力极强。

四、消融实验:搞懂每个模块到底有多重要

一篇好的论文不仅要展示模型的性能,还要证明每个模块的必要性 —— 也就是 "ablation study(消融实验)"。这篇论文通过消融实验,逐一验证了双分支编码器、CSF 子模块、SSMF 子模块的重要性。

4.1 双分支编码器的必要性

实验对比了 "单 CNN 分支"、"单 Transformer 分支" 和 "双分支" 的性能:

模型

ACC(%)

JAC(%)

DICE(%)

单 CNN 分支

93.56

77.15

85.51

单 Transformer 分支

87.44

51.99

65.53

双分支(Ours)

94.35

79.31

86.23

结果很明显:双分支的性能全面优于单分支。尤其是单 Transformer 分支,JAC 只有 51.99%,说明纯 Transformer 在局部特征提取上真的不行;而双分支通过互补,把 JAC 提升了 27.32 个百分点,充分证明了双分支结构的必要性。

4.2 CSF 和 SSMF 子模块的必要性

实验对比了 "无 CSF"、"无 SSMF" 和 "完整 CSMF" 的性能:

模型

JAC(%)

DICE(%)

基础模型(BM)

72.34

81.58

BM+CSF

74.56

84.32

BM+SSMF

75.60

85.05

BM+CSF+SSMF(Ours)

79.31

86.23

从结果能看出:

  • 加了 CSF 后,JAC 提升了 2.22 个百分点,说明通道 - 空间注意力能有效筛选关键特征;
  • 加了 SSMF 后,JAC 提升了 3.26 个百分点,说明多尺度融合能有效消除语义 gap;
  • 同时加 CSF 和 SSMF 后,JAC 提升了 6.97 个百分点,说明两个子模块是 "相辅相成" 的,缺一不可。

4.3 CNN 分支基础模型的选择

实验对比了 ResNet、VGG、MobileNet、ConvNeXt 等常用 CNN 模型作为分支的性能:

模型

ACC(%)

JAC(%)

DICE(%)

VGG

90.23

75.42

77.47

MobileNet

93.89

77.74

85.44

ConvNeXt(tiny)

91.53

70.86

79.98

ResNet(Ours)

94.35

79.31

86.23

结果显示,ResNet 作为 CNN 分支的性能最好。原因是 ResNet 的残差连接能更好地保留局部细节,而且和 Swin Transformer 的兼容性更强 —— 其他模型要么细节保留不够(如 VGG),要么计算量太大(如 ConvNeXt),只有 ResNet 能在 "细节保留" 和 "计算效率" 之间找到平衡。

五、Pact-Net 的局限性与未来方向

虽然 Pact-Net 的性能很惊艳,但它也不是完美的。论文诚实地指出了三个局限性,这也是未来可以优化的方向:

5.1 小数据集泛化能力弱

Pact-Net 在大规模数据集(如 ISIC 2017,2750 张图)上表现很好,但在小数据集或未训练过的数据集上表现一般。比如在 ETIS 息肉数据集(只有 192 张图)上,Pact-Net 的 IOU 只有 63.58%,远低于在 Kvasir 数据集上的 84.71%。

未来方向:引入迁移学习,用大规模通用医学数据集预训练模型,再用小数据集微调;或者设计轻量化的 Transformer 层,减少模型对数据量的依赖。

5.2 复杂场景分割精度不足

在极低对比度、严重毛发遮挡的复杂场景下,Pact-Net 的分割精度依然有提升空间。比如在 ISIC 2017 数据集中,JAC<0.65 的无效分割图像有 91 张,占测试集的 15.17%。

未来方向:设计 "边界聚焦" 的损失函数,专门针对病变边界进行优化;或者增加一个辅助的边界学习网络,让模型专门学习病变边界的特征。

5.3 训练效率低

Pact-Net 的双分支结构和 CSMF 模块虽然性能强,但计算量也很大 —— 在 NVIDIA RTX 2080Ti GPU 上,训练一轮 ISIC 2018 数据集需要 15 分钟左右,比 U-Net 慢了近 5 分钟。

未来方向:结合云计算技术,把模型训练部署在云端 GPU 集群上,提升训练速度;或者对模型进行剪枝、量化,减少冗余参数,让模型在本地设备上也能快速训练和推理。


总结

总的来说,Pact-Net 是医学图像分割领域的一个重要突破,它不仅为皮肤癌早筛提供了更精准的 AI 工具,也为其他医学图像分割任务提供了可借鉴的框架。相信在不久的将来,随着模型的不断优化,Pact-Net 这类 AI 技术会走进更多医院,帮助医生更快速、更准确地诊断疾病,挽救更多生命。 如果你对 Pact-Net 感兴趣,强烈建议去读一下原文(论文标题:Pact-Net: Parallel CNNs and Transformers for medical image segmentation,发表在 Computer Methods and Programs in Biomedicine 242 (2023))。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-12-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 一、先聊聊为什么要做医学图像分割?这事儿真能救命!
  • 二、Pact-Net 核心设计拆解:从输入到输出,每一步都藏着巧思
    • 2.1 输入层:图像预处理,给 AI"喂" 好数据
    • 2.2 双分支编码器:左手 CNN 抓细节,右手 Transformer 看全局
      • 2.2.1 CNN 分支:用 ResNet 做 "局部侦探",不放过任何细节
      • 2.2.2 Transformer 分支:用 Swin Transformer 做 "全局导航",定位更精准
      • 2.2.3 双分支的互补性:1+1 远大于 2
    • 2.3 CSMF 融合模块:把 CNN 和 Transformer 的特征 "捏" 成黄金搭档
      • 2.3.1 CSF 子模块:用注意力机制做 "翻译",筛选关键信息
      • 2.3.2 SSMF 子模块:用多尺度融合做 "整合",消除语义 gap
      • 2.3.3 CSMF 的优势:比传统融合方法强在哪?
    • 2.4 解码器与损失函数:从融合特征到分割结果,精准优化
  • 三、实验结果:碾压 SOTA!Pact-Net 在三大任务中表现封神
    • 3.1 皮肤病变分割:ISIC 三大数据集全面夺冠
    • 3.2 息肉分割:Kvasir 数据集 DICE 突破 90%
    • 3.3 细胞分割:DSB2018 数据集 IOU 接近 80%
  • 四、消融实验:搞懂每个模块到底有多重要
    • 4.1 双分支编码器的必要性
    • 4.2 CSF 和 SSMF 子模块的必要性
    • 4.3 CNN 分支基础模型的选择
  • 五、Pact-Net 的局限性与未来方向
    • 5.1 小数据集泛化能力弱
    • 5.2 复杂场景分割精度不足
    • 5.3 训练效率低
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档