IEEE Trans. Medical Imaging 2023 · Vol.42 No.9

H2Former
医学影像智能分割系统

基于高效层次混合Transformer架构，融合卷积神经网络局部特征提取能力与Transformer全局长程依赖建模优势，在五大医学影像分割基准上超越现有方法，参数量更小、精度更高。

ResNet-34 局部特征编码器

Swin-T 全局注意力模块

MSCA 多尺度通道注意力

HTB 层次混合Transformer块

立即体验演示了解架构

Dice Score (%) · 皮肤病变

支持分割任务

模型参数量 (M)

DSC (%) · 多器官分割

核心优势

为什么选择 H2Former？

整合CNN与Transformer的双重优势，专为医学影像低数据场景优化设计

🔬

层次混合Transformer块 (HTB)

同时捕获局部空间关系、全局特征编码和多尺度通道注意力，将三类特征融合到统一模块，学习更优的病灶特征表征。

🧠

多尺度通道注意力 (MSCA)

利用ECA-Net高效通道注意力机制，在不同分辨率尺度上自适应地对关键通道加权，有效应对不同大小和形状的病灶变化。

🎯

Patch Expanding解码路径

采用创新的Patch Expanding上采样策略替代传统转置卷积，在Transformer解码器中精准恢复高分辨率特征图，保留细粒度边缘信息。

⚡

数据高效 · 低数据场景适配

CNN的归纳偏置与ImageNet预训练相结合，使模型在有限医学标注数据下快速收敛，显著优于纯Transformer方案。

📊

2D & 3D 双模态支持

统一架构同时支持2D（视网膜/皮肤/息肉）和3D（心脏ACDC/腹部Synapse）医学影像分割任务，无需独立设计模型。

🏆

SOTA性能 · 五大基准超越

在IDRiD、ISIC2016、Kvasir-SEG、ACDC、Synapse五个权威数据集上全面超越TransUNet、Swin-UNet等最新方法，性能领先显著。

网络架构

H2Former 架构全景

层次化编解码器设计，在四个分辨率尺度上并行运行CNN与Transformer分支

输入

医学影像

H×W×C

→

编码器 (ResNet-34)

Stage 1 64ch · H/2

Stage 2 128ch · H/4

Stage 3 256ch · H/8

Stage 4 512ch · H/16

⊕

HTB (Hybrid Transformer Block)

HTB-1 MSCA + W-MSA

HTB-2 MSCA + W-MSA

HTB-3 MSCA + SW-MSA

HTB-4 MSCA + SW-MSA

→

解码器 (Patch Expanding)

Expand 4 Skip + ×2 Up

Expand 3 Skip + ×2 Up

Expand 2 Skip + ×2 Up

Expand 1 Skip + ×2 Up

→

输出

分割掩码

H×W×K

CNN编码器 (ResNet-34)

层次混合Transformer块 (HTB)

Patch Expanding解码器

分割输出头

🔷

W-MSA

窗口多头自注意力
建模局部空间关系

🔶

SW-MSA

移位窗口注意力
跨窗口全局交互

🟣

MSCA

多尺度通道注意力
4种Patch嵌入融合

🟢

FFN

前馈网络
MLP特征变换

🔵

LayerNorm

层归一化
稳定训练过程

⚪

Skip Connect

跳跃连接
保留多尺度细节

在线演示

医学影像分割体验

上传医学影像或选择示例图像，实时查看H2Former分割效果

输入图像

🖼️

拖拽图像至此，或点击选择

支持 PNG · JPG · BMP · TIFF

或选择示例图像：

分割任务类型：

分割结果

原始图像

分割结果

分割性能指标：

—

推理用时 (ms)

性能评估

与SOTA方法全面对比

在五大公开数据集上验证，H2Former以更少参数量实现更高分割精度

皮肤病变分割 (ISIC 2016)

Dice Score 对比 (%)

结肠息肉分割 (Kvasir-SEG)

Dice Score 对比 (%)

多器官分割 (Synapse)

DSC % 各器官对比

综合性能对比表

ISIC 2016皮肤病变分割 · 与CNN、Transformer及Hybrid方法全面比较

方法	类型	Acc (%)	Dice (%)	IoU (%)	参数量 (M)
UNet	CNN	93.5	85.8	77.1	31.0
UNet++	CNN	94.1	87.1	78.9	36.6
Att-UNet	CNN	94.0	86.4	78.2	34.9
TransUNet	Hybrid	94.6	88.4	80.5	93.2
Swin-UNet	Transformer	94.3	88.0	80.0	41.4
MISSFormer	Transformer	94.5	88.6	80.8	42.5
H2Former (Ours)	Hybrid	95.1	91.2	84.0	28.5

支持数据集

五大医学影像基准

覆盖眼底、皮肤、消化道、心脏、腹部多个医学影像分割领域

👁️

IDRiD

印度糖尿病视网膜病变数据集，包含眼底病变4类像素级标注（硬性渗出、出血、微动脉瘤、软性渗出）。

81
眼底图像

4
病变类别

2848×4288
分辨率

🔬

ISIC 2016

皮肤镜病变分割数据集，由ISBI 2016会议举办的皮肤黑色素瘤检测挑战赛提供。

900
训练图像

379
测试图像

512×512
处理尺寸

🟢

Kvasir-SEG

结肠息肉分割数据集，包含胃肠道内镜图像，需精确分割息肉区域，挑战在于形状多变和低对比度。

1000
内镜图像

5-fold
交叉验证

512×512
处理尺寸

❤️

ACDC

自动心脏诊断挑战数据集，包含CMR心脏磁共振图像，需分割右心室、心肌、左心室三个结构。

100
患者MRI

3
心脏结构

320×320
处理尺寸

🫀

Synapse

腹部多器官CT分割数据集，包含主动脉、胆囊、脾脏、左肾、右肾、肝脏、胰腺、胃等8个器官。

30
腹部CT

8
腹部器官

480×480
处理尺寸

H2Former医学影像智能分割系统