IEEE Trans. Medical Imaging 2023 · Vol.42 No.9

H2Former
医学影像智能分割系统

基于高效层次混合Transformer架构,融合卷积神经网络局部特征提取能力与Transformer全局长程依赖建模优势, 在五大医学影像分割基准上超越现有方法,参数量更小、精度更高。

ResNet-34 局部特征编码器
Swin-T 全局注意力模块
MSCA 多尺度通道注意力
HTB 层次混合Transformer块
0
Dice Score (%) · 皮肤病变
0
支持分割任务
0
模型参数量 (M)
0
DSC (%) · 多器官分割
核心优势

为什么选择 H2Former?

整合CNN与Transformer的双重优势,专为医学影像低数据场景优化设计

🔬
层次混合Transformer块 (HTB)
同时捕获局部空间关系、全局特征编码和多尺度通道注意力,将三类特征融合到统一模块,学习更优的病灶特征表征。
🧠
多尺度通道注意力 (MSCA)
利用ECA-Net高效通道注意力机制,在不同分辨率尺度上自适应地对关键通道加权,有效应对不同大小和形状的病灶变化。
🎯
Patch Expanding解码路径
采用创新的Patch Expanding上采样策略替代传统转置卷积,在Transformer解码器中精准恢复高分辨率特征图,保留细粒度边缘信息。
数据高效 · 低数据场景适配
CNN的归纳偏置与ImageNet预训练相结合,使模型在有限医学标注数据下快速收敛,显著优于纯Transformer方案。
📊
2D & 3D 双模态支持
统一架构同时支持2D(视网膜/皮肤/息肉)和3D(心脏ACDC/腹部Synapse)医学影像分割任务,无需独立设计模型。
🏆
SOTA性能 · 五大基准超越
在IDRiD、ISIC2016、Kvasir-SEG、ACDC、Synapse五个权威数据集上全面超越TransUNet、Swin-UNet等最新方法,性能领先显著。
网络架构

H2Former 架构全景

层次化编解码器设计,在四个分辨率尺度上并行运行CNN与Transformer分支

输入
医学影像
H×W×C
编码器 (ResNet-34)
Stage 1 64ch · H/2
Stage 2 128ch · H/4
Stage 3 256ch · H/8
Stage 4 512ch · H/16
HTB (Hybrid Transformer Block)
HTB-1 MSCA + W-MSA
HTB-2 MSCA + W-MSA
HTB-3 MSCA + SW-MSA
HTB-4 MSCA + SW-MSA
解码器 (Patch Expanding)
Expand 4 Skip + ×2 Up
Expand 3 Skip + ×2 Up
Expand 2 Skip + ×2 Up
Expand 1 Skip + ×2 Up
输出
分割掩码
H×W×K
CNN编码器 (ResNet-34)
层次混合Transformer块 (HTB)
Patch Expanding解码器
分割输出头
🔷
W-MSA
窗口多头自注意力
建模局部空间关系
🔶
SW-MSA
移位窗口注意力
跨窗口全局交互
🟣
MSCA
多尺度通道注意力
4种Patch嵌入融合
🟢
FFN
前馈网络
MLP特征变换
🔵
LayerNorm
层归一化
稳定训练过程
Skip Connect
跳跃连接
保留多尺度细节
在线演示

医学影像分割体验

上传医学影像或选择示例图像,实时查看H2Former分割效果

输入图像
🖼️
拖拽图像至此,或点击选择
支持 PNG · JPG · BMP · TIFF
或选择示例图像:
分割任务类型:
分割结果
分割性能指标:
Dice (%)
IoU (%)
Acc (%)
推理 (ms)
性能评估

与SOTA方法全面对比

在五大公开数据集上验证,H2Former以更少参数量实现更高分割精度

皮肤病变分割 (ISIC 2016)
Dice Score 对比 (%)
结肠息肉分割 (Kvasir-SEG)
Dice Score 对比 (%)
多器官分割 (Synapse)
DSC % 各器官对比
心脏分割 (ACDC)
Dice Score 各结构对比 (%)

综合性能对比表

ISIC 2016皮肤病变分割 · 与CNN、Transformer及Hybrid方法全面比较

方法类型Acc (%)Dice (%)IoU (%)参数量 (M)
UNetCNN93.585.877.131.0
UNet++CNN94.187.178.936.6
Att-UNetCNN94.086.478.234.9
TransUNetHybrid94.688.480.593.2
Swin-UNetTransformer94.388.080.041.4
MISSFormerTransformer94.588.680.842.5
H2Former (Ours)Hybrid 95.1 91.2 84.0 28.5
支持数据集

五大医学影像基准

覆盖眼底、皮肤、消化道、心脏、腹部多个医学影像分割领域

👁️
IDRiD
印度糖尿病视网膜病变数据集,包含眼底病变4类像素级标注(硬性渗出、出血、微动脉瘤、软性渗出)。
81
眼底图像
4
病变类别
2848×4288
分辨率
🔬
ISIC 2016
皮肤镜病变分割数据集,由ISBI 2016会议举办的皮肤黑色素瘤检测挑战赛提供。
900
训练图像
379
测试图像
512×512
处理尺寸
🟢
Kvasir-SEG
结肠息肉分割数据集,包含胃肠道内镜图像,需精确分割息肉区域,挑战在于形状多变和低对比度。
1000
内镜图像
5-fold
交叉验证
512×512
处理尺寸
❤️
ACDC
自动心脏诊断挑战数据集,包含CMR心脏磁共振图像,需分割右心室、心肌、左心室三个结构。
100
患者MRI
3
心脏结构
320×320
处理尺寸
🫀
Synapse
腹部多器官CT分割数据集,包含主动脉、胆囊、脾脏、左肾、右肾、肝脏、胰腺、胃等8个器官。
30
腹部CT
8
腹部器官
480×480
处理尺寸
技术栈

核心技术组件

PyTorch
深度学习框架
timm
Swin Transformer预训练
RTX 3090
GPU训练平台
ResNet-34
ImageNet预训练骨干
OpenCV
图像预处理
AdamW
优化器 + Poly LR