分享:
分享到微信朋友圈
X
技术研究
基于模态交互学习的多源心脏图像分割方法研究
钟乔鑫 赵毅忠 张飞燕 陆雪松

Cite this article as: ZHONG Q X, ZHAO Y Z, ZHANG F Y, et al. Research on multi-source cardiac image segmentation method based on modal interaction learning[J]. Chin J Magn Reson Imaging, 2024, 15(4): 145-152.本文引用格式:钟乔鑫, 赵毅忠, 张飞燕, 等. 基于模态交互学习的多源心脏图像分割方法研究[J]. 磁共振成像, 2024, 15(4): 145-152. DOI:10.12015/issn.1674-8034.2024.04.023.


[摘要] 目的 通过研究和搭建人工智能深度学习网络,实现多模态心脏磁共振(cardiac magnetic resonance, CMR)图像分割,并提升Dice系数。材料与方法 回顾性分析来自2019年多序列CMR分割挑战赛的公开数据集,它包含了45例患者平衡稳态自由进动(balanced-steady state free precession, bSSFP)模态,晚期钆增强(late gadolinium enhancement, LGE)模态与T2WI模态的CMR图像数据。本文构建了一种新的双流U型网络框架,实现bSSFP与LGE两种模态以及bSSFP与T2WI两种模态的CMR图像分割。在编码阶段,未配准各模态图像被交替地送入各自分支进行特征学习,所获取的特征图接着都流入共享层,实现多模态信息的交互补充,最终共享特征分开流出到各自分支进行解码输出。通过在45例患者的CMR图像数据集上进行五折交叉验证实验,分别对bSSFP与LGE模态、bSSFP与T2WI模态进行了分割,以Dice系数对提出的模型进行性能评估,Wilcoxon符号秩检验被用来检验模型差异性。结果 在bSSFP与LGE模态的分割实验中,本文方法在bSSFP模态的平均Dice系数相较于传统UNet模型和最新的Swin-Unet模型都有显著提升(P<0.001);在LGE模态的平均Dice系数较传统UNet模型(P<0.001)、Swin-Unet模型(P=0.001)、双流UNet(P=0.021)均有显著提升。在bSSFP与T2WI模态的分割实验中,本文方法在bSSFP模态的平均Dice系数较UNet模型、Swin-Unet模型与双流UNet均有显著提升(P<0.001);在T2WI模态的平均Dice系数较UNet模型有显著提升(P<0.001),较Swin-Unet模型有提升(P=0.025)。结论 本研究提出的双流U型网络框架为CMR图像多模态分割提供有效方法,且该网络提高了CMR图像bSSFP模态与LGE模态及bSSFP模态与T2WI模态的Dice系数,很好地解决了多模态CMR图像个体解剖学差异大和图像间存在灰度不一致问题,提升了模型的泛化能力。
[Abstract] Objective To establish an artificial intelligence (AI) deep learning network for multimodal cardiac magnetic resonance (CMR) image segmentation and improve the Dice coefficient.Materials and Methods A retrospective analysis was performed on a publicly available dataset from the 2019 multi-sequence cardiac CMR segmentation challenge, which contains CMR image data of 45 patients including balanced steady-state free precession (bSSFP) modality, late gadolinium enhancement (LGE) modality, and T2-weighted imaging (T2WI) modality. A new dual-stream U-shaped network framework was constructed to achieve segmentation of cardiac MR images in both bSSFP and LGE modalities, as well as bSSFP and T2WI modalities. During the encoding phase, unregistered images of each modality were alternately fed into their respective branches for feature learning. The obtained feature maps were then fed into a shared layer for the interaction and supplementation of multi-modal information, and the shared features were finally separated and fed into their respective branches for decoding and output. Validation experiments were conducted on the 2019 multi-sequence CMR segmentation challenge dataset using five-fold cross-validation. The proposed model's performance was evaluated using the Dice coefficient, and the Wilcoxon signed-rank test was used to test the differences between the models.Results In the segmentation experiments of bSSFP and LGE modalities, the proposed method showed a significant improvement in average Dice coefficient compared to the traditional UNet model and the latest Swin-Unet model for the bSSFP modality (P<0.001). For the LGE modality, the average Dice coefficient was significantly improved compared to the traditional UNet model (P<0.001), and there was some improvement compared to the Swin-Unet model (P=0.001) and the dual-stream UNet model (P=0.021). In the segmentation experiments of bSSFP and T2WI modalities, the proposed method demonstrates a significant improvement in average Dice coefficient for the bSSFP modality compared to the UNet model, Swin-Unet model, and dual-stream UNet model (P<0.001). For the T2WI modality, the average Dice coefficient was significantly improved compared to the UNet model (P<0.001) and showed improvement compared to the Swin-Unet model (P=0.025).Conclusions The proposed dual-stream U-shaped network framework provides an effective method for multi-modal segmentation of CMR images and improves the Dice coefficient for bSSFP and LGE modalities, as well as bSSFP and T2WI modalities. It effectively addresses the large anatomical differences and grayscale inconsistencies between multi-modal cardiac MR images, thereby enhancing the model's generalization ability.
[关键词] 心肌梗死;心肌病;心血管疾病;多源心脏图像分割;深度神经网络;模态交互学习;磁共振成像
[Keywords] myocardial infarction;cardiomyopathy;cardiovascular disease;multi-source cardiac image segmentation;deep neural network;modality interaction learning;magnetic resonance imaging

钟乔鑫    赵毅忠    张飞燕    陆雪松 *  

中南民族大学生物医学工程学院,武汉 430074

通信作者:陆雪松,E-mail:365103248@qq.com

作者贡献声明:陆雪松采集并分析和解释了数据,对文章重要内容进行了修改;钟乔鑫起草和撰写了稿件,参与酝酿、设计实验,实施研究和分析解释数据;赵毅忠、张飞燕参与获取、分析与解释本研究数据,并对文章重要内容进行了修改。陆雪松获得国家自然科学基金项目与湖北自然科学基金项目资助。全体作者都同意发表最后的修改稿,同意对本研究的所有方面负责,确保本研究的准确性和诚信。


基金项目: 国家自然科学基金项目 61002046 湖北省自然科学基金项目 2016CFB489
收稿日期:2023-08-25
接受日期:2024-03-22
中图分类号:R445.2  R541.7 
文献标识码:A
DOI: 10.12015/issn.1674-8034.2024.04.023
本文引用格式:钟乔鑫, 赵毅忠, 张飞燕, 等. 基于模态交互学习的多源心脏图像分割方法研究[J]. 磁共振成像, 2024, 15(4): 145-152. DOI:10.12015/issn.1674-8034.2024.04.023.

0 引言

       心血管疾病是全球范围内的重要健康问题,早期的诊断和治疗对于降低致死率有极大的帮助。MRI技术为心脏的解剖和功能成像提供了一种重要的途径[1]。例如,心脏磁共振(cardiac magnetic resonance, CMR)的平衡稳态自由进动(balanced-steady state free precession, bSSFP)序列能够清晰地捕捉到心脏运动和各子结构的边界[2],晚期钆增强(late gadolinium enhancement, LGE)序列能够显示出心肌的梗死区域[3],T2WI序列能够显示急性损伤和缺血区域。通常可通过这些多模态CMR图像的分割计算一些参数指标,定量评估患者的心脏功能,实现心血管病的精准诊疗。

       临床上依靠人工对CMR图像中的目标手动分割极其耗时,工作效率低下,分割结果因人而异,可重复性差[4]。因此,计算机半自动或全自动分割方法一直是医学图像处理的研究热点之一[5]。然而,多模态CMR图像中固有的限制给分割带来挑战:(1)个体间心脏的形状、大小和位置差异较大;(2)由于噪声和病灶的原因,心脏各子结构的边界不太明显;(3)各模态间图像存在灰度不一致现象[6]

       目前,基于深度学习的方法在医学图像分割领域占据领先地位[7]。ZHOU等[8]重新设计U型网络框架的跳跃连接借助卷积神经网络(convolutional neural networks, CNN)提出一种新的架构UNet++用于语义和实例分割。ISENSEE等提出一种nnUNet分割方法,它无需人工干预,能够对新任务的数据预处理、网络架构、训练和后处理进行参数自动配置[9]。有研究首次采用ViT(vision transformer)[10]替换U-Net的瓶颈层,提升了腹部和心脏图像的分割精度[11]。还有研究利用Swin Transformer[12]作为基本单元构建U型网络的编码器和解码器,分割实验结果表明这种纯Transformer网络结构优于CNN与Transformer相结合的混合结构[13]。HUANG等[14]利用卷积操作构造一个前馈网络,以此替换经典Transformer中的多层感知器(multi-layer perceptron, MLP),有效地获取长距离依赖和局部上下文用于医学图像分割。

       对于多模态图像分割,大多数深度学习方法都是针对每种模态分别构建网络模型完成任务,没有利用模态间共有的信息。CHEN等[15]将多序列脑部MRI图像配准到同一空间,以通道的形式输入到残差网络实施分割。LI等[16]将已对齐的多模态MRI图像送入多尺度上下文全卷积网络(fully convolutional network, FCN),实现椎间盘的定位和分割。MORRIS等[17]利用良好的软组织对比MRI,通过3D U-Net完成放疗中平扫CT心脏子结构的分割。DOLZ等[18]首先为每类模态图像单独构建网络通路进行特征学习,然后在语义层实施模态融合完成脑部组织的分割任务。WANG等[19]提出一种Conjugate FCN框架执行腹部多器官分割,它从多模态图像中提取成对样本进行学习,借助融合模块实现信息互补。尽管这些方法通过不同的融合策略实现了模态间的信息共享,但是它们在预处理阶段大都需要配准操作。配准是一种常用的技术,它将来自不同成像设备或成像时间点的多个图像对齐到统一坐标系中,这对于结合不同模态图像的互补信息进行精确的组织分割特别重要。配准使得来自不同模态的图像能够在相同的空间坐标系下进行分析,从而可以结合不同模态图像的互补信息,提高分割的准确度[15]。但是配准过程可能会引入误差,特别是当图像之间的变形较大时,或者图像质量不佳时,配准的精确度可能会降低[6]。多模态图像配准通常计算量大,需要较高的计算资源和时间[17]。不同模态图像的对比度可能差异很大,这可能会对配准精度和随后的分割任务产生负面影响[19]

       最近,一些研究者构建能够学习跨模态知识的深度网络分割未配准多模态图像。VALINDRIA等[20]研究和展示了利用双流网络进行未配准CT和MRI交互学习的优势。DOU等[21]提出一种紧凑的网络模型用于未配准多模态图像分割,其中内部激活层对于每个模态单独归一化。类似地,ZHOU等[22]采用非线性形变增广图像数据,然后送入一个具有双归一化层的网络模型,从而处理多模态图像域自适应学习的问题。YANG等[23]设计一个外部注意模块去学习模态间的结构语义一致性,该模块被嵌入到以Transformer为基本单元的U型网络实施未配准多模态图像分割。CHEN等[24]利用跨模态一致性在解剖和语义空间约束深度网络模型,从而完成未配准CT和MRI的半监督分割。

       在多模态CMR图像分割挑战中,已有的分割方法大都需要配准预处理。针对这一问题,本文拟采用Swin Transformer与CNN[25]相结合的方法,构建双流网络交替输入未配准CMR图像,在模态共享的基础上完成分割[26]。这种双流U型网络框架为CMR图像的多模态分割提供了一种有效方法,通过在多模态信息的交互补充和共享特征的优化方面取得了显著成果,而在共享层引入的Swin Transformer模块,与简单的卷积操作相比,能够更有效地捕捉长距离依赖关系,利用全局特征更好地处理了个体间心脏的形状、大小和位置的显著差异。这一技术突破为心脏疾病的诊断和治疗提供了新的可能性,有望帮助医生更准确地识别心脏病变并提供个性化的治疗方案。

1 材料与方法

1.1 双流网络模型的构建

       本文提出了一种名为双流Transformer UNet(Double Stream Transformer UNet, DSTUNet)的网络架构(图1),旨在有效地从两种模态的未配准图像中进行特征学习完成分割任务。未配准的多模态数据之间缺乏对应关系,因此在传统的编解码器架构中难以找到跨模态的相关性。为了充分利用不同模态之间的共性,DSTUNet采用编码器-共享层-解码器的流程,通过共享层连接不同模态的编码器和解码器。具体而言,在编码阶段,各模态图像被交替地送入各自分支实施编码,接着所获取的特征图都流入共享层,最后共享特征分开流出到各自分支实施编码。

       编码器由编码块组成,每个编码块包含卷积单元(Conv Unit)和步幅卷积(Strided Conv)[27]。如图2A所示,卷积单元由2D卷积(Conv)、批量归一化(batch normalization, BN)和激活函数(ReLU)构成[28]。特征图经过步幅卷积后,尺寸减半,通道数翻倍。所有卷积层的步长为1,填充大小为1,内核大小为3×3,步幅卷积的内核大小不变,步长为2。

       共享层的主要作用是在多模态数据中实现信息的共享与交互,从而更好地学习到模态之间的共性信息,有助于提高模型的性能和泛化能力。本文提出的双流网络中,采用二维的Swin Transformer模块作为共享层。该模块具备强大的全局建模能力,能够有效地捕捉多模态之间的相似性和联系[29]。Swin Transformer模块结构如图3所示,包括层归一化(layer normalization, LN)[30],窗口多头自注意力(window multi head self attention, W-MSA)[31],滑动窗口多头注意力(shift window multi head self attention, SW-MSA)和多层感知机(multi-layer perception, MLP)层[32]。整体计算过程见式(1)~(4)。

       W-MSA和SW-MSA分别表示使用常规和移位窗口的多头自注意力。假设每个窗口包含M×M块,多头注意力的计算方法见式(5)

       其中,QKV称为查询向量、键向量、值向量,且Q, K, V∈ℛM2×d。dQK的维度。B称为相对位置偏置也称为偏置矩阵,用于标记窗口内token的相对位置关系[33],且B∈ℛM2。

       解码器的主要作用是重建特征和恢复分辨率[34]。如图2B所示,其结构包括上采样(Upsampling)和跳跃连接。上采样将低分辨率的特征图放大,与下采样特征图融合[35]。跳跃连接整合浅层和深层特征信息,提高分割准确性和稳定性[36]。然后,恢复原始分辨率的输出经过Softmax层产生概率标签映射,最后计算每个类别的最高Softmax概率得到最终分割结果[37]

图1  双流网络结构。
Fig. 1  Dual-stream network structure.
图2  编码器与解码器基本单元结构。2A为卷积单元结构;2B为上采样单元结构。
Fig. 2  Basic unit structures of the encoder and decoder. 2A represents the structure of the convolutional unit; 2B represents the structure of the upsampling unit.
图3  Swin Transformer模块结构。LN:归一化层;W-MSA:窗口多头自注意力;SW-MSA:滑动窗口多头注意力;MLP:多层感知机。
Fig. 3  Swin Transformer module structure. LN: layer normalization; W-MSA: window multi head self attention; SW-MSA: shift window multi head self attention; MLP: multi-layer perceptron.

1.2 验证实验

1.2.1 实验数据集

       实验所用数据来自2019年多序列CMR分割挑战赛(MS-CMR 2019)的公开数据集[6, 38](https://zmiclab.github.io/zxh/0/mscmrseg19/index.html)。它包含了45例心肌病患者三种模态(bSSFP、LGE与T2WI)的CMR图像数据,采用的数据集遵守《赫尔辛基宣言》。bSSFP CMR图像由8~12个连续的心脏切片构成,这些切片覆盖了从二尖瓣环至心室基底部的整个心室区域,其典型成像参数如下:TR 2.7 ms,TE 1.4 ms,层厚8~13 mm,面内分辨率重采样为1 mm×1 mm。LGE CMR图像是一种T1加权、反转恢复、梯度回波成像序列,由10~18个切片构成,覆盖心室主体,其典型参数如下:TR 3.6 mm,TE 1.8 ms,层厚5 mm,面内分辨率重采样为1 mm×1 mm。T2WI CMR是一种T2加权的黑血谱预饱和衰减反转恢复序列,包含较少切片,其典型参数如下:TR 2000 ms,TE 90 ms,层厚12~20 mm;面内分辨率重采样为1 mm×1 mm。数据中左心室(left ventricle, LV)、右心室(right ventricle, RV)和左心室心肌(left ventricle muscle, LVM)结构已被专业医师人工勾画,被视为ground truth。

       针对心脏部位分割任务,将这组数据45个病例按照3∶1∶1的比例进行训练集、验证集和测试集划分,采用5-折交叉验证的方法进行模型训练和评估[39]。为了提高模型的训练速度和提高模型的表现能力,所有图片被中心裁剪为224×224大小,像素值被归一化为零均值和单位方差。

1.2.2 实验环境

       实验环境包括软件和硬件两个方面,其参数配置见表1

表1  实验环境
Tab. 1  Experimental environment

1.2.3 训练优化与损失函数

       不同模态的数据具有不同的特征表示和信息表达方式,本文采用交替的方式输入两种模态的CMR图像进行网络训练。即在当前迭代中某模态图像流经ENCODER0,Shared Block,DECODER0。在下一次迭代中另一模态图像流经ENCODER1、Shared Block、DECODER1。训练过程中的每次迭代各模态图像都要流过共享层Shared Block。在测试阶段,测试图像通过属于该模态的网络分支即可推断分割结果。

       在神经网络的学习过程中,反向传播算法是一种常用的优化方法,损失函数是反向传播算法中的核心部分,它用来衡量神经网络的预测值与真实值之间的差距,差距越小损失越小[40]。在训练过程中,通过反向传播算法不断优化模型,使得损失函数的值不断减小,最终达到最优结果[41]。常用的损失函数是交叉熵损失函数,多分类的交叉熵损失函数的计算公式见式(6)

       其中,M表示分类类别的数量;yic表示样本i的标签,若属于类别c则为1,否则取0;pic表示样本i属于类别c的概率。

       医学图像分割中常用的损失函数是Dice-loss损失函数,Dice-loss计算公式见式(7)D的值越接近0说明模型的预测效果越好[42]

       其中,|AB|表示AB的交集,|A|和|B|分别表示AB的元素个数。

       在图像分割任务中,由于不同类别像素的数量分布不均,常常会出现类别不平衡的问题。为了解决这个问题,可以采用结合交叉熵和Dice-loss的损失函数[43]。本文使用的损失函数如公式(8)所示,其中,交叉熵部分用于衡量预测值与真实值之间的差距,而Dice-loss部分用于衡量预测值与真实值之间的相似度[44]。交叉熵损失函数能够有效地处理类别不平衡问题,而Dice-loss能够更好地衡量目标分割的精度[45]。因此,结合两种损失函数能够更好地平衡分割模型的精度和鲁棒性,提高模型的性能。

       其中,α∈(0, 1),在本文中,α的值为0.5。

1.2.4 对比实验

       为了验证本文中双流网络模型的优越性,本文使用了UNet[27]方法与Swin-Unet[13]方法与本文方法进行对比。使用UNet方法训练时,最大迭代轮数设置为200,批大小设置为4,使用SGD优化器进行优化,并将初始学习率设置为1e-3。使用Swin-Unet方法训练时,加载了patch_size为4,window_size为7的预训练模型,最大迭代轮数设置为200,批大小设置为4,使用SGD优化器进行优化,并将初始学习率设置为1e-3。使用本文方法训练时,最大迭代轮数设置为10 000,批大小设置为2,使用SGD优化器进行优化,并将初始学习率设置为1e-3。

1.2.5 消融实验

       为了验证本文所加模块的有效性,本文将未加Transformer模块的方法,即双流UNet(Double Stream UNet,DSUNet)与DSTUNet方法进行了消融实验。进行消融实验时,最大迭代轮数设置为10 000,批大小设置为2,使用SGD优化器进行优化,并将初始学习率设置为1e-3。

1.2.6 实验评价指标

       为了评估分割算法的性能,本文使用了两个度量指标,其中包括Dice系数[46]、最大表面距离(max surface distance, MSD)[47]。假设VA表示预测分割结果中的体素,VB表示ground truth中的体素,得出公式(9)

       假设SA表示预测分割结果所构成的面,SB表示ground truth所构成的面,则有公式(10)

       dSB, SA表示SA中的某点到SB的最近欧式距离。Dice=0表示两种分割没有重叠,Dice=1表示两种分割完全一致。Dice越大表明分割质量越好。相反地,MSD越小,表明分割质量越高。

1.2.7 统计学分析

       为了评估两组数据间的差异是否具有统计学意义,本研究采用了Wilcoxon符号秩检验。所有的统计分析均通过Python编程语言(版本3.7)中的SciPy库(版本1.7.3)实现,使用了scipy.stats.wilcoxon函数来执行检验。由于样本数据不满足正态分布的假设,且样本量较小(n=45),此非参数检验方法适合用于对成对样本的差值进行分析[48]P<0.05认为差异具有统计学意义。

2 结果

2.1 bSSFP模态与LGE模态交互训练实验结果

       为了验证本文方法在bSSFP模态与LGE模态交互训练中的有效性,我们将其与UNet、Swin-Unet方法的测试结果进行了对比。在bSSFP模态的CMR图像分割中,DSTUNet相较于UNet与Swin-Unet的Dice平均值均有显著提升(P<0.001)。在LGE模态的CMR图像分割中,DSTUNet相较于Unet的Dice平均值有显著提升(P<0.001),对比Swin-Unet的Dice平均值有所提升(P=0.001)。在消融实验中,与DSUNet方法相比,bSSFP模态的Dice平均值提升并不明显(P=0.269),LGE模态的 Dice平均值有所提升(P=0.021)(表2)。这说明DSTUNet性能的提升可能主要是由于双流结构促进了两种模态的交互。此外,我们绘制了箱线图可视化LVM、LV和RV三个结构分割的Dice结果的分布情况(图4)。在bSSFP模态的CMR图像分割中,DSTUNet较UNet与Swin-Unet,LVM的Dice平均值均显著提升(P<0.001)(图4A)。DSTUNet与DSUNet相比,在LGE模态的CMR图像分割中,LVM的Dice平均值差异无统计学意义(P>0.05)(图4B)。

图4  bSSFP与LGE模态分割Dice值箱线图。4A:bSSFP模态在不同网络下对不同结构的分割Dice值箱线图;4B:LGE模态在不同网络下对不同结构的分割Dice值箱线图。*表示P<0.05;**表示P<0.001。LVM:左心室肌;LV:左心室;RV:右心室;bSSFP:平衡稳态自由进动;LGE:晚期钆增强。
Fig. 4  Boxplot of Dice values for segmentation of bSSFP and LGE modalities. 4A: Boxplot of Dice values for segmentation of different structures using bSSFP modality across different networks; 4B: Boxplot of Dice values for segmentation of different structures using LGE modality across different networks. * represents P<0.05; ** represents P<0.001. LVM: left ventricular myocardium; LV: left ventricle; RV: right ventricle; bSSFP: balanced-steady state free precession; LGE: late gadolinium enhancement.
表2  不同网络结构在bSSFP和LGE两种模态下的所有结构Dice系数平均值及MSD平均值
Tab. 2  The average Dice coefficient and average MSD of different network structures in the bSSFP and LGE modalities

2.2 bSSFP模态与T2WI模态交互训练实验结果

       为了验证本文方法在bSSFP模态与T2WI模态交互训练中的有效性,我们将其与UNet、Swin-Unet方法的测试结果进行了对比。在bSSFP模态的CMR图像分割中,相较于UNet、Swin-Unet以及消融实验中的DSUNet方法,Dice平均值均有显著提升(P<0.001)。在T2WI模态的CMR图像分割中,DSTUNet相较UNet的Dice平均值有显著提升(P<0.001),而对比Swin-Unet的Dice平均值有提升(P=0.025)(表3)。这说明DSTUNet性能的提升可能主要是由于Swin Transformer作为共享层提取全局特征进行交互训练。此外,我们绘制了箱线图可视化LVM、LV和RV三个结构分割的Dice结果的分布情况(图5)。在bSSFP模态的CMR图像分割中,DSTUNet相较于UNet与Swin-Unet,LVM与LV的Dice平均值均显著提升(P<0.001),并且与DSUNet相比,LVM与RV的Dice平均值显著提升(P<0.001),LV的Dice平均值也有提升(P=0.004)(图5A)。在T2WI模态的CMR图像分割中,DSTUNet相较于UNet,LVM与RV的Dice平均值显著提升(P<0.001),与DSUNet相比,RV的Dice平均值有提升(P=0.007)(图5B)。

图5  bSSFP与T2WI模态分割Dice值箱线图。5A:bSSFP模态在不同网络下对不同结构的分割Dice值箱线图;5B:T2WI模态在不同网络下对不同结构的分割Dice值箱线图。*表示P<0.05;**表示P<0.001。LVM:左心室肌;LV:左心室;RV:右心室;bSSFP:平衡稳态自由进动。
Fig. 5  Box-and-whisker plots of Dice values for segmentation with bSSFP and T2WI modalities. 5A: Boxplot of Dice values for segmentation of different structures using bSSFP modality across different networks; 5B: Boxplot of Dice values for segmentation of different structures using T2WI modality across different networks. * represents P<0.05; ** represents P<0.001. LVM: left ventricular myocardium; LV: left ventricle; RV: right ventricle; bSSFP: balanced-steady state free precession.
表3  不同网络结构在bSSFP和T2WI两种模态下的所有结构Dice系数平均值及MSD平均值
Tab. 3  The average Dice coefficient and average MSD of different network structures in the bSSFP and T2WI modalities

3 讨论

       本研究提出了一种双流方式结合Swin Transformer的U型网络进行交互训练和学习的深度学习架构,针对CMR图像的多模态分割问题进行了探索性分析。通过实验验证,我们发现模型在Dice指标上取得了显著提升。本研究的主要创新之处在于无需进行配准预处理的情况下使用双流网络进行交互训练与学习,在共享层中让两种模态的信息进行交互,缓解了各模态间图像存在灰度不一致现象的问题,有效融合多模态CMR图像的信息,并且共享层使用Swin Transformer模块,相较于单纯的卷积操作能更好地捕捉长距离依赖关系,利用提取的全局特征有效地处理个体间心脏的形状、大小和位置差异较大的问题,这在之前的研究中是未被提及的。临床上,本模型的应用有望减少放射科医生在心脏图像分割中的主观性和不确定性,提供更准确的心脏病变评估和诊断,为临床决策提供辅助。

3.1 与现有研究对比

       传统的UNet模型结构简明,可以在有限的标注数据上取得较好的性能,但是由于使用传统的卷积操作,对于全局的图像特征提取能力有限[27]。最新的Swin-Unet模型是基于Transformer的架构,通过自注意力机制能够捕捉更丰富的全局信息,相比传统卷积网络,Swin Transformer能够根据任务动态调整感受野,但是处理多模态的数据时需要配准预处理才能使多模态数据的特征共享[49]。本文模型可以通过双流的网络方式有效的处理多模态的信息,在编码器阶段使用卷积提取局部特征,然后在共享层使用Swin Transformer提取全局特征进行交互训练与学习,可以更好地提取多模态数据中的全局与局部特征[50]。本文通过对比传统的UNet模型,以及对比最新的Swin-Unet模型验证无需进行配准预处理的情况下双流模型以及共享层对多模态信息交互的有效性。然后通过消融实验与DSUNet进行对比来验证共享层使用Swin Transformer的全局建模能力的在多模态分割中的有效性。

3.2 结果分析

       本研究认为性能提升主要得益于双流U型网络结构的设计理念,该结构通过共享层,有效促进了不同模态间特征的交互与互补。CHEN等[15]通过将多序列脑部MR图像配准至同一坐标空间,并将其作为输入通道输入残差网络进行分割,证明了多模态分割在各个单独模态分割任务中均能提高Dice系数,从而验证了该方法的有效性。MORRIS等[17]利用MRI中良好的软组织对比度,并通过3D U-Net实现了放疗用平扫CT中心脏子结构的分割,同样证明了在CT心脏子结构分割任务中Dice系数的提升,进一步验证了该方法的有效性。在无需图像配准的前提下,本研究分别在bSSFP和LGE模态以及bSSFP和T2WI模态的对比实验中,均发现本文提出的模型相较于传统的单流模型UNet和Swin-Unet,在Dice系数上取得了显著的提升。这一结果表明通过双流网络进行交互式训练可以在无需配准操作的情况下有效地促进不同模态信息的互补,并融合多模态CMR图像的信息。在与DSUNet模型的对比实验中,本研究的模型在bSSFP和LGE模态的交互训练中,在LGE模态的Dice系数上相较于DSUNet模型实现了显著的提升;在bSSFP和T2WI模态的交互训练中,本研究的模型在bSSFP模态的Dice系数上也相较于DSUNet模型取得了显著提升。这些结果指出,相较于传统的卷积操作,共享层中使用的Swin Transformer模块能更有效地捕捉长距离依赖关系,并利用提取的全局特征来有效处理个体间心脏的形状、大小和位置的显著差异。

3.3 研究的局限性与未来方向

       尽管本研究取得了一定的成果,但也存在局限性。首先,性能提升可能受到数据集特性的影响,在LGE图像中,心脏组织的病变特征具有较大差异性,斑块与纤维化组织的存在可能增加了分割任务的难度,进而影响了Dice系数的稳定性。LGE模态在不同网络下对不同结构的分割Dice值中异常值的增加便是这一现象的体现。其次,模型的泛化能力仍需在更多和更多样化的数据集上进行验证。未来的研究可以探索将本框架应用于其他类型的多模态医学图像分割,使模型能够适应更多的场景。其次,注意力机制可以动态地为每个输入位置赋予不同的权重,使模型更加关注与当前预测有关的信息[51],可以在网络中加入注意力机制,更好地捕捉输入序列之间的相关性,进一步提升模型的泛化能力[52]

4 结论

       本文将Swin Transformer与U型网络相结合应用到CMR分割任务中,能够更好地利用CNN局部特征和全局上下文信息,提高分割精度,为医生提供更准确的心脏解剖结构信息,有助于更精准地诊断和治疗心脏疾病,指导治疗方案的选择和调整。

[1]
FLETT A S, HASLETON J, COOK C, et al. Evaluation of techniques for the quantification of myocardial scar of differing etiology using cardiac magnetic resonance[J]. JACC Cardiovasc Imaging, 2011, 4(2): 150-156. DOI: 10.1016/j.jcmg.2010.11.015.
[2]
USLU F, VARELA M, BONIFACE G, et al. LA-net: a multi-task deep network for the segmentation of the left atrium[J]. IEEE Trans Med Imaging, 2022, 41(2): 456-464. DOI: 10.1109/TMI.2021.3117495.
[3]
LIN M Q, JIANG M J, ZHAO M B, et al. Cascaded triplanar autoencoder M-net for fully automatic segmentation of left ventricle myocardial scar from three-dimensional late gadolinium-enhanced MR images[J]. IEEE J Biomed Health Inform, 2022, 26(6): 2582-2593. DOI: 10.1109/JBHI.2022.3146013.
[4]
JACOBS M, BENOVOY M, CHANG L C, et al. Automated segmental analysis of fully quantitative myocardial blood flow maps by first-pass perfusion cardiovascular magnetic resonance[J/OL]. IEEE Access, 2021, 9: 52796-52811 [2023-08-24]. https://pubmed.ncbi.nlm.nih.gov/33996344/. DOI: 10.1109/access.2021.3070320.
[5]
HASSAN B, HASSAN T, AHMED R, et al. Automated Segmentation and Extraction of Posterior Eye Segment using OCT Scans[C]//2021 International Conference on Robotics and Automation in Industry (ICRAI). Rawalpindi, Pakistan. IEEE, 2021: 1-5. DOI: 10.1109/ICRAI54018.2021.9651403.
[6]
ZHUANG X H. Multivariate mixture model for myocardial segmentation combining multi-source images[J]. IEEE Trans Pattern Anal Mach Intell, 2019, 41(12): 2933-2946. DOI: 10.1109/TPAMI.2018.2869576.
[7]
FOUZIA E A, AZIZ D, AZIZ O. Images Segmentation using Deep Learning Algorithms and Metaheuristics[C]//2022 8th International Conference on Optimization and Applications (ICOA). Genoa, Italy. IEEE, 2022: 1-6. DOI: 10.1109/ICOA55659.2022.9934130.
[8]
ZHOU Z W, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE Trans Med Imaging, 2020, 39(6): 1856-1867. DOI: 10.1109/TMI.2019.2959609.
[9]
ISENSEE F, JAEGER P F, KOHL S A A, et al. nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation[J]. Nat Methods, 2021, 18(2): 203-211. DOI: 10.1038/s41592-020-01008-z.
[10]
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: transformers for image recognition at scale[EB/OL]. 2020: arXiv: 2010.11929. http://arxiv.org/abs/2010.11929
[11]
CHEN J N, LU Y Y, YU Q H, et al. TransUNet: transformers make strong encoders for medical image segmentation[EB/OL]. 2021: arXiv: 2102.04306. http://arxiv.org/abs/2102.04306
[12]
LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: hierarchical Vision Transformer using Shifted Windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, QC, Canada. IEEE, 2021: 9992-10002. DOI: 10.1109/ICCV48922.2021.00986.
[13]
CAO H, WANG Y Y, CHEN J, et al. Swin-unet: unet-like pure transformer for medical image segmentation[EB/OL]. 2021: arXiv: 2105.05537. http://arxiv.org/abs/2105.05537
[14]
HUANG X H, DENG Z F, LI D D, et al. MISSFormer: an effective transformer for 2D medical image segmentation[J]. IEEE Trans Med Imag, 2023, 42(5): 1484-1494. DOI: 10.1109/TMI.2022.3230943.
[15]
CHEN H, DOU Q, YU L Q, et al. VoxResNet: deep voxelwise residual networks for brain segmentation from 3D MR images[J/OL]. Neuroimage, 2018, 170: 446-455 [2023-08-24]. https://pubmed.ncbi.nlm.nih.gov/28445774/. DOI: 10.1016/j.neuroimage.2017.04.041.
[16]
LI X M, DOU Q, CHEN H, et al. 3D multi-scale FCN with random modality voxel dropout learning for Intervertebral Disc Localization and Segmentation from Multi-modality MR Images[J/OL]. Med Image Anal, 2018, 45: 41-54 [2023-08-24]. https://pubmed.ncbi.nlm.nih.gov/29414435/. DOI: 10.1016/j.media.2018.01.004.
[17]
MORRIS E D, GHANEM A I, DONG M, et al. Cardiac substructure segmentation with deep learning for improved cardiac sparing[J]. Med Phys, 2020, 47(2): 576-586. DOI: 10.1002/mp.13940.
[18]
DOLZ J, GOPINATH K, YUAN J, et al. HyperDense-net: a hyper-densely connected CNN for multi-modal image segmentation[J]. IEEE Trans Med Imaging, 2019, 38(5): 1116-1126. DOI: 10.1109/TMI.2018.2878669.
[19]
WANG R Z, CAO S L, MA K, et al. Pairwise learning for medical image segmentation[J/OL]. Med Image Anal, 2021, 67: 101876 [2023-08-24]. https://pubmed.ncbi.nlm.nih.gov/33197863/. DOI: 10.1016/j.media.2020.101876.
[20]
VALINDRIA V V, PAWLOWSKI N, RAJCHL M, et al. Multi-modal learning from unpaired images: application to multi-organ segmentation in CT and MRI[C]//2018 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe, NV, USA. IEEE, 2018: 547-556. DOI: 10.1109/WACV.2018.00066.
[21]
DOU Q, LIU Q D, HENG P A, et al. Unpaired multi-modal segmentation via knowledge distillation[J]. IEEE Trans Med Imaging, 2020, 39(7): 2415-2425. DOI: 10.1109/TMI.2019.2963882.
[22]
ZHOU Z Q, QI L, YANG X, et al. Generalizable cross-modality medical image segmentation via style augmentation and dual normalization[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA. IEEE, 2022: 20824-20833. DOI: 10.1109/CVPR52688.2022.02019.
[23]
YANG J, ZHU Y, WANG C Q, et al. Toward unpaired multi-modal medical image segmentation via learning structured semantic consistency[EB/OL]. 2022: arXiv: 2206.10571. http://arxiv.org/abs/2206.10571
[24]
CHEN X Y, ZHOU H Y, LIU F, et al. MASS: Modality-collaborative semi-supervised segmentation by exploiting cross-modal consistency from unpaired CT and MRI images[J/OL]. Med Image Anal, 2022, 80: 102506 [2023-08-24]. https://pubmed.ncbi.nlm.nih.gov/35696875/. DOI: 10.1016/j.media.2022.102506.
[25]
KAMNITSAS K, LEDIG C, NEWCOMBE V F J, et al. Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation[J/OL]. Med Image Anal, 2017, 36: 61-78 [2023-08-24]. https://pubmed.ncbi.nlm.nih.gov/27865153/. DOI: 10.1016/j.media.2016.10.004.
[26]
LIU Y S, WANG W, WANG K Q, et al. An Automatic Cardiac Segmentation Framework based on Multi-sequence MR Image[EB/OL]. 2019: arXiv: 1909.05488. http://arxiv.org/abs/1909.05488
[27]
RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[EB/OL]. 2015: arXiv: 1505.04597. http://arxiv.org/abs/1505.04597
[28]
YI Z T, WU G, PAN X L, et al. The research of anime character portrait generation based on optimized generative adversarial networks[C]//2021 33rd Chinese Control and Decision Conference (CCDC). Kunming, China. IEEE, 2021: 7361-7366. DOI: 10.1109/CCDC52312.2021.9602217.
[29]
PIAO Z G, GU Y H, YOO S J, et al. Segmentation of Cerebral Hemorrhage CT Images using Swin Transformer and HarDNet[C]//2023 International Conference on Information Networking (ICOIN). Bangkok, Thailand. IEEE, 2023: 522-525. DOI: 10.1109/ICOIN56518.2023.10049057.
[30]
JOARDAR B K, DESHWAL A, DOPPA J R, et al. High-throughput training of deep CNNs on ReRAM-based heterogeneous architectures via optimized normalization layers[J]. IEEE Trans Comput Aided Des Integr Circuits Syst, 2022, 41(5): 1537-1549. DOI: 10.1109/TCAD.2021.3083684.
[31]
LIU Y, HU C H, XU L T, et al. Swin Transformer based Unsupervised Network for Low-Light Image Enhancement[C]//2022 China Automation Congress (CAC). Xiamen, China. IEEE, 2022: 1838-1843. DOI: 10.1109/CAC57257.2022.10055781.
[32]
YE S Q, ZENG P C, LI P F, et al. MLP-stereo: heterogeneous feature fusion in MLP for stereo matching[C]//2022 IEEE International Conference on Image Processing (ICIP). Bordeaux, France. IEEE, 2022: 101-105. DOI: 10.1109/ICIP46576.2022.9897348.
[33]
ZENG C B, SONG C L. Swin transformer with feature pyramid networks for scene text detection of the secondary circuit cabinet wiring[C]//2022 IEEE 4th International Conference on Power, Intelligent Computing and Systems (ICPICS). Shenyang, China. IEEE, 2022: 255-258. DOI: 10.1109/ICPICS55264.2022.9873542.
[34]
TAN Y F, YANG L N, LI X C, et al. A fully convolutional neural network based on 2D-unet in cardiac MR image segmentation[C]//2021 International Conference on Computational Science and Computational Intelligence (CSCI). Las Vegas, NV, USA. IEEE, 2021: 1697-1701. DOI: 10.1109/CSCI54926.2021.00322.
[35]
REDDY T R, BALAJI S, RAMYA R, et al. Analyzing data compression techniques for biomedical signals and images using downsampling and upsampling[C]//2023 9th International Conference on Advanced Computing and Communication Systems (ICACCS). Coimbatore, India. IEEE, 2023: 71-76. DOI: 10.1109/ICACCS57279.2023.10112725.
[36]
ZHENG H, WANG L L, CHEN Y C, et al. Cross U-net: reconstructing cardiac MR image for segmentation[C]//2022 IEEE International Conference on Multimedia and Expo (ICME). Taipei, China. IEEE, 2022: 1-6. DOI: 10.1109/ICME52920.2022.9859940.
[37]
S R, BHARADWAJ A S, S K D, et al. Digital implementation of the softmax activation function and the inverse softmax function[C]//2022 4th International Conference on Circuits, Control, Communication and Computing (I4C). Bangalore, India. IEEE, 2022: 64-67. DOI: 10.1109/I4C57141.2022.10057747.
[38]
GAO S Q, ZHOU H Q, GAO Y B, et al. BayeSeg: Bayesian modeling for medical image segmentation with interpretable generalizability[J/OL]. Med Image Anal, 2023, 89: 102889 [2023-08-24]. https://pubmed.ncbi.nlm.nih.gov/37467643/. DOI: 10.1016/j.media.2023.102889.
[39]
SATRIA A, SITOMPUL O S, MAWENGKANG H. 5-fold cross validation on supporting K-nearest neighbour accuration of making consimilar symptoms disease classification[C]//2021 International Conference on Computer Science and Engineering (IC2SE). Padang, Indonesia. IEEE, 2021: 1-5. DOI: 10.1109/IC2SE52832.2021.9792094.
[40]
HUANG Z Y, GAN Y, LYE T, et al. Segmentation and uncertainty measures of cardiac substrates within optical coherence tomography images via convolutional neural networks[C]//2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). Iowa City, IA, USA. IEEE, 2020: 1-4. DOI: 10.1109/ISBI45749.2020.9098495.
[41]
CAMPELLO V M, GKONTRA P, IZQUIERDO C, et al. Multi-centre, multi-vendor and multi-disease cardiac segmentation: the M&Ms challenge[J]. IEEE Trans Med Imaging, 2021, 40(12): 3543-3554. DOI: 10.1109/TMI.2021.3090082.
[42]
GHOSH S, RAY N, BOULANGER P, et al. Automated left atrial segmentation from magnetic resonance image sequences using deep convolutional neural network with autoencoder[C]//2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). Iowa City, IA, USA. IEEE, 2020: 1756-1760. DOI: 10.1109/ISBI45749.2020.9098646.
[43]
SHEIKH M A A, MAITY T, KOLE A. IRU-net: an efficient end-to-end network for automatic building extraction from remote sensing images[J/OL]. IEEE Access, 2022, 10: 37811-37828 [2023-08-24]. https://ieeexplore.ieee.org/document/9748124. DOI: 10.1109/ACCESS.2022.3164401.
[44]
MU Y C, SUN J W, HE J. The Combined Focal Cross Entropy and Dice Loss Function for Segmentation of Protein Secondary Structures from Cryo-EM 3D Density maps[C]//2022 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). Las Vegas, NV, USA. IEEE, 2022: 3454-3461. DOI: 10.1109/BIBM55620.2022.9995469.
[45]
LU Y H, ZHOU J H, GUAN C T. Minimizing hybrid dice loss for highly imbalanced 3D neuroimage segmentation[C]//2020 42nd Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC). Montreal, QC, Canada. IEEE, 2020: 1059-1062. DOI: 10.1109/EMBC44109.2020.9176663.
[46]
REGEHR M, VOLK A, NOGA M, et al. Machine learning and graph based approach to automatic right atrial segmentation from magnetic resonance imaging[C]//2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). Iowa City, IA, USA. IEEE, 2020: 826-829. DOI: 10.1109/ISBI45749.2020.9098437.
[47]
KUMAR A, SINGH T. U-NET Architecture for Liver Segmentation using Multi Model Scans[C]//2022 IEEE 19th India Council International Conference (INDICON). Kochi, India. IEEE, 2022: 1-6. DOI: 10.1109/INDICON56171.2022.10039786.
[48]
VIERRA A, RAZZAQ A, ANDREADIS A. Continuous variable analyses: T-test, Mann-Whitney U, Wilcoxon sign rank[M]. Translational Surgery, Academic Press, 2023: 165-170. DOI: 10.1016/B978-0-323-90300-4.00045-8.
[49]
AO Y Y, WU H. Swin transformer combined with convolutional encoder for cephalometric landmarks detection[C]//2021 18th International Computer Conference on Wavelet Active Media Technology and Information Processing (ICCWAMTIP). Chengdu, China. IEEE, 2021: 184-187. DOI: 10.1109/ICCWAMTIP53232.2021.9674147.
[50]
LI F Y, LI W S, GAO X B, et al. A novel framework with weighted decision map based on convolutional neural network for cardiac MR segmentation[J]. IEEE J Biomed Health Inform, 2022, 26(5): 2228-2239. DOI: 10.1109/JBHI.2021.3131758.
[51]
YUAN X H, ZHU Y S, WANG Y G. Attention based encoder-decoder network for cardiac semantic segmentation[C]//2020 Chinese Automation Congress (CAC). Shanghai, China. IEEE, 2020: 4578-4582. DOI: 10.1109/CAC51589.2020.9326844.
[52]
QIAO G X, SONG J H. Cardiac image segmentation based on improved U-net[C]//2022 International Conference on Image Processing, Computer Vision and Machine Learning (ICICML). Xi'an, China. IEEE, 2022: 133-137. DOI: 10.1109/ICICML57342.2022.10009706.

上一篇 头颈联合3D-TOF-MRA人工智能辅助压缩感知序列的优化
下一篇 植入性医疗器械在磁共振成像检查中的应用现状调研及临床建议
  
诚聘英才 | 广告合作 | 免责声明 | 版权声明
联系电话:010-67113815
京ICP备19028836号-2