基于深度学习的心脏磁共振图像心腔分割文献综述

 2022-11-03 21:53:56
  1. 文献综述(或调研报告):

基于深度学习的图像语义分割文献综述

摘要:本文对现有的基于深度学习的图像语义分割方法进行了综述。首先介绍语义分割的深度学习网络模型,然后通过几个经典的语义分割方法来介绍升采样网络,并比较不同的语义分割方法的效果,最后分析了现有方法面临的挑战。

  1. 简介

图像语义分割(Semantic Segmentation)结合了图像分割和图像分类,即将图像中的每个像素分为不同的语义类别,并得到不同的分割区域。每个像素的分类问题可以被描述为[1]:寻找一种特定的方法将原始图像标记上标签,每一个对应的是一个随机变量集合。每个标签l表示的是一个类别或者对象,例如,行人,汽车,交通灯,背景。标签域有k个可能的状态。通常来说,集合X是一个宽为W,高为H的二维图像(W*H = N),像素值为x。语义分割是当前计算机视觉领域研究的关键问题之一,并且随着工业界的需求,语义分割的重要性进一步提升。语义分割被广泛应用于自动驾驶,无人机落地点检测,医学图像处理等领域[2]

近年来,深度学习在计算机视觉领域取得了许多突破性的进展。深度卷积网络(Deep Convolutional Neural Networks, DCNNs)可以从大量的训练数据中提取图像特征,故不仅在图像分类和物体检测任务中取得了明显的成果,并且在语义分割问题上也取得了巨大的成功[3]

常用的基于深度学习的语义分割方法是图像块分类(Patch classification)[4],即利用像素周围的像素块对每个像素进行分类。但在2014年,Long J.等人[5]提出全卷积网络(Fully Convolutional Network, FCN),使得卷积神经网络不需要全连接层(Fully connected layer)就可以实现密集的像素级分类,从而实现对图像进行端到端(end-to-end)的分割,故成为当前非常流行的像素级分类CNN架构。由于FCN不需要全连接层,所以可以对任意大小的图像进行语义分割,而且比传统方法要快许多,故后来被提出的许多更为先进的方法都是基于该模型进行拓展的。

在FCN以后,常见的基于深度学习的语义分割体系结构一般由编码器网络(encoder network)和解码器网络(decoder network)组成。编码器网络在不同的语义分割算法中是相似的,往往是经过预训练的分类网络,如VGG16,GoogLeNet,ResNet。解码器网络才是不同算法中相互区分的部分。解码器的任务是将从编码器网络学习到的较低分辨率的辨别特征语义投射到较高分辨率的像素空间,从而回复物体的细节和空间维度。

本文的框架为:首先介绍语义分割的编码器网络模型,然后通过几个经典的语义分割方法来介绍解码器网络,最后比较不同的语义分割方法的效果。

  1. 深度学习网络模型

在计算机视觉领域中,有一些网络模型对推动整个计算机视觉社区有很大的作用,并且它们成为了被广泛认同的标准模型。这些网络在语义分割中通常作为编码器网络,本文介绍几个著名的网络,即VGG16,GoogLeNet,ResNet。

    1. VGG

VGG(Visual Geometry Group, VGG)[6]由牛津大学的Simonyan和Zisserman提出,VGG有许多版本,其中VGG-16和VGG-19被广泛应用于计算机视觉任务中。16和19的含义为该网络包含16或19层。图1展现了VGG-16的架构。VGG-16和之前提出的卷积神经网络相比的不同之处在于在前面数层卷积层使用的是感受野(Receptive Field)较小的一串卷积层。例如,VGG-16采用的是连续几个3*3的卷积核而不是像AlexNet[7]使用的是11*11和5*5。这个改动使得进行训练的参数减少,并使模型更易于训练。另外,3*3的卷积核有利于保持图像的性质。网络的通道数(channel)从较小的64开始,然后每经过一个下采样或者池化层成倍地增加,同时特征图大小成倍地减小。VGG卷积层之后是3个全连接层。最终VGG-16在ImageNet上的Top-5准确度为92.3%。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。