
1.2 研究现状
注意属于人类的认知过程,是心理学概念,也是视觉感知的重要组成部分。通过计算机模拟注意力机制的显著性检测涉及心理学、神经科学、生物视觉和计算机视觉等相关领域,是多学科交叉的研究领域。显著性检测技术可以分为视点检测技术和显著区域提取技术,本书关注显著区域提取技术,包括显著区域提取方法和显著性数据集的构建。后面将详细介绍显著区域提取方法和显著性数据集的研究现状,并对现状进行分析。
1.2.1 显著区域提取方法的研究现状及分析
1.显著区域提取方法的研究现状
以认知心理学家Triesman和Gelade、神经生物学家Koch和Ullman为代表的研究者将视觉注意力机制主要分为两大类:自底向上(bottom-up)数据驱动的预注意机制和自顶向下(top-down)任务驱动的后注意机制。相应的,显著性检测方法根据视觉注意力机制的分类可以分为自底向上(bottom-up)的检测方法和自顶向下(top-down)的检测方法。其中,自底向上的显著性检测由底层数据驱动,没有任何先验知识,属于低级的认知过程。由于自底向上的检测过程不考虑认知任务对显著性提取的影响,处理速度较快。自顶向下的检测过程依赖于任务,依靠任务驱动进行显著性检测,属于高级认知过程。由于自顶向下的过程根据任务要进行有意识的处理,处理速度较慢。
研究人员从不同视角提出众多显著区域提取方法,方法的分类可以总结为图1-4。

图1-4 显著区域提取方法分类
最早基于生物学模型的视觉计算模型由Koch和Ullman[7]于1985年提出。后来Itti等[8]在Koch和Ullman模型基础上并行地提取多尺度、多特征的显著图,此方法是最经典的基于生物学模型的自底向上的方法。由于基于生物学模型的显著性检测方法过于复杂,研究重点逐渐转向以对比度计算为主的提取方法,产生了纯计算模型和混合模型[9]。对比度计算是纯计算方法的关键,按照对比度的范围可以分为基于全局对比度的提取方法[11-13]和基于局部对比度的提取方法[14-17]。基于局部对比度的方法容易产生高亮的轮廓,不能均匀高亮地显示整个区域。基于全局对比度的方法能够给相似的图像区域分配相近的显著值,能高亮地显示整个区域,但计算速度一般会更慢。越来越多的研究人员从全局对比度出发,从不同的视角设计显著区域提取方法[21-22]。根据处理的图像信号是否在空域,可以将提取方法分为空域模型和频域模型[18-19]。空域模型是最直接的处理方式,不需要对图像进行变换,直接在图像的二维空间进行处理,目前的大多数方法都属于空域模型。频域模型将图像变换到频域后进行处理,相对于空域模型,基于频域的方法计算量小、速度快。参与对比度计算的单元可以分为像素级别、特征统计结果级别和分割后区域级别[20],因此提取方法也可以按照这三种不同的级别进行分类。
值得强调的是,一种显著区域提取方法可能属于上述归纳的多个类别。
随着研究的发展,研究人员发现单纯依赖图像本身的特征(如颜色、形状、纹理等)来进行显著区域提取是不够的,因此,越来越多的研究人员利用图像外部信息辅助显著区域的计算,这类方法可以看作基于外部线索的显著区域提取方法。外部信息可以是大量的相似图像集、图像的深度信息或者图像外部的文字信息及标注。
由于本书的主要工作是基于标签信息的显著区域提取方法研究,标签可以看作图像外部的信息,所以下面将对基于外部线索的显著区域提取方法进行详细分析。
1)基于先验的提取方法
基于先验的提取方法结合了自底向上和自顶向下的优点,充分利用了底层显著特征,又融入了先验的高层语义信息。先验的高层语义信息大体可以分为特定对象的先验信息、通用的与类别无关的先验信息及背景信息。
典型的特定对象先验有人[37]、人脸[11,36-37]、汽车[36]和颜色先验(暖色调更显著)[11]、水平线[37]和中心先验[11,37]。这些工作的成功表明了先验知识在任务依赖的显著区域提取中非常重要,把这些先验知识融入目标函数中,可以改善提取性能。然而这些先验知识的使用也存在局限性,在显著图的计算中,暖色、人脸、中心等一般是人眼注意力集中的区域,使用几种特定的语义线索进行显著区域提取时,虽然在一定程度上改善了显著区域的性能,但不具有通用性,在一定程度上限定了模型的应用范围。
近期,研究工作[38-39]关注于通用的、与类别无关的对象性检测子,这种通用对象性检测子被应用到显著区域提取中[40-42]。通用对象性检测子的提取结果反映了对象存在的可能性有多大,同时也反映了对象可能存在的位置,这种先验信息对于显著区域的提取是非常有效的。通用对象性检测子的实质是强调了潜在前景像素的影响,使显著区域的提取结果更为准确、完整。然而,通用对象性检测子的检测结果也存在一些问题:检测到的区域和显著区域的概念并不完全等同,存在检测到的区域并不是显著区域的问题,并且检测出的位置准确性也有待提高。
背景信息也是在显著区域提取中经常用到的一种先验信息。文献[31]提出了背景度(backgroundness)的概念,背景度可以看作对象性(objectness)的对立概念,从相反的角度去度量显著性。测地显著性[72]就是一个代表性的工作,认为图像的边界区域更可能为图像的背景,并且将边界连接度作为先验信息辅助显著区域的提取,算法鲁棒性更强。文献[44]利用图像边框大多是背景的先验信息,通过流形排序的方法将此先验扩散并增加,得到显著区域的估计。当然,当显著区域与边界连接时会导致背景先验的失效。
2)基于机器学习的提取方法
机器学习可以通过数据的训练来改进算法的性能,在显著区域提取任务中变得越来越重要。利用机器学习方法进行显著区域提取的实质是通过学习找到视觉特征到显著区域的映射,用于预测图像中的显著区域。这种映射关系可以是线性的映射关系[30,26,13],也可以是非线性的映射关系[31-32,34]。
典型的机器学习方法有条件随机场模型[45]、支持向量机[130]、增强决策树[129]、随机森林[31]等。一般来说,基于有监督的机器学习方法比启发式方法的特征表示更丰富。文献[30]通过条件随机场对显著区域提取问题进行建模,是一种有监督的机器学习方法,采用的多种特征包括多尺度对比度、中央-周边直方图和颜色空间分布,从局部、区域和全局的角度来描述显著区域,有效地将多特征结合起来用于显著区域的提取。文献[31]将显著性计算看成一个回归问题,首先将图像进行多尺度分割,并且提取区域的颜色对比度、区域的背景度和区域自身的属性。当然,随着特征表示的丰富必然会导致特征维数的增大。随着大规模训练样本的获得,分类器能够自动整合类型丰富的特征,并且学习到有判别力的特征,因此基于机器学习的提取方法能够获得比启发式方法更优的提取结果。
随着深度学习研究的深入,深度学习在显著区域提取方面的应用变得越来越广泛[33-35,51,97-99,131]。文献[98]采用局部显著性估计和全局显著性估计相结合的方法,训练两个深度学习网络;文献[97]采用卷积神经网络在三个不同尺度上进行特征的提取;文献[99]将全局上下文信息和局部上下文信息统一到一个深度学习框架中进行显著区域提取。深度学习模型分为多层,上一层的输出作为下一层的输入,逐层抽象出高级语义信息,很好地模拟了人脑的分层处理系统,克服了人工设计特征提取的缺点,避免了启发式融合显著性先验和特征的不合理性,能够更准确地描述图像结构的本质,所以基于深度学习方法的显著区域提取效果较非深度学习的方法有了大幅的提升。目前,基于深度学习方法的显著区域提取工作越来越倾向于探索更有效、能保留更多空间细节的网络结构。例如,文献[33]是一个通用的聚合多级卷积特征的深度框架,利用不同分辨率下的特征进行显著区域的提取;文献[34]将每一层的深度神经网络特征都进行互联,并同时利用高层特征和底层特征进行显著区域的提取;RADF[35]使用侧边融合网络集成侧边特征,以逐渐生成更精细的显著图。文献[51]设计了一个以U型特征金字塔网络为骨干的深度学习网络结构,加入全局导航模块和特征聚合模块,将粗糙的特征和细致的特征进行更好的融合。BASNet[131]的深度学习网络包括一个U型网络模块和一个改进显著区域边界质量的残差求精模块。
3)基于相似图像的提取方法
随着网络技术的发展,在网上可以获得大量的相似图像,这种便利性使得基于相似图像的显著区域提取得以实施,这是一种典型的利用图像外部信息进行显著区域提取的方法[26-29]。
文献[27]建立了一个索引图像库,索引图像库的图像均进行过标注,利用这些标注过的图像进行训练,对于新的图像,在索引图像库中搜索近邻图像,通过训练好的分类模型对新图像的区域进行显著性和非显著性的分类。文献[28]将显著性计算定义为一个抽样问题,如果图像块由自身图像和相似图像抽样出来的概率很低,则为显著区域。文献[29]认为相似图像能够很好地对背景进行估计,进而可以通过近邻图像对图像的显著区域进行估计。
显著区域的标注工作是相当费时费力的,随着海量图像的涌现,对海量图像进行标注是不现实的。但是,随着网络技术的发展,检索到大量的相似图像是可行的,所以,如何利用相似图像对未标注的图像进行标注是一件非常有意义的事情。
4)基于深度信息的提取方法
人类生活在真实的三维世界中,深度信息对人类理解周围的世界非常重要,在视觉注意中同样具有重要的作用。近年来,研究人员开始研究如何利用深度信息进行显著区域的提取[23-25]。
文献[23]通过实验证明了深度信息对视点预测的重要性。最直观简单的方法是将深度特征引入到传统的基于外观的特征中,作为一种特征通过全局对比度的方式计算其显著性。文献[25]针对RGBD数据库规模太小的问题,建立了包含5000幅深度信息的图像库,并利用底层外观特征、中层区域特征和高层先验知识等多角度进行深度特征和外观特征的融合,在一定程度上克服了已有深度特征融合方法过于简单的缺点。文献[24]提出了如何利用立体图像中的领域知识来辅助显著区域的提取,领域知识体现了对深度信息的利用。
2.显著区域提取方法的现状分析
显著性检测技术涉及图像处理、机器学习和模式识别等相关技术。目前,对显著性检测的研究主要包括两个方面:显著性检测模型的研究和显著性应用的研究。近年来,显著性检测技术有了快速的发展,已经在图像处理和计算机视觉领域得到了广泛的应用[2-6],但仍然存在很多问题需要进一步研究。
1)显著性模型的研究
显著性检测模型的本质是让计算机模仿人类视觉系统(HVS,Human Visual System)去理解和分析图像,然而这是一件非常困难的事情,面临着许多挑战。人类视觉系统极其复杂,其处理原理和具体过程仍然没有完全被研究人员理解,本身就具有巨大的挑战。因此,显著性模型目前仍然没有完整统一的理论框架,有待进一步研究和完善。
2)显著性特征的选取
显著性检测方法采用的特征多种多样,它们有利有弊。如果特征选择得恰当,可以起到相互补充、相互促进的作用,可以避免某个特征导致不合理的显著区域提取。但多种特征一起参与计算,也可能起到相反的效果,而且也需要更加复杂的融合算法以保证最终的显著图更加符合人的感知特点。特征的好坏直接影响提取的效果,所以应用新的特征一直是研究人员的目标。
3)跨媒体技术的利用
随着信息技术和网络的发展,多媒体数据大量涌现,数据类型变得越来越丰富。不同类型的数据,如文本、图像、视频、声音等,在语义上具有很强的关联性,传统的单一媒体相关技术忽略了不同类型数据在语义上的共性。如何挖掘多媒体数据之间的语义关联信息以辅助显著区域的提取成为了重要的研究课题。
综上所述,虽然研究人员已经提出了多种显著区域提取方法,但仍然存在提取结果误检、漏检,检测结果模糊、不够精确、鲁棒性不高的缺点。更好的提取结果一直是研究人员追求的目标。
1.2.2 显著性数据集的研究现状及分析
1.显著性数据集的研究现状
随着显著性检测的研究,涌现了数十个显著性数据集用于评测显著性检测方法的性能。从显著性数据集的相关文献来看,显著性数据集大体来自两个领域:一个是为了显著性研究而建立的特定数据集,另一个是从图像分割领域延伸过来的数据集。有的数据集以矩形框方式进行显著区域的标注,还有的数据集通过眼动仪进行视点图的标注,更多的数据集是在像素级进行显著区域的标注。
下面对流行的显著性数据集进行归纳总结,包括数据集的图像数量、标注形式、显著区域数量及数据集中的示例图像,如表1-1所示。
表1-1 流行的显著性数据集

续表

下面对显著性数据集情况进行详细说明。
1)MSRA数据集
文献[45]中公布了MSRA数据集,此数据集共包含130099幅图像,图像类型非常丰富,大多数图像来自图像论坛和图像搜索引擎。从下载的图像库中人工挑选了20840幅图像进行标注。为了保证标注的一致性、避免偏差,需要计算标注一致性分值。标注一致性分值的计算过程为:对于每幅图像,要求每个观察者画出他认为最显著区域的矩形框,对于像素x,采用投票策略,计算像素x标注为显著的百分比,

(1-1)
其中,M为观察者数量,如果像素被第m个观察者标注为显著,则,否则
。通过计算
的大小最终确定该像素是否为显著。
2)ASD数据集
文献[19]从Liu等的数据集[45]中选出了1000幅图像,并为每幅图像标出像素级精度的显著区域。这个数据集是引用率非常高的显著性数据集之一。
3)DUT-OMRON数据集
文献[44]公布的数据集包含5168幅高质量的图像,是手工从140000幅图像中挑选出来的。每幅图像中包含1个或多个显著区域,背景也相对复杂。每幅图像由5位观察者进行标注。标注结果有3种形式:像素级的基准集、矩形框级的基准集和眼动基准集。这是第一个具有3种标注结果的数据集。
4)MSRA10k数据集
文献[11]以Liu等[45]的数据集为基础,从中随机挑选出10000幅矩形框标注一致性较好的图像,采用与文献[45]构建显著性数据集相同的一致性分值计算方法,精确标注了像素级精度的基准二值图像。
5)MSRA5k数据集
文献[31]从MSRA-B1数据集中挑选了5000幅图像,手工分割出显著区域,得到像素级精度的基准二值图像。
6)ImgSal数据集
文献[68]公布的数据集包含235幅图像,部分图像从Google中选取,部分图像从最近的参考文献中选取。图像尺寸为480×640像素。图像可以分为6类:50幅包含大尺寸显著区域的图像;80幅包含中等尺寸显著区域的图像;60幅包含小尺寸显著区域的图像;15幅包含杂乱背景的图像;15幅包含重复干扰的图像;15幅既包含大尺寸显著区域也包含小尺寸显著区域的图像。手工标注像素级精度的基准集。
7)ECSSD数据集
尽管ASD数据集中的图像内容有很大变化,但是背景结构还是简单。针对ASD数据集的缺点,文献[14]构建了ECSSD数据集。此数据集包含1000幅图像,图像来自BSD300数据集[43]和网络,图像语义更丰富,结构更复杂。每幅图像由5位观察者进行标注,产生像素级精度的基准二值图像。
8)HKU-IS数据集
文献[97]构建了一个具有挑战性的数据集,图像至少符合下面的一个条件:存在多个不连接的显著区域;至少一个显著区域与图像边界连接;所有显著区域和它相邻区域的颜色差异小于0.7。3位观察者完成显著区域的标注,得到像素级精度的基准二值图像。
9)SOD数据集
SOD数据集[49]包含300幅图像,图像来自伯克利大学的BSD300分割数据集[43],包含多个前景对象,并且前景图像具有不同的大小和位置,这是第一次将分割领域的数据集用于显著性评测。为了保证标注的一致性,7名观察者对每幅图像进行标注,标注结果为像素级精度的基准二值图像。
10)SED数据集
SED数据集[50]共包含两个数据子集:包含单一显著区域的数据子集SED1和包含2个显著区域的数据子集SED2,每个子集包含100幅图像。此数据集由3位观察者进行标注,标注结果为像素级精度的基准二值图像。
11)iCoSeg数据集
iCoSeg是一个公开的分割数据集[70],包含38组,共643幅图像。图像来自Flickr在线图片网站,每幅图像包含1个或多个显著区域,每幅图像都进行了像素级二值标注。
2.显著性数据集的现状分析
随着显著区域提取的研究,涌现了数十个显著性数据集用于测试显著区域提取算法的性能。更多的数据集从矩形框标注转向像素级别的标注。数据集的图像也使简单的图像结构、中心偏差及前景和背景的明显差异变得越来越复杂,越来越具有挑战性。但数据集目前仍存在一些问题需要继续研究。
1)数据集的偏差问题
数据集的偏差问题一直是计算机视觉存在的问题。偏差可以表现为图像挑选的偏差,指建库人员易于选择有一定特点的图像,比如前景和背景对比度大的图像;或者易于选择某一类图像,比如显著区域倾向于位于图像的中心。偏差问题不但会导致图像库里面的图像类型不够丰富,也会误导算法的研究。科学的显著性数据集有利于开发鲁棒性高的显著区域提取方法,如何建立偏差小的数据集一直是研究人员的关注点。
2)数据集的性能评测问题
如何对显著性数据集进行性能评测是一个非常重要的问题。目前对数据集评测的研究不多,没有成熟的评测方法。好的性能评测方法在一定程度上能够指导数据集的合理构建。
3)图像的筛选问题
数据集中图像的挑选带有很强的人为主观因素,目前仍存在图像选取时没有明确的选取原则或者选取原则不够科学的现象,结果导致数据集具有一定的偏差。所以制定合理的图像筛选原则是研究的重点问题。
4)面向新类型图像的显著性数据集构建
随着科学技术的发展会涌现出新类型的图像。新类型的图像具有新特点,研究人员需要研究针对新类型图像的显著区域提取算法。所以构建面向新类型图像的显著性数据集为新的提取方法提供实验对象也是研究人员面临的问题。