图像显著区域提取方法及其应用研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 研究背景和意义

互联网行业一直在迅猛发展,目前全球网站数量超过2.55亿,全球网民数量超过19.7亿。近年来,随着互联网的普及,电视、广播、印刷媒体等传统的休闲娱乐方式逐渐不再是主要的娱乐方式,更多的人选择线上的娱乐方式,沟通交流也逐渐转向线上的通信工具。随着数码设备的普及,图像和视频成为了人们娱乐和交流的主体。社交需求广泛存在于生活中的各个方面,在这个背景下,社交平台应运而生、百花齐放,产生的数据量也是与日俱增。

Twitter、YouTube、Facebook和Flickr是国外流行的社交平台。据统计,Twitter一年发送的信息量超过250亿条、用户数量超过1.75亿;Facebook用户数量超过6亿,每月共享的信息量超过300亿条,Facebook网站视频每月浏览量超过20亿次,每月上传到Facebook网站上的视频数量超过2000万个,每月上传到Facebook网站上的图片数量超过30亿张,每年上传到Facebook上的图片数量超过360亿张;YouTube网站每天视频浏览量达到20亿次,平均每分钟上传到YouTube网站上的视频时长为35小时;Flickr网站托管的图片数量为50亿张,每分钟上传到Flickr网站上的图片数量超过3000张,每月上传到Flickr网站上的图片数量超过1.3亿张,Flickr图片总量超过60亿张。

国内的社交平台数量、种类众多,主要可分为社区类、即时通信类、婚恋类、微博/博客类、娱乐类、职场类及匿名类等,国内典型的社交平台如图1-1[46]所示。国内的社交平台中社区类和即时通信类的应用得最多。

img

图1-1 国内典型的社交平台

国内典型的社交软件有QQ、微信、GaGa、微博、派派、陌陌等。QQ是一款即时通信软件,支持在线聊天、视频通话、点对点断点续传文件、共享文件、网络硬盘、QQ邮箱等多种功能,支持多种语言界面及翻译,可与多种通信终端相连。微信是基于智能终端的即时通信服务的免费应用程序,支持跨通信运营商、跨操作系统平台通过网络发送免费语音短信、视频、图片和文字,还可通过摇一摇、漂流瓶寻找朋友。GaGa是一款基于翻译的国际社交软件,实时在线人工翻译,支持八种语言和九种文字。微博是一个基于用户关系信息分享、传播及获取的社交平台,通过关注机制分享简短的实时信息,可以看作一句话的博客,用户通过140字以内(包括标点符号)的文字和图片方式分享信息。陌陌是一款基于地理位置的移动社交工具,用户通过陌陌认识周围的陌生人或者朋友,免费发送地图位置、语音、图片、信息,还可绑定第三方应用。

社交平台的最初目的是为了方便人们交流沟通。但随着社交网络的完善,社交平台的功能越来越丰富,如看视频\听音乐、玩游戏、在线购物等。社交平台的功能所占的比例如图1-2所示。图1-2中的横坐标表示社交平台不同的功能,纵坐标表示不同功能占社交功能的比例。

img

图1-2 社交平台的功能所占的比例

图1-2显示图片是应用的主体。比起文字,图片更简单、直观,更贴近人类的直觉,蕴含的信息量更大,是人们交流的主要载体。近些年,图片社交市场倍受瞩目,呈现爆发式的增长。图片分享移动应用Instagram于2010年10月推出,到2014年年底就获得了3亿用户,成功超过Twitter,图片数量超过10 亿张。2012年Facebook以10亿美元收购Instagram,不到3年Instagram的估值就飙升到350亿美元,占Facebook总估值的16%。Instagram的成功证明了图片社交应用的价值和前景。国内的图片分享应用中比较有名的是IN和Nice,它们与Instagram一样采用“图片+标签”模式,通过用户自发打在图片上的品牌、地点、心情、活动等标签衍生出了图片搜索,通过标签划分人群。IN于2014年6月上线,8个月内就获得了2000万用户量。IN是品牌导购网站爱图购旗下的产品,围绕年轻女性用户展开功能,主打女性时尚社区。Nice是一款可以在照片上标注标签的图片应用,主打晒男性潮牌。2014年12月,Nice完成C轮融资3600万美元;2015年6月,IN宣布完成B轮融资3亿元。生活中的多个例子都说明了图片社交市场方兴未艾,潜力巨大。

这些应用迅猛发展的同时带来了图像数量的剧增。如何对海量的图像进行有效的管理成了亟待解决的问题。然而,相对于海量的图像数据,计算资源是有限的,如何有效应用有限的计算资源来处理海量的数据给人们带来了巨大的挑战。

研究表明[1],人类视觉系统每秒钟接收和处理的可视数据可达108到109比特,这个数据量大大超过了计算机的处理能力,人脑却能够对如此巨大的信息量进行实时处理。原因在于,在长期的进化中,人类对图像理解时,总会把注意力放在图像中最能引起注意的区域,自动忽略相对不能引起注意的区域。人类的这种自动选择感兴趣区域的感知能力称为视觉注意力机制。显著性检测技术是让计算机模拟人类的视觉注意力机制,对处理的图像进行自动的信息选择和筛选。图像中能够快速吸引观察者注意力的区域称为显著区域,显著性检测技术就是发现图像中的显著区域。显著性检测的结果称为显著图,显著图为灰度图,像素的灰度值反映像素显著度的大小。图1-3列举了两幅图像和其对应的显著图,像素灰度值越低(颜色越浅)说明显著值越大。

img

图1-3 图像及其对应的显著图

显著性检测的优点在于能够定位到图像中的重要区域,将有限的资源分配给重要的信息,提高处理速度,提升资源利用率,为海量数据的高效处理提供可行的解决方案,处理得到的结果符合人类的视觉感知特性。目前,显著性检测的研究主要包括两个方面:显著性检测模型的研究和显著性检测应用的研究。显著性检测模型的研究和显著性检测应用的研究二者相互影响,相互促进。显著性检测模型对显著性检测应用具有指导作用,同时显著性检测应用又是对显著性检测模型的验证,也提出了新的研究方向。

以获取并理解图像来达到复制人类视觉的效果一直是人工智能的研究热点之一。基于上面的分析,本书的主要研究动因来自于社交网络的图像处理压力,所以本书选择图像显著区域提取方法为主要研究内容,目的是为海量图像的高效处理提供可行的解决方案,并以图像分类计算机视觉任务作为显著区域提取方法研究的应用对象,具有非常重要的理论研究和实际应用意义。

社交媒体图像具有标签信息,将标签信息纳入显著区域提取方法的考虑范畴,并构建新的提取模型和计算方法是本书的核心内容。围绕显著区域提取方法及其应用,本研究主要有以下4个创新点。

(1)构建了面向社交媒体图像的显著性数据集,为显著区域提取方法提供了实验对象。

(2)提出了基于条件随机场模型的显著区域提取方法,该方法融合了图像外观特征和标签上下文信息,缩小了图像高级语义和低级特征之间的距离。

(3)提出了基于多特征的显著区域提取方法,一方面将深度学习应用到社交媒体图像的显著区域提取中,另一方面,观察到人工设计特征和深度学习特征具有互补的特性,提出了基于标签和图像外观的显著图动态融合方法。

(4)显著区域在图像分类计算机视觉任务中的应用是本研究的应用创新,进一步体现了研究的意义。