多源信息融合推理与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 迁移学习

在目标识别中,通常利用大量的训练样本学习一个分类模型对目标数据进行分类识别,并且一般认为训练样本和目标满足独立同分布。然而,在许多应用中,训练样本往往匮乏,收集大量带标注训练样本十分耗时且代价很大。在这种情况下,传统数据分类算法难以精准地识别目标。半监督学习利用少量带标注训练样本与大量无标注样本学习模型参数,可以减小由于带标注样本匮乏带来的影响。不过,在某些非合作目标识别中,获取训练样本极其困难,甚至无法获得。在这种情况下,往往可以获得一些与目标数据相关但分布等差异较大的带标注样本数据,但这些数据不能直接用于目标分类。迁移学习能够将这些有差异的数据通过特征映射转换到相似的特征分布空间,从而借助这些辅助带标注样本信息提高目标数据分类的准确率。

1.2.1 迁移学习的基本定义与分类

迁移学习通过将不同领域的知识进行迁移,可以有效解决带标注训练样本匮乏的问题。在实际生活中,人类如果学会了分辨一种肤色的人的性别,随后仅需要进行少量的学习,就可以分辨另一种肤色的人的性别。受人类跨领域迁移知识能力的启发,迁移学习旨在利用来自相关领域(称为源域)的知识来提高机器学习模型的性能,减少对带标注训练样本的依赖,实现对无标注或少标注领域(称为目标域)样本的准确识别。假设给定领域D={X,PX}X代表特征空间,PX)代表边缘概率分布。对于特定领域D,其任务T表示为T={Y,PY|X}Y代表类别空间,PY|X)代表条件概率分布。根据以上定义,迁移学习旨在利用源域Ds中丰富的知识辅助提高目标域Dt中样本的分类准确率,其中Ds/=DtTs/=Tt,其中Ts为源域任务,Tt为目标域任务。

迁移学习的分类如图1-1所示。

图1-1 迁移学习的分类

现有的迁移学习算法根据标签设定情况可以分为3类:直推式迁移学习、归纳式迁移学习和无监督迁移学习。其中,直推式迁移学习样本的标签信息只来自源域;归纳式迁移学习中目标域的标签信息同样可用;无监督迁移学习源域与目标域均没有可用的标注信息。根据源域与目标域特征空间和标注空间的一致性,迁移学习可以分为两类:同质迁移学习和异质迁移学习。同质迁移学习方法处理不同领域具有相同特征空间的情况,即Xs=XtYs=Yt。其中,XsXt分别表示源域和目标域的特征空间;YsYt别表示源域和目标域的类别空间。异质迁移学习是指在不同领域具有不同特征空间情况下的知识迁移过程,即Xs/=XtYs/=Yt。除了分布对齐,异质迁移学习还需要实现特征空间对齐,这一点使异质迁移学习比同质迁移学习更加复杂。

现行的迁移学习方法可以分为4类:基于样本的迁移学习、基于特征的迁移学习、基于参数的迁移学习和基于逻辑的迁移学习。基于样本的迁移学习主要利用样本重加权策略实现分布对齐。基于特征的迁移学习将源域特征与目标域特征映射到一个新的特征空间,并在该空间缩小源域特征与目标域特征之间的差异。基于特征的迁移学习可以进一步分为基于特征的对称迁移学习和基于特征的非对称迁移学习,其中基于特征的对称迁移学习同时对源域与目标域进行映射,在新的特征空间进行分布对齐,基于特征的非对称迁移学习只对源域进行映射,从而减小源域分布与目标域分布之间的差异。基于参数的迁移学习通过修改模型的参数实现知识迁移。基于逻辑的迁移学习将从源域中学到的逻辑关系或规则进行迁移。

本节拟按照Zhuang等提出的更加简洁的分类法,将现行的迁移学习分为两类:基于数据的迁移学习和基于模型的迁移学习。在基于数据的迁移学习中,本节将详细介绍基于样本的迁移学习和基于特征的迁移学习。在基于模型的迁移学习中,本节将详细介绍基于参数的迁移学习。基于逻辑的迁移学习代表性研究较少,且Pan等在其综述中详细介绍了该类方法,在此不再赘述。此外,大部分迁移学习关注单个源域的知识向目标域转移,但在现实应用中可能存在多个可用信源,从而衍生出了多源迁移学习。因此,本节最后将对多源迁移学习进行介绍。

1.2.2 基于数据的迁移学习

基于数据的迁移学习主要通过对数据进行调整或变化实现知识迁移,其主要包括基于样本加权策略的迁移学习方法和基于特征转换策略的迁移学习方法,本节将按照图1-2中的分类方法详细介绍基于数据的迁移学习方法。

图1-2 基于数据的迁移学习分类

1.2.2.1 基于样本加权策略的迁移学习

基于样本加权策略的迁移学习的核心思想在于给源域样本分配不同的权重,从而筛选出源域中与目标域相似度高的样本,主导分类器的参数训练。假设存在一个大量的带标注源域与一个有限数量的无标注目标域,源域与目标域之间仅边缘分布不同,即PsX/=PtX)且PsY|X)=PtY|X)。在这种情况下,最直接的方式是使边缘分布自适应。Huang等提出了一种简单的方法,通过在最终损失函数中给源域样本分配不同的权重实现边缘分布自适应。同时,Huang等提出了核均值匹配(Kernel Mean Matching,KMM)策略,在再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)匹配源域与目标域样本的均值来估计最终的损失函数值。Sugiyama等提出了Kullback-Leibler重要性估计过程(Kullback-Leibler Importance Estimation Procedure,KLIEP),KLIEP将Kullback-Leibler(KL)散度最小化并通过一个内置的模型选择过程实现权重估计。

除了直接估计权重参数的方法,许多学者还提出了迭代优化权重的方法。这类方法的核心思想在于减小对目标分类器学习有负面影响的源域样本的权重。Dai等基于AdaBoost提出了一种代表性方法——TrAdaBoost。Ad-aBoost是为传统机器学习任务设计的一种有效的增强算法。在AdaBoost的每次迭代中,学习器都在权重不断更新的样本上进行训练,这一加权机制保证了对分类错误的样本给予更多的关注,最后将多个弱分类器进行结合得到一个强分类器。TrAdaBoost将AdaBoost扩展到迁移学习领域,将带标注源域与无标注目标域看作一个整体,对源域和目标域采用不同的加权策略训练弱分类器,最后通过投票策略将一半的弱分类器进行集成得到强分类器。Yao等扩展了TrAdaBoost,提出了多源TrAdaBoost(Multi-Source TrAdaBoost,MsTrAdaBoost)算法,主要包括候选分类器构建与样本加权两个步骤,每次迭代选出的分类器组成了最终的分类器,以实现对目标的准确分类。

1.2.2.2 基于特征转换策略的迁移学习

基于特征转换策略的迁移学习主要通过特征转换找到源域与目标域的公共潜在特征并使用这些潜在特征实现知识迁移。这类方法的目标包括构建一个新的特征空间最小化源域和目标域的边缘与条件分布差异,保留数据的属性或潜在结构,以及寻找特征之间的联系。基于特征转换策略的迁移学习可以分为3类:特征增广、特征压缩与特征对齐。其中,特征增广主要包括特征复制与特征堆叠;特征压缩可以分为特征映射、特征聚类、特征选择和特征编码4类;特征对齐主要包括子空间特征对齐、统计特征对齐与空间特征对齐3类。由于减小源域与目标域之间的分布差异是特征转换的主要目标,因此如何精确评估源域与目标域之间的差异或相似性是一个重要的问题。下面首先对常用的分布差异度量方式进行概括,然后对基于特征转换策略的迁移学习进行详细介绍。

1)分布差异度量方式

减小源域与目标域数据之间的差异是特征转换的主要目标。分布差异度量会直接影响最终的迁移效果。最大化均值差异(Maximum Mean Discrepancy,MMD)是迁移学习领域广泛使用的一种度量方式,其定义如下。

式中,H为再生核希尔伯特空间;ϕ为函数映射,通过在再生核希尔伯特空间计算样本的均值来度量各分布之间的差异。通过使用该方法,MMD可以被准确且轻易地估计。表1-1总结了迁移学习常用的几种分布差异度量方式。除了表中所示的度量方式,还有许多自适应度量方式在迁移学习中得到了大量的运用,如Wasserstein、中心矩差异(Central Moment Discrepancy,CMD)等。同时还有一些方法优化了现有的度量方式。例如,Gretton等提出了多核MMD,利用多个核函数精确度量分布差异;Yan提出了加权MMD,用于解决类权重差异的问题。

表1-1 迁移学习常用的几种分布差异度量方式

2)特征增广

特征增广在特征转换中被广泛应用。有多种方式可以实现特征增广,如特征复制与特征堆叠。Daumé等提出了特征增广法,通过特征复制对原始特征进行转换。新的特征表征包含一般性特征、源域特定特征与目标域特定特征,利用带标注转换后的特征进行分类器训练。特征增广法简单,对多源域自适应场景具有一定的泛化性能。Kumar等对FAM进行了扩展,利用无标注样本进一步促进知识迁移过程。

3)特征压缩

特征压缩大多通过一定的策略对原始特征进行降维压缩,提取出源域与目标域分布差异较小的特征。在传统机器学习领域,有很多基于映射的方法能够提取数据的特征,如主成分分析(Principal Component Analysis,PCA)法、核主成分分析(Kernelized-PCA,KPCA)法等。然而,这些方法主要关注数据的方差而不是分布差异。为了减小跨域数据之间的分布差异,一些学者提出了特征映射的方法用于迁移学习。Pan等提出迁移成分分析(Transfer Component Analysis,TCA),使用MMD度量边缘分布差异,从经验核特征空间学习一个线性映射,将数据映射至低维特征空间。TCA避免了半正定规划(Semi-Definite Programming,SDP)问题,其最终优化目标可以通过特征分解求得,降低了计算复杂度。Long等提出了联合分布域自适应(Joint Distribution Adaptation,JDA),旨在寻找一个低维特征空间使条件分布与边缘分布差异均最小化。为了实现这一目标,其利用MMD与伪标签,通过特征分解求解轨迹优化问题,得到所需的转换矩阵。伪标签的估计准确率会影响JDA的性能,Long等提出通过迭代优化的方式提高伪标签质量。JDA可以利用标签和结构信息、聚类信息、各种统计和几何信息等进行扩展。

特征聚类旨在学习原始特征更抽象的表征,一些方法使用互聚类(Co-clustering)技术隐式地进行特征压缩。Dai等提出了基于互聚类的文件分类方法,以互信息损失最小为准则,通过迭代得到聚类结果。Dai等同时提出了一种无监督方法——自学习聚类(Self-Taught Clustering,STC),该方法假设源域与目标域在公共的特征空间共享相同的特征簇,同时对源域与目标域样本进行互聚类。

特征选择是另一类特征压缩方法,旨在从原始特征中选择核心特征。核心特征是指在不同领域作用相同的特征。由于这类特征具有跨域稳定性,因此被用来实现知识迁移。Blitzer等提出结构对应学习(Structural Correspondence Learning,SCL)方法,通过选择核心特征并利用结构化学习技术和核心特征寻找低维公共隐层特征空间,最后通过特征增广得到新的特征表征。

除了特征映射与特征选择,特征编码同样是一种实现知识迁移的常用方法。自编码器是深度学习领域一种常用的特征编码工具。自编码器由编码器与解码器组成,编码器生成输入数据的高层抽象表征,解码器将该表征映射回原始特征空间,最小化重构误差。自编码器可以堆叠起来构建深度学习框架。近年来,基于自编码器的迁移学习方法受到了广泛关注。Glorot等提出了堆叠去噪自编码器(Stacked Denoising Autoencoder,SDA),其中去噪自编码器是基础自编码器的扩展,提高了鲁棒性。这类自编码器包含随机破坏机制,在对输入数据进行映射前,向原始数据中加入随机噪声或高斯噪声,随后去噪自编码器通过最小化原始输入与输出之间的去噪重构误差进行参数优化。为了缩短训练时间,加速收敛过程,Chen等提出了边缘堆叠线性去噪自编码器(Marginalized Stacked Linear Denoising Autoencoder,mSLDA),实现了良好的特征提取性能。

4)特征对齐

特征增广与特征压缩主要关注特征空间中的显式特征,特征对齐更加侧重数据的隐式特征,如统计特征或谱特征。Fernando等提出了一种子空间对齐(Subspace Alignment,SA)方法,该方法利用PCA生成子空间,通过学习转换矩阵进行子空间对齐。许多基于子空间对齐的迁移学习方法受到了广泛的关注。Sun等提出了双子空间分布对齐(Subspace Distribution Alignment between Two Subspaces,SDA-TS)方法,同时对齐子空间偏差与分布差异。Gong等提出了另一种代表性子空间对齐方法——测地线流式核(Geodesic Flow Kernel,GFK)方法。GFK与测地线流式子空间(Geodesic Flow Sub-spaces,GFS)关系密切。GFS受增量学习的启发,充分利用两个域之间可能有利于域自适应的潜在路径传递的信息,通过子空间生成、子空间插值和特征映射与堆叠实现特征对齐。

统计特征对齐是另一种特征对齐方式,Sun等提出了互相关对齐(Co-Relation Alignment,CORAL)方法,构建源域数据转换矩阵,对齐二阶矩特征,即

式中,CsCt分别代表源域与目标域的方差矩阵;W代表转换矩阵。与子空间对齐方法相比,CORAL方法避免了子空间生成与映射过程,更易于实现。

在传统机器学习领域,谱聚类是一种基于图论的聚类方法,该方法利用相似度矩阵的谱,即特征值,在聚类前对特征进行降维处理。Pan等提出了谱特征对齐(Spectral Feature Alignment,SFA)方法,用于解决情感分类问题。该方法可以辨识不同域的域特定词汇与域独立词汇,对齐域特定词汇特征,构建低维特征表征。SFA主要包括特征选择、相似度矩阵构建、谱特征对齐、特征增广与学习器学习5个步骤,实现了较好的分类性能。

1.2.3 基于模型的迁移学习

基于模型的迁移学习主要通过对模型参数进行优化实现知识迁移。这类方法主要包括基于模型控制策略的迁移学习、基于参数控制策略的迁移学习与深度迁移学习三大类,如图1-3所示。本节将按照图1-3中的分类方法详细介绍基于模型的迁移学习。

图1-3 基于模型的迁移学习分类

1.2.3.1 基于模型控制策略的迁移学习

基于模型控制策略的迁移学习从模型角度出发,通过在训练阶段将模型层正则化约束,加入学习器目标函数,可以有效地将知识从源域模型迁移至目标域模型。Duan等提出了一种通用的多源迁移学习架构——域自适应机(Domain Adaptation Machine,DAM)。DAM基于多个分别预训练好的基分类器构建鲁棒的目标域分类器。其目标函数定义如下。

式中,nl表示有标签样本的数量;ft表示最终决策函数;表示第i个数据在目标域的分类器输出值;表示第i个数据在目标域的真实值;ΩD表示目标域;表示目标域无标签样本的分类结果。式(1-12)中的第一项控制最终决策函数ft的复杂度;第二项最小化带标注目标域样本的分类误差;第三项代表不同的正则化方法。第二项分类误差的计算方式并不局限于平方误差,交叉熵、均方误差损失均可以用来优化目标分类器。另外,一些研究被当作DAM的特例。Luo等提出了一致性正则化架构(Consensus Regularization Framework,CRF)用于目标域无标注样本的多源迁移学习。Duan等基于流形假设和图正则化提出了Fast-DAM,设计了一种域依赖正则化器,对包含在源域分类器中的知识进行迁移。

1.2.3.2 基于参数控制策略的迁移学习

基于参数控制策略的迁移学习主要关注模型参数,模型参数本质上能够反映模型所学到的知识,因此,在参数层进行知识迁移是一类十分重要的方法。基于参数控制策略的迁移学习主要包括参数共享与参数限制两类,下面对这两类方法进行详细介绍。

1)参数共享

这类方法最直接的方式是共享源域与目标域学习器的参数。基于参数共享的迁移学习在深度迁移中有广泛的应用,在源域训练的神经网络,可以冻结其中的一定网络层,对其余网络参数进行微调,生成一个适用于目标域分类的神经网络。

除了基于深度神经网络的方法,基于矩阵因式分解的参数共享方法同样取得了较好的效果。Zhuang等提出了一种基于矩阵三角分解的分类框架(Ma-trix Tri-Factorization based Classification Framework,MTrick),其提出,在不同领域,不同的单词或段落可能表达相同的意思,因此使用单词的高层次抽象概念来代替单词本身进行知识迁移是更有效的。使用基于矩阵三角分解的分类框架可以寻找用于迁移的稳定的知识。

2)参数限制

参数限制是指限制模型的参数。不同于参数共享强制模型共享一定的参数,参数限制只要求源域与目标域模型的参数尽可能相似。Tommasi等提出了一种单模型知识迁移(Single-Model Knowledge Transfer,SMKL)方法,选择单个训练好的二分类器并迁移其参数中隐含的知识。之后Tommasi对SMKL方法进行了扩展,提出了多模型知识迁移(Multi-Model Knowledge Transfer,MMKL)方法,使用多个训练好的二分类器对知识进行迁移。

1.2.3.3 深度迁移学习

随着硬件设备的发展,深度学习技术由于其强大的拟合能力,成为机器学习算法的主流发展方向,成功应用于各个领域。由于深度学习技术需要大量的带标注训练样本来进行网络参数优化,因此许多学者将迁移学习技术引入深度学习领域,减少了其对大规模带标注训练集的依赖,并取得了显著成果。如图1-4所示,目前主流的深度迁移学习按照源域与目标域类别空间的构成方式不同可以分为四大类:闭集迁移学习、局部迁移学习、开集迁移学习、通用迁移学习。下面详细介绍这4类深度迁移学习。

图1-4 深度迁移学习分类

1)闭集迁移学习

闭集迁移学习要求源域与目标域的类别空间完全相同,仅数据分布存在差异。闭集迁移学习主要包括两大类:基于差异的迁移学习与基于对抗的迁移学习。基于差异的迁移学习通过在目标函数中加入自适应度量来最小化源域与目标域的分布差异。基于对抗的迁移学习通过在网络中嵌入域对抗模块,促使网络自动学习域不变特征,实现知识迁移。下面详细介绍这两类闭集迁移学习方法。

基于差异的迁移学习是深度迁移学习中的一个热门研究方向。早期方法尝试使用浅层神经网络学习域无关(域不变)特征实现知识迁移。然而,浅层网络由于参数数量的限制,无法获得优异的性能,因此后续研究者将浅层网络转为深度神经网络。Tzeng等在深度网络中加入了一个深度自适应层,显著提高了目标分类的准确性。Long等对该工作进行了扩展,提出了一种多层自适应网络架构——深度自适应网络(Deep Adaptation Network,DAN),作为非对抗迁移学习方法的经典架构。其结构如图1-5所示。

图1-5 深度自适应网络结构

DAN使用AlexNet作为主干网络,通过前5层卷积层逐步提取出数据的高层语义特征,在最终目标函数中加入自适应度量MK-MMD,使网络提取出源域与目标域的域不变特征,实现知识迁移。最终的损失函数包括两个部分,如式(1-13)所示。

在训练过程中,DAN使用预训练权重作为初始化参数,冻结前3层参数,对后5层参数进行微调,缩小源域与目标域之间的分布差异。Long等对DAN进行了扩展,利用目标域无标注数据引入熵最小化准则,将AlexNet架构拓展至GoogLeNet与ResNet,并使用均值嵌入检验作为分布差异度量准则。

基于这一基础架构,许多学者做了大量代表性工作。Long等基于深度残差学习,提出了残差迁移网络(Residual Transfer Network,RTN)。同时Long等提出了联合自适应网络(Joint Adaptation Network,JAN)以缩小多个网络层的联合分布差异。Sun等提出了深度CORAL(DCORAL),将CORAL加入损失函数中以提取域不变特征。Chen等认为具有相同标签的样本特征应满足类内聚集的特性,提出将CORAL与基于样本的类层次差异损失函数加入优化目标,实现了较好的分类效果。Kang等提出了对比自适应网络(Contrastive Adaptation Network,CAN),考虑了类内差异与类间差异。Zhu等提出了多表征自适应网络(Multi-Representation Adaptation Network,MRAN),将原始图像映射至不同的特征空间进行分布对齐,实现了良好的迁移性能。

生成对抗网络拥有强大的数据拟合能力,在风格迁移、图像生成等领域取得了显著的成果。传统的生成对抗网络由生成器与判别器构成,生成器根据随机噪声生成仿真数据,并欺骗判别器使其产生错误的判别结果。将真实数据与仿真数据同时输入判别器,判别器要能够准确地判别数据真伪。通过生成器与判别器的博弈训练网络参数,使生成器产生的数据尽可能接近原始数据的真实分布,其目标函数如式(1-14)所示。

式中,代表对真实数据分布ptrue的期望;代表对噪声分布的期望;代表用于生成仿真样本的输入噪声;D代表判别器;G代表生成器。

受生成对抗网络的启发,Gannin等提出了域对抗神经网络(Domain Ad-versarial Neural Network,DANN)用于域自适应,其结构如图1-6所示。与传统深度神经网络相比,DANN加入了梯度反向层(Gradient Reversal Layer,GRL)和一个域判别器,通过梯度反向层使网络自适应学习域不变特征。Hoff-man等将循环一致性损失加入网络优化目标中,该损失可以促进结构一致性与语义一致性。Long等提出了条件域对抗网络(Conditional Domain Adver-sarial Network,CDAN),利用条件域判别器促进对抗域自适应。Zhang等对源域分类器与目标域分类器采用了对称的设计,实现了良好的分类性能。

图1-6 域对抗神经网络结构

2)局部迁移学习

局部迁移学习主要针对源域中含有私有类别的情况,如源域中含有货船、军舰、邮轮3类样本,而目标域中含有货船、军舰2类样本。这些私有类别可能会与目标域样本进行对齐,导致分类器难以学习特定类别的精确表征,从而引起负迁移。现行的大多数局部迁移学习旨在减少不相关源域样本的影响。选择性对抗网络(Selective Adversarial Network,SAN)采用重加权策略,降低私有类别样本在域判别器中的重要性。局部对抗域自适应(Partial Adversarial Domain Adaptation,PADA)采用可训练的分类器来估计权重,并将该权重同时应用于分类器与判别器。重要性加权对抗网络(Importance Weighted Adversarial Network,IWAN)利用域分类器的预测概率估计源域样本的重要性。除了重加权方法,深度残差矫正网络(Deep Residual Correction Network,DRCN)通过在源域任务特定的特征层中插入一个残差模块,削弱不相关源域样本的重要性。Liang等将局部域自适应问题作为类别不平衡问题进行考虑,提出了平衡对抗对齐(Balanced Adversarial Alignment,BAA)策略来减少负迁移,该方法利用源域样本对目标域样本进行数据增广,实现对目标的准确迁移分类。

3)开集迁移学习

开集迁移学习主要针对目标域中存在私有类别的情况,即源域类别空间为目标域类别空间的子集,如源域中含有货船、军舰2类样本,而目标域中含有货船、军舰、邮轮3类样本。利用源域样本进行分类器训练,在测试阶段,除了需要对目标域中与源域类别相同的样本进行分类,还需要对目标域中的私有类(未知类)样本进行辨识。Busto等提出了ATI,根据目标域样本与源域样本簇的距离分配伪标签或将该样本分类为未知类。Saito等提出了开集反向传播(Open Set Back-Propagation,OSBP)架构,利用一个阈值来平衡已知类与未知类样本的置信值。Baktashmotlagh等提出了学习源域和目标域数据的隐式表征,通过域特定子空间重构来识别未知类样本。Liu等与Feng等利用多个二分类器或语义对比映射将未知类样本推离决策边界。Luo等采用渐进学习策略,对所有目标样本进行全局排序,并将置信值较低的样本逐渐分离出来作为未知类样本。

4)通用迁移学习

通用迁移学习主要针对源域与目标域中均存在私有类别的情况,即各个领域的类别空间均不完备,如源域中含有货船、军舰、清淤船3类样本,而目标域中含有货船、军舰、邮轮3类样本,这是最符合实际应用场景的情况,也是极具挑战性的一类迁移学习问题。在训练阶段,通用域自适应算法需要利用源域与目标域中的相关样本进行分类器学习。在测试阶段,需要精确地识别目标域中的共有类样本,同时对目标域的私有类样本进行辨识。You等首先提出了通用域自适应问题,在目标域样本标签集合未知的情况下,提出了一种新的指标来量化域对抗训练中每个样本的可转移性。Fu等采用多分类器集成模型来检测未知类。Saito等采用自监督方法来解决通用域自适应问题。

1.2.4 多源迁移学习

当多个源域的知识被迁移到目标域时,称为多源迁移学习。由于源域和目标域的数据分布不一致,并且不同源域之间存在分布差异,单纯将多源数据合并用于迁移学习无法达到满意的效果。因此,多源迁移学习是一项具有挑战性的任务。图1-7展示了单源迁移学习和多源迁移学习之间的不同。

图1-7 单源迁移学习和多源迁移学习之间的不同

多源域对抗网络(Multi-Source Domain Adversarial Network,MDAN)用对抗学习提取多个域漂移中的不变特征表示,同时保证特征对任务具有判别性。多源域自适应矩匹配(Moment Matching for Multi-Source Domain Adap-tation,M3SDA)使用矩匹配动态对齐源域和目标域之间的数据分布。尽管每个源域与目标域均具有域相关性,但还需要考虑源域之间的不同之处。为了解决这一问题,深度鸡尾酒网络(Deep Cocktail Network,DCTN)通过计算域相关性给出每个源域和目标域的相似度,并通过考虑域相关性利用对抗性学习进一步最小化域差异。基于注意力的多源域自适应(Attention-based Multi-Source Domain Adaptation,ABMSDA)方法利用注意力机制增强与目标域相似的源域的积极作用,抑制与目标域不相似的源域的消极作用。相关文献针对多源无监督域自适应提出了两阶段对齐,不仅使每个源域分别和目标域对齐,还使分类器的输出对齐。渐进式多源域自适应网络(Progressive Multi-Source Domain Adaptation Network,PMSDAN)将域对齐分为两步,首先将多个源域合并成一个整体和目标域进行对齐,然后将目标域和每个源域分别进行对齐,实现渐进式多源域对齐。