多源信息融合推理与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 CF-CRE方法介绍

本节将针对不同分类器输出结果高度冲突导致融合结果可靠度较低的问题,提出一种精细的可靠度评估方法以降低各分类器之间的冲突程度,主要研究在不同属性的数据集上训练的多个分类器的融合问题。假设待分类的目标y的类别包含在辨识框架Ω=1ω2,···,ωc}中。考虑在N个不同的属性空间S1S2,···,SN上训练的N个分类器C1C2,···,CN,每个分类器Cnn=1,2,· · ·,N)基于Sn中数据的属性知识得到一个输出概率质量函数,可表示为μn=[μn(1),μn(2),· · ·,μnc)]。μni)的值表示目标属于类别ωi的概率。按照惯例,将待分类目标y的真实类别(未知)由cy)表示,由分类器Cn输出的预测类别由表示。考虑分类器的分类质量能够提高分类性能,而分类器的分类质量可以通过对每个分类器的输出μn进行细化的上下文可靠度评估获得。然后,在分类器融合得到最终分类决策之前,对分类器的输出μn进行相应的修改。

2.2.1 内部可靠度评估

c类分类问题中,分类器Cn在属性空间Sn中对目标y的分类结果为μn的内部可靠度由矩阵Rc×c表示,该矩阵表示目标y的条件概率。目标y使用分类器Cn分类,被分类为ωjj=1,2,· · ·,c)但属于ωii=1,2,· · ·,c),即。因此,如果可以准确地估计可靠度矩阵Rc×c,则可以利用这一重要知识有效地提高分类结果μn的准确性。下面将介绍如何估计该可靠度矩阵。

在分类任务中无法获得有关目标真实类别的信息,因此本节尝试使用现有的训练数据来估计该可靠度矩阵。在训练样本空间,目标y附近的近邻样本通常与目标具有接近的属性值。因此,分类器在目标及其近邻上通常具有相似的性能,而且训练数据的真实标签是已知的。因此,本节将使用位于目标附近的训练数据进行内部可靠度矩阵的估计。

首先在属性空间Sn中找到目标yK个近邻样本。选定的样本表示为xkk=1,2,···,K。然后由给定的基本分类器Cn对选定的近邻样本进行分类,Cn得出的分类结果由向量Pk=[Pk(1),Pk(2),· · ·,Pkc)]表示,其中表示将xk预测为类别ωi的概率,i=1,2,···,c。如果基分类器将带有真实类别标签ωicxk)=ωi)的近邻xk以概率Pkj)分类为类别,则表明将xk分类为ωj的条件概率为Pkj),即。由于xk是目标y的近邻,因此分类器Cn可能会在xky上有相似的分类结果。如果目标y的真实标签为ωi,可以根据来估计目标y被分类为ωj的条件概率,即

此外,在K个选定的近邻中,可能存在多个带有真实类标签ωi的样本,这些样本全都可以用来估计条件概率。类别为ωi的近邻越多,估计出的条件概率P·|cy)=ωi)的值越大。同时,必须另外考虑目标y和其近邻xk之间的距离。如果y远离xk,则认为xk的估计影响(权重)较小,且距离越大,近邻的权重越小。属于类别ωi但被分类为ωj的近邻xk的条件概率的加权和(βij)表示为

k近邻(k-Nearest Neighbor,KNN)分类器中,指数函数通常可以很好地表征距离影响,具有良好的性能,因此在式(2-1)中应用了指数函数来计算距离权重δk,计算公式为

式中,γ是用于控制距离影响的超参数;dk是目标到近邻xk的距离和到最近邻距离的比值。

βij可以解释为对于目标实际来自ωi类但被分类为ωj这种情况的加权因子。条件概率应与βij成正比,即ρ是正比例系数)。接着可以根据贝叶斯规则导出以概率表示的可靠度矩阵R,矩阵中的任一元素rji可由下式计算。

在没有其他知识的情况下,通常假设上式中的先验概率Pcy)=ωl)(l=1,2,···,c)是均匀分布的。因此,概率可以通过下式获得。

由此可以确定可靠度矩阵R。该可靠度矩阵可用于修改分类结果μn,使其更接近真值。由于该可靠度矩阵是根据待分类目标的多个近邻进行估计得出的,因此应用该可靠度矩阵修改的目标y的分类结果不能完全取信。如果使用该可靠度矩阵直接计算目标属于每个类别的边缘概率,则可能带来很高的错误风险。因此,本节提出了一种谨慎的折扣方法,将分类知识转移到不精确的相关类别集合(如ωi∪ωj)上,而非转移到特定单一类别(如ωi)上。可以通过后续的合并过程减少甚至消除这种不精确分类的现象。更具体地说,来自分类器的输出μnj)和可靠度值可通过下式进行结合。

式中,ωi∪ωj表示ωiωj之间的不精确度,在ωiωj的分类中起中性作用。另一种置信质量ωj∪ωij/=i)也可以通过μni)获得,即

因此,对于i=1,2,···,cj=1,2,···,c,可以从μn中得出两种折扣的置信值分配。如果i/=j,则有

如果i=j,则有

可以看到,由于谨慎的折扣操作,出现了一些不精确分类的现象(ωi∪ωj),但是可以通过与其他分类器的结果进行融合来减少这种不精确分类的现象。如果分给ωiK个近邻的概率全为零,则目标y属于ωi的概率μni)将通过下式被折扣到全局未知类中。

式中,mnΩ)表示有关分类器Cn分类结果中的全局未知类,在与其他分类器的分类结果融合时起中立作用。实际上,全局未知类mnΩ)会根据融合规则在分类器融合过程中被重新分配给其他更特定的焦元。

分类结果的内部可靠度主要关注分类器在目标近邻上的分类效果,并计算该目标属于某个类但被分配给另一类的条件概率,作为内部可靠度矩阵的元素构建内部可靠度矩阵。该矩阵表达了分类器对于不同类别发生分类错误的概率,并且它为目标的分类结果提供了比分类器的分类精度更加精细的可靠度知识。本节提出了新的谨慎折扣方式,根据内部可靠度矩阵校正分类结果,并将单类的可靠度(如ωi)谨慎地重新分配给由两个相关类(如ωi∪ωj)组成的并集,通过对部分不精确度进行建模,这种谨慎的折扣操作可以降低出错的风险。由于传统分类器的可靠度通常取决于训练精度,而训练精度主要反映分类器的整体性能,因此只使用这种可靠度无法提高单个分类器的分类精度,而本节所提出的内部可靠度评估方法对分类器的可靠度进行了更精细化的表示,在多分类器融合实验中也取得了更好的效果。

2.2.2 相对可靠度评估

除了内部可靠度评估,在信息融合系统中还可能会出现与其他信息相差较大甚至高度冲突的信源。在多源信息融合中,信源(分类器的分类结果)之间的高度冲突通常对融合过程不利。因此,需要通过比较待融合的分类结果进行相对可靠度评估,以减少分类器之间的冲突程度,获得最佳的融合结果。如何有效地衡量不同分类器分类结果之间的差异在相对可靠度评估中起着至关重要的作用。目前已经有各种度量来表征证据的差异性,如J距离、冲突值可靠度等。在相关文献中,冲突值和证据距离都用来反映证据之间的冲突。在以前的工作中,还有学者提出了一种既考虑证据距离又考虑冲突差异性的度量方式。现有方法对证据之间的细微差异很敏感,有时会对信源之间的冲突给出过于严格的度量,反而不利于后续的融合。

实际上,信源之间的差异在一定程度上描述了信源的互补性,并且互补信息有助于通过融合过程获得准确的结果。例如,考虑谨慎折扣后的两个分类结果,它们用两种基本置信值分配分别表示为m1ω1)=0.2,m1ω1∪ω2)=0.8,m2ω2∪ω3)=1。显然,这两种基本置信值分配不同,但可以看到它们是互补的、兼容的。m1表示该目标属于类别ω1ω2,而m2表示该目标属于类别ω2ω3。因此,这两种基本置信值分配都强烈支持潜在类别ω2,使用证据理论给出融合结果mω2)=1,这个结果也与我们的认知相符。

为了更好地利用信源之间的互补性,且不至于将微小的信源间差异作为冲突,本节提出一种新的差异性评价指标来评估信源的相对可靠度,并且该指标能够兼容信源之间的互补信息。在之前的谨慎折扣步骤,单类的概率值被部分折算到符合类(如ωi∪ωj)中。似然函数Pl(·)表示目标对应的所有类别的概率上界。它对应与目标类别有关联的所有焦元,此处将似然函数用于定义新的差异性评价指标。

首先根据目标折扣过的基本置信值分配获得每个单类的似然函数Pl(·)。然后根据Pl(·)预测目标可能的类别。最大的Pl(·)值对应的类是该目标最可能属于的类别,取值相对接近的其他类也是有可能的。因此,从分类器Cii=1,2,···,N)的分类结果中可以得出,目标可能属于的真实类别集合为

式中,λ∈(0,1)是一个较小的正阈值。

如果Φi∩Φj/=∅,则表示分类器CiCj支持共同的类别,这种情况称为两分类器的分类结果兼容,冲突程度为零。如果Φi∩Φj=∅,则表示分类器CiCj对目标y支持不同的类,将它们的输出结果视为存在冲突。冲突程度可以用每个基本置信值分配中冲突类对应的似然函数值的乘积来定义。考虑在同一辨识框架下的两种基本置信值分配mimj,其对应的似然函数为Pli和Plj。可以通过式(2-4)计算mimj的冲突程度。

式中,AB满足|A|=1,|B|=1,A∩B=∅ 且κi,j(0,1]。如果A∩B/=∅,则表示mimj兼容,即κi,j)=0。mi(对应分类器Ci)相对于其他分类器的兼容程度可定义为

如果分类器的输出与其他分类器的输出都兼容,则可以认为mi非常可靠。但是,若mi与其他结果高度冲突,则考虑为它赋予较低的相对可靠度,以减少其在融合中的影响。mi的相对可靠度可以根据其与其他分类器的兼容程度计算,即

由于相对可靠度αi通常需要获得所有分类结果的可靠度,因此,Shafer的证据加权折扣方法将用于先前修改过的分类结果m,并将折扣后的信息转移到识别框架中的全局未知类中,即Ω。相对可靠度为的折扣基本置信值分配由式(2-7)给出。

通常认为,如果单个分类器具有高精度和高多样性,那么多个这样的分类器融合可以产生良好的效果。为了提高分类精度,每个分类器都应该强烈支持同一类。而至于分类的多样性,应保证在支持相同(真实)类别的条件下,各分类器输出的距离尽可能大。值得注意的是,本节所提出的兼容性概念与传统的差异度量或距离概念有很大的不同。在本节中,如果多个分类器同时强烈支持一个(或几个)类,则它们的冲突程度为零。因此,新的冲突程度评价指标在一定程度上可以容忍基本置信值分配的一些差异,并且可以很好地保留分类器之间的互补信息,这对得到良好的融合结果非常重要,也是新的冲突程度评价指标的主要优势。在新的冲突程度评价指标下,只有当多个分类器支持不同的类别时,分类器之间的冲突值才为正。在这种情况下,与其他分类器有高冲突的单个分类器被认为相对可靠度是较低的。在后续的融合中,该分类器的分类结果根据其相对可靠度进行折扣。通过该步骤,可以有效减少分类器之间的有害冲突信息,从而实现分类器的整体最佳性能。

内部可靠度和相对可靠度能够从不同的方面表征分类结果的可靠度。内部可靠度矩阵利用分类器在目标邻域的性能来挖掘先验知识,并将其用于校正与目标关联的分类器输出结果,每个分类器的内部可靠度都是独立评估的。相对可靠度反映了不同分类器分类结果的可靠度,并将其用于计算每个分类器在融合过程中的权重。一个分类器的相对可靠度取决于其相对于其他分类器的冲突程度。因此,内部可靠度和相对可靠度是相辅相成的,两者结合可以全面地表征待融合分类器的可靠度。

谨慎折扣规则和经典折扣规则均可有效降低分类结果的冲突程度。经典折扣规则计算量相对较小,常用于处理低冲突情况,本节将其用于融合折扣后的分类结果,即来自不同的分类器的。由于DS规则满足交换律,因此基本置信值分配可以依次组合,并且组合顺序对结果没有影响。

在最终的融合结果中,由于进行了折扣处理,某些基本置信值分配可能会保留在(部分)不精确的焦元(不确定的类别)中。因此,此处考虑所有相关类别的似然函数Pl(·),并且认为目标属于最大似然值的类别,如