![模式识别](https://wfqqreader-1252317822.image.myqcloud.com/cover/195/37669195/b_37669195.jpg)
3.2 特征选择
在模式识别中,经常面临的一个问题是,要从许多可能的特征(高维)中选择一些用于测量并作为分类器输入的低维特征[1]。
如前所述,所要提取的特征应当是具有可分性、可靠性、独立性的少量特征。一般来说,若人们希望特征有用,则当它们被排除在外后,分类器的性能至少应下降。实际上,去掉噪声大的或相关程度高的特征,能改善分类器的性能。
因此,特征选择可以看作一个(从最差的开始)不断删去无用特征和组合有关联的特征的过程,直至特征的数目减少至易于驾驭的程度,同时分类器的性能仍然满足要求为止。例如,从一个具有M个特征的特征集中挑选出较少的N个特征时,要使采用这N个特征的分类器的性能最好。
一种蛮干的特征选择方法是这样执行的:首先对每种可能由N个特征组合的子集训练分类器,再用各类别的测试样本进行测试,统计分类器的错分率;然后根据这些错分率计算分类器总的性能指标;最后选择一个具有最佳性能指标的特征组合。
除了一些非常简单的模式识别问题,使用这种方法的最大问题自然是计算量大。因此,在多数实用问题中,这种蛮干的方法是行不通的,必须使用一种开销较小的方法来达到同样的目标。
在以下的讨论中,考虑将两个特征压缩成一个特征的最简单的情况。假设训练样本集有M个不同类别的样本,令表示第j类的样本数,第j类中第i个样本的两个特征分别记为
和
。每类的每个特征均值为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_4.jpg?sign=1739191741-xgL9PGQkrRCksBq1DEWiwcB6YduhQDF5-0-edbd50025f40d2251d915e61ddbe8081)
(3-1)
和
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_5.jpg?sign=1739191741-6zwPxtTURgKdzFqZd4zLCi7rLNDrtoIb-0-0b3ad2065b856ce81c9991f15c710af6)
(3-2)
式中,和
上的“
”分别表示这两个值仅是基于训练样本的估值,而不是真实的类均值。
3.2.1 特征方差
理想情况下,同一类别中所有对象的特征值应该相近。第j类的x特征的方差估计为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_10.jpg?sign=1739191741-WRUKDH3F9QWFvS6wOWekH2UOQTGGB16q-0-76f0904ca8c81ec8ddddd6945a9d8d5a)
(3-3)
而y特征的方差估计为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_12.jpg?sign=1739191741-ZC9ZnbtCIhGmHV2mJh9O3qhs5TUTPGFQ-0-fe8145e01e64124648028a8890bc684f)
(3-4)
3.2.2 特征相关系数
第j类特征x与特征y的相关系数估计为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_14.jpg?sign=1739191741-npPGNIpL1ZUh9ZlIKcvurPYTzenx1Ula-0-a40f0f809c6ad26737a2c246f01adde4)
(3-5)
它的值的范围为−1~+1。若该值为0,则说明这两个特征之间没有相关性;若该值接近1,则说明这两个特征相关性很强;若该值为−1,则说明任一特征都与另一个特征的负值成正比。因此,若相关系数的绝对值接近1,则说明这两个特征可以组合成一个特征或可干脆舍弃其中一个。
3.2.3 类间距离
一个特征区分两类能力的一个指标是类间距离,即类均值间的方差归一化间距。对x特征来说,第j类与第k类之间的类间距离为
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_16.jpg?sign=1739191741-xhXf8Vl45UuBR5EbKRM1J8jwApMV6qdJ-0-93190f1a6b15bf8e4f3f643b297b7f54)
(3-6)
显然,类间距离大的特征是好特征。
3.2.4 降维
有许多方法可以将两个特征x与y合成一个特征z,一个简单的方法是用线性函数:
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_17.jpg?sign=1739191741-x95tOMR5IiTbK5lGGo6G24nMq5IfCpQV-0-98f96acafa160ec2bc983683c89aa63c)
(3-7)
式中,a和b均为实数。由于分类器的性能与特征幅值的缩放倍数无关,因此可以对幅值加以限制,如
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_18.jpg?sign=1739191741-5EVuDFEZ3CM8HnmgYWJXT2MueBdqPwpr-0-bea44ec98512fd7948941f7b2c8de536)
(3-8)
将其合并到式(3-7)得
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_19.jpg?sign=1739191741-GNonCNlcDWjIb63uzYp9ZKlPwNkYRSXh-0-c6d9e2b253eac0eb94f001224ac57cf8)
(3-9)
式中,θ为一个新的变量,它决定了x和y在组合中的比例。
若训练样本集中每个对象都对应于二维特征空间(xy平面)中的一个点,则式(3-9)描述了所有在z轴上的投影。显然,可以选取θ使类间距离最大,并利用投影进行降维,如图3-1所示。
![img](https://epubservercos.yuewen.com/738614/19938710408149206/epubprivate/OEBPS/Images/txt003_20.jpg?sign=1739191741-SD9zIKr11IEA3gzwNWF8YOIkXojGw1Hk-0-5e7d8b78344918e3926ead4ad1984185)
图3-1 利用投影进行降维
基于线性变换来进行降维的方法称为线性降维法。要对降维效果进行评估,通常可比较降维前后学习器的性能,若性能有所提高,则认为降维起到了作用。若将维数降低到二维或三维,则可通过可视化的方法直观评估降维效果。
下面进一步介绍特征提取的重要方法之一——降维。