英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
2010国际人工智能技术与应用会议
支持向量机的归一化内核参数的自动选择方法
摘要
支持向量机(SVM)是监督分类的最强大技术之一,但是,SVM的性能基于选择适当的内核功能或内核功能的适当参数。通GGG过应用k倍交叉验证(CV)选择接近最佳的参数是非常耗时的,但是,应该预先确定网格方法的搜索范围和精细度。在本论文中提出了一种自动选择归一化内核参数的方法。在实验结果中,与我们提出的用来选择参数的k倍交叉验证方法相比,它花费的时间非常少。此外,相较于应用了k倍交叉验证的SVM方法,相应的一般SVM方法可以获得获得更加精准或者至少相等的性能。
关键词:支持向量机;SVM;内核方法;最佳内核;归一内核
一、介绍
近年来,支持向量机(SVM)在许多遥感研究中得到了广泛而成功的使用。在许多研究中,他们表现得更准确或一样好比其他分类器[1] [6],因为SVM有三个属性:[3]
他们可以有效地处理较大的输入空间。
他们在处理干扰样本时是非常稳定的。
他们可以产生稀疏的解决方案。
但是,SVM的性能基于选择适当的内核函数或者适当的内核函数参数。[6]- [9]通常,使用了k倍交叉验证(CV)的SVM参数的网格搜索来选择参数并防止出现过拟合问题。[6]-[7]但是,这很耗时,此外,在进行网格搜索之前,应该预先确定网格上更好的区域和精细度。
本文提出了一种自动选择归一化核函数参数的方法,如RBF核函数。实验结果表明,搜索效率显著提高,相应的性能几乎与带有网格搜索的SVM一样好。本文的结构如下:
1、介绍了内核方法和SVM的综述。
2、将会介绍提到的搜索方法。
3、设计高光谱表像数据集和UCI数据集的实验,以评估该方法在红外光谱中的性能。
4、并且,实验结果也在本报告中。
- 包含评论和结论。
二、核方法和软边际支持向量机的综述
A、核方法
如果像素稀疏分布,则分类更容易。一般而言,具有高维数(光谱带数)的样本可能具有更好的类别可分离性。核方法的策略是将来自原始空间的数据嵌入到特征空间?中,该特征空间是具有更高维数的希尔伯特空间,与该原始空间相比,该空间中存在用于分类的更有效的超平面。由此,我们可以使用内核函数直接从原始数据项中计算特征空间中样本的内积。这是基于以下事实:任何满足内核[1]特征的内核函数kappa;:都可以在以下定理中正式表述:
定理1:核的表征
函数kappa;:,其中X是一个向量空间,该向量空间可以是连续的或具有有限的域,并且可以分解。
进入特征图进入希尔伯特空间H并对其两个参数应用,然后评估H的内积,当且仅当它是一个对称函数,并且矩阵通过限制于任意有限子集而形成 空间X为正半定值,即不具有负特征值。以下是一些流行的内核。
线性核:
多项式核:
高斯径向基函数核(RBF核心)
其中x和z是中的样本,r和是分别应由多项式核和RBF核预先确定的参数。
这里值得强调的是,核矩阵的大小为Ntimes;N,并且在每个位置中包含用合适的核函数k测得的所有可能像素对(和)之间的距离信息,以完成核的表征,如果 我们使用线性核,则特征映射0是一个身份映射,即0是线性。 否则,特征映射可能是非线性的。 使用核方法的一个重要思想是不明确地了解非线性映射。
在本文中,使用归一化内核函数[1]。 给定具有参数的核函数k,将相应的归一化核定义为
可以看到,RBF内核是参数等于的规范化内核的一个很好的例子。此外,特征空间中的样本范数全为1,因为。这意味着特征空间中的样本位于超球面上。 因此,H中的样本的距离的大小与H中的样本的角度的大小的数量级相同,并且可以通过归一化的核函数值来确定两个样本的相似性,角度的余弦值。 另外,参数的不同值表示还采用了不同的对应映射和对应特征空间H。 基于此属性,我们提出了一种自动方法,用于确定参数的哪个值最适合判别。
B、软边际支持向量机
软边距SVM是在特征空间H(希尔伯特空间)中,在两个类别之间最分开的边距的中间找到一个超平面,该超平面可用于对新的测试样本进行分类[1]-[7] 。令A和B分别为一组训练样本和相应的标签集。 软边际支持向量机算法由以下约束的最小化最佳问题执行:
服从
其中w是垂直于H的超平面的向量,是一个常数,使得表示超平面距原点的距离,s是控制训练误差的松弛变量,是允许调整泛化的惩罚参数能力。
通常,使用拉格朗日优化的等效对偶表示法用于查找优化器。 相应的双重拉格朗日函数定义为:
服从
确定后,任何新的测试模式都会与预测标签相关联
在选择b的地方
对于任何的
具有标准化内核功能的软边距SVM有两个参数和C。 哪个是最适合给定问题的,事先未知。 识别好和C以便分类器可以准确预测未知样本是主要目标。 经常使用带有k倍交叉验证(CV)的软边距SVM的和C进行“网格搜索”,可以防止过拟合问题[6]-[7]。 但是,这种方法非常耗时,特别是对于大型训练数据集情况或高维数据集情况。此外,网格的范围和细度也可能影响所选参数值的质量。 因此,在下一节中,提出了一种自动确定值的方法来解决此参数选择问题。
三、推荐的方法:自动参数选择
假设是类别i,中的训练样本集,归一化核函数具有两个重要属性:(1),即特征空间中每个样本的范数为1。(2),如果,即特征空间中两个训练样本和的余弦值可以由和它确定了这两个样本之间的相似性。
基于以上两个观察和概念,期望并描述了两个属性:(1)同一类别中的样本应映射到特征空间的同一区域中。(2)不同类别中的样本应映射到不同区域中。 我们想要找到一个合适的参数:
- ,当
- ,当
我们使用RBF内核来说明这些问题。 如果参数接近0,则相应的内核函数值都接近0。 这意味着特征空间中的所有样本都近似相互垂直。 当增加时,相对于样本的RBF核函数的值会通过在原始空间中应用欧几里德距离而变得更快。 由于接近无穷大,因此相应的内核函数值都接近1。因此,特征空间中的样本接近固定点。 图1显示了理想特征空间中理想分布的图像。
图1理想特征空间中的理想分布
在本文中,提出了两个标准来测量这些性质。 第一个是普通核函数对相同类别的样本施加的值的平均值:
其中是第i类的训练样本数。 参数的确定应使接近1。第二个参数是归一化核函数对不同类别的样本施加的值的平均值:
因此,还应该确定,使接近0。很容易发现,如果当满足时,有和,则可以通过解决以下优化问题来获得最优:
请注意,如果是可微的,例如,相对于,则基于梯度的核函数是RBF核函数,则梯度下降法[10]
是用于解决建议的优化问题,其中
否则,如果参数是离散的,例如,基于核的是多项式核,那么我们可以找到最佳的:
其中S是一个整数,应该是预先确定的。
四、实验
在本节中,为了通过使用我们提出的方法(OP)和所选参数在实验1中进行5倍交叉验证(CV)来研究具有归一化核函数的软边距SVM的多类分类性能的实验。 2.通过将OP和CV应用于软边距SVM,两个参数C仍应通过5倍交叉验证进行选择。 多项式内核函数和RBF内核函数用作基础内核。
- 实验一
应用两个真实数据集来比较实验1中的性能。其一是印度松,这是印第安纳州的森林/农业混合地带,而另一个华盛顿特区购物中心的高光谱图像[11]则是城市地带。这些数据集中的第一个是由称为机载可见/红外成像光谱仪(AVIRIS)的传感器收集的。印度松木地区的影像是由飞行高度为65000英尺的飞机安装并由NASA /喷气推进实验室操作的,尺寸为145times;145像素,具有220个光谱带,在整个地面上约20 m。由于某些类别的样本数量太小,无法保留足够的不连续样本以进行训练和测试,因此只有八类,即玉米粉,玉米须,清洁大豆,草/草皮,大豆粉,干草堆肥,大豆须和树木被选中进行实验。
另一个数据集,即市区的华盛顿特区购物中心,是华盛顿特区购物中心上空的高光谱数字影像采集实验机载高光谱数据飞行路线。在可见光谱和红外光谱的0.4-2.4 m范围内收集了210个波段。一些下水通道被丢弃,形成191个通道[11]。 数据集中有七个信息类,即屋顶,道路,小径,草,树,水和阴影。
在此实验中,为了研究训练样本量对维度的影响,将讨论三种不同的情况:
(情况1)
(情况2)
(情况3)
多光谱[11]用于选择训练和测试样本(每类100个测试样本),与[11],[12]和[13]中的方法相同。
如果RBF内核是基于内核的内核,则分别在印度松遗址和华盛顿,DC 购物中心数据集中的给定集合和中找到通过应用CV的最佳方法。 应在集合上选择在这两个数据集中应用OP和CV的参数。如果多项式内核是基础内核,则在给定的集合中找到通过应用CV的最佳方法。 这两个数据集应在集合上选择。
在案例1中,通过使用印度松遗址数据集和RBF核作为基础核,函数的形状如图2所示。水平轴和垂直轴分别是参数的值和相应的的值。 该图表明,仅具有一个最小值,该最小值是所提出方法中所需的选定值。 图3显示了在情况1下应用固定的软边距SVM在不同处测试样本和印度松站点图像中所有样本的准确性和kappa准确性。
图2优化器的范围为[3500,4000]
可以注意到,图2中的的最小值位于[3500,4000]范围内,并且通过应用具有固定C的SVM在印度松站点图像中测试样品和所有样品的总体和kappa精度接近最佳。 愤怒[3500,4500]。 这两个图表明,所提出的方法获得了一个合适的参数,该参数的总体分类精度和kappa精度都接近最佳。
表1和表2分别是应用RBF核作为基于核的函数在Indian Pine数据集和Washington,DC数据集中的总体准确性和kappa准确性。 表3和4分别是应用多项式核作为基础核函数的Indian Pine数据集和Washington,DC数据集的总体准确度和kappa准确性。 可以发现,所提出方法的时间成本远低于两个数据集的5倍交叉验证。 此外,分类结果表明,通过使用OP查找参数的软裕量支持向量机可以在小样本量下获得更准确的结果。 顺便说一下,OP在三种情况下的最优值是相似的。 因此,我们可以使用少量样本来近似最佳值。
表1 印度松数据集中的总体精度和KAPPA精度(RBF内核是基础内核)
|
方法 |
CPU时间(秒) |
|
整体精度 |
总体Kappa准确性 |
20 |
CV |
197.50 |
8192 |
0.749 |
0.712 |
OP |
21.22 |
3622.80 |
0.768 |
0..733 |
|
40 |
CV |
531.25 |
8192 |
0.811 |
0.781 |
OP |
58.78 |
3615.36 |
0.831 |
0.804 |
|
300 |
CV |
22859.95 |
4096 |
0.928 |
0.915 |
OP |
2416.61 |
3795.66 |
0.928 |
0.916 |
表2 华盛顿特区购物中心的总体和卡帕准确性(RBF内核是基础内核)
|
方法 |
CPU时间(秒) |
|
整体精度 |
总体Kappa准确性 |
20 |
CVlt; 剩余内容已隐藏,支付完成后下载完整资料 资料编号:[234294],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。