基于核密度估计的数据相关性外文翻译资料

 2023-02-23 06:02

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


基于核密度估计的数据相关性

理论上在识别与纠正传感器测量中最可能出现错误的步骤就是校准,校准程序的基础是建立一个统计误差模型,捕捉测量误差的特征,这种误差模型可以通过离线或在线方式构建,并使用非参数核密度估计技术导。利用统计评价方法,比较了通过使用各种形式的核平滑函数构造的模型。在选定的误差模型基础上,提出了四种从误差模型过渡到校正模型的方法,用分段多项式表示。此外,为了建立误差模型和校准模型的置信区间,还使用了统计验证和评估方法,比如重新替换法。以内场部署传感器记录的基于声信号的距离测量轨迹为例进行了说明。最后,讨论了误差模型的广泛应用,并举例说明了采用统计误差模型作为优化目标是如何影响无线传感器网络位置发现问题精度的。

索引项校准、核密度估计、位置发现、无线自组织传感器网络(WASNs)。

  1. 导言

由于器件缺陷和老化的原因,测量中的误差是不可避免的。因此,在决策过程之前,需要从原始传感器读数映射到正确的值。传感器的校准可以定义为查找和校正传感器读数中最可能出现错误的过程。误差建模,是校准问题的一个推广,其目标不仅是找到最可能的误差,而且是导出给定强度测量中任何误差的概率。错误建模是许多传感器网络任务的必备组件。例如,所有基于最大似然的传感器融合方法都是在假设误差模型是可用的基础上使用的。

近年来,传感器网络环境下的标定问题引起了人们广泛的关注。它主要是在传感器融合的框架内解决的。通常假设高斯分布模型,并使用最小线性平方来实现最小化差异。对于线性系统,该方法在高斯噪声分布假设下是最优选。然而,最近的一些实验表明,传感器系统中的误差不服从高斯分布,而且往往具有复杂的行为,不能用标准分布和参数统计的方法进行捕捉。我们的目标是在不需要假设误差分布的情况下,使用非参数统计技术来解决校准问题。正如我们通过距离测量所证明的,误差行为只能通过非参数统计技术来精确捕捉。我们的第一步是建立误差模型。我们提出的技术是通用的,因为误差模型可以依赖于任意数量的测量参数。更具体地说,这些模型是使用具有各种形式的权重函数和窗口大小的核密度估计以及局部线性回归来构建的。这种误差模型不仅为给定的测量提供了一个最可能的正确值,而且还为给定的测量提供了所有可能正确值的完全概率分布。我们研究了误差模型的理想特性,并进行了统计评估和验证,以支持模型的准确性和一致性。

一旦建立了误差模型,我们就可以用不同的方法定义用于将记录值映射到正确值以补偿传感器偏差的校准函数。除了标准极大似然方法外,我们还分析了其他几种方法,如最小化加权期望误差之和。然后,使用选定值的最小线性平方分段多项式拟合来逼近校准函数。此外,我们还提出了一种约束检查技术,可以检测和排除测量中的异常值,从而进一步提高校准的有效性。使用非参数统计技术进行校准的主要好处之一是除了校准映射之外,我们还可以导出特定测量值或所有测量值的总体置信区间。校准的主要目标包括精确性、可扩展性、抗随机误差的弹性以及适用于各种传感器和误差模型的灵活性。精度表示校准过程识别和校正系统偏差的精度。可伸缩性是程序的各种成本如何随着网络规模的增加而增加的指标。另一个重要的特性是稳健性。从可以应用和实例化到任意误差模型的意义上来说,校准过程是通用的也是可取的。此外,一个紧凑的映射函数,即由最小数量的参数组成的映射函数,具有更高的空间和时间效率,并可防止过度拟合。通过研究噪声水平、网络规模和现象复杂性等参数对标定精度的影响,定量地分析了这些特性对标定技术的影响。

原则上,我们的新校准方法可以作为一种通用的回归方法,用于预测从易于测量的解释变量中很难推断出的目标变量。然而,必须强调的是,所有统计技术的有效性在很大程度上取决于所分析数据集的性质和属性。因此,虽然我们的统计方法表现良好,作为一个校准工具,它不一定适合其他任意给定的回归任务。

  1. 相关工作

在本节中,我们将对统计建模和传感器数据校准的相关文献进行综述。

最小二乘拟合/回归是将一组数据拟合到特定压缩形式的最流行的参数化技术之一。该方法在误差服从高斯分布的假设下是最优的。进行最小二乘拟合的标准技术是使用奇异值分解(SVD)。此外,还有各种可用的技术可用于确定最小二乘模型是否适合给定的数据集。许多出版物提供了这些方法的详细说明[1]-[3]。除了参数技术外,不依赖于任何基本假设的非参数技术也越来越流行。非参数回归技术的一些标准参考文献可以在[4]-[7]中找到。

由于传感器网络的部署和运行方式的特殊性,传感器网络中的校准有一组独特的要求和约束。特别是对低功耗操作和低带宽通信的需求,恶劣环境加速了传感器性能以及灵敏度的老化,这些都对传感器提出了独特的挑战。在[8]-[16]中可以找到一些现有的传感器网络最先进的校准技术。到目前为止,传感器网络的标定主要是在位置发现的框架下进行的[17]。在这一领域中报告的前两项努力是加州大学洛杉矶分校的Madusa系统和华盛顿大学的SpotON系统。这两项工作的重点都是在离线校准中为一组特定的无线电收发机和接收机建立信号强度和距离的模型。Savvides等人。[18] 首先对非线性方程组进行线性化,然后用最小二乘法进行估计。另一方面,Hightower等人。[9] 使用相同类型的模型来拟合线性和对数函数的组合。两组均报告了综合实验集,但均未报告根据置信区间对所开发模型的统计评估。

另一个针对位置发现的校准项目是[13]。作者用最小二乘法将实验数据拟合到人工选择的线性模型中。该方法分为三个阶段。在第一步中,他们将每个单独的无线电参数化,并使用这些参数开发整个系统的模型。在第二阶段,他们从系统中收集数据,在最后阶段,他们为单个设备选择参数,这样整个系统中的行为差异最小。讨论了几种校准技术,包括迭代校准、平均校准、联合校准和自动校准。

Bychkovskiy等人。[8] 试图通过首先考虑对紧密传感器来消除或减少系统误差。在下一阶段,他们会考虑大量的传感器对,并试图找到同时满足所有成对关系的最一致的方法。他们工作的基础是观察到两个空间上很接近的传感器经常有暂时相关的记录。最近,Ihler和Fisher[10]提出了一种局部自校正方法,该方法在位置估计的框架下,在图形模型中描述问题。此外,Feng和Potkonjak使用统计构造的误差模型进行传感器校准[14]-[16]。

  1. 统计误差建模

在这一部分中,我们提出了用概率密度函数(pdf)表示的测量误差的非参数统计模型的构造方法。这些技术利用了核密度估计的概念和极大似然原理。我们首先陈述这些技术所基于的假设。然后,介绍了利用不同形式的核权函数构造误差模型的一般方法,并研究了误差模型的优缺点。之后,我们提供评估指标来验证错误模型。我们以一组已部署的传感器[19]、[20]生成的基于声信号的距离测量(即测距测量)的集合作为示例。值得注意的是,这些技术不仅限于距离测量;它们还可以应用于各种数据。我们在[21]中使用光强度测量来解释这种延伸。

当离线建立误差模型时,我们假设黄金标准的可用性,黄金标准可以通过遵守物理定律(例如,距离测距时的距离公式)来计算,也可以通过引入额外的校准和精确的设备/传感器来获得。它们的测量值作为未校准传感器的参考值。当误差模型是在线和内场构建时,没有可用的标准被假定。在这种情况下,首先通过使用其他优化目标来求解系统,而无需显式地指定任何误差模型(例如L1范数或L2范数),然后将初始解作为正确值以及用于构建误差模型的测量值。在此基础上,采用在线构建的误差模型对系统进行了再求解。这个过程是重复的,误差模型被反复修改和调整,以便更好地表示实际的误差分布。图1为在线模型构造过程的图示。

A、 模型构造

我们在本节中作为演示示例使用的测距测量是由部署在雷场试验设施中的传感器在几天内记录的(详见第五节)[19],[20]。为了简单起见,我们解释了离线模型的构造。

建立误差模型的第一步是检查测量值是否适合建模。适宜性的概念是检查测量之间是否存在一致性,以及一致性在多大程度上被量化。我们首先绘制成对测量以及相应的计算距离(即正确的距离)。图2示出了2000个这样的对。在距离测量的情况下,我们将一致性定义为更长的测量距离意味着更长的对应实际距离。更具体地说,考虑两对测量和校正距离P1(m1,r1)和P2(m2,r2),其中m和r分别代表测量距离和相应的实际距离。如果(m1ge;m2→r1ge;r2)or;(m1le;m2→r1le;r2),则P1和P2相互一致。对于这组2000个数据对,一致性为92.93%。从图中可以得出三个观察结果:1)与对角线所示的正确距离相比,大多数测量值的差异较小;2)随着测量值的增加,特别是当测量距离gt;40 m时,观察到的错误测量的百分比明显较高;以及3)较大百分比的测量值往往比相应的正确距离短,假设比正确距离长。显然,这组距离测量似乎足以进行建模,因为它具有高度的一致性,并且存在可以推广的模式和特征。

构建测量误差模型的目的是检验给定单个测量值时不同正确值的频率。建立精确误差模型最常见的困难是缺乏足够数量的测量数据。为了解决这一局限性,使用滑动窗口核密度估计技术[22]、[23]构造PDF,PDF是两个变量的函数:测量强度和相应的正确距离。更具体地说,PDF是利用Nadaraya–Watson核加权平均和局部线性回归等价核的组合来构造的[23]。Nadaraya-Watson核加权平均使用x的k个最近邻来计算x的期望值(或最有可能的值)。此外,与其将邻域中的所有k个点分配为相等的权重,我们分配的权重随着距离目标点x的距离而平滑衰减。众所周知,由于这些区域核的不对称性,局部加权平均值可能严重偏向域的边界。通过进行单独的加权最小二乘线性回归,并结合加权核和最小二乘运算,可以将偏差精确地消除到一阶。

更具体地说,滑动窗口内核方法的工作方式如下。考虑一组n对测量和校正距离{(xi,yi),i=1。,n}。对于每一个测量距离X,我们定义一个大小为Xplusmn;的邻域(窗口),并考虑该窗口内的所有测量,以构造一个X的正确距离的二维(2-D)PDF曲线。此外,该二维曲线是通过对正确距离应用相同的技术来构造的。对于每个正确的距离Y,我们定义了另一个尺寸为Yplusmn;(prod;εY)的窗口,所有值都在这两个窗口内(即{(X i,yi)| xiisin;Xplusmn;(prod;εX),yiisin;Yplusmn;(prod;εY)})用于估计给定测量距离X的正确距离Y的概率。图3提供了滑动窗口的图示。在我们的实验中,我们尝试了三种常用的核加权函数[23]:1)Epanechnikov;2)Tri-cube;和3)不同窗口大小的高斯函数。在计算所有相邻点的核权之后,对加权数据点进行最小二乘回归。我们提出了核权函数和窗口大小的组合,使用统计评估方法(本节稍后描述)产生最佳结果-窗口大小为0.375m的Epanechnikov二次核函数。图4(a)显示了在2000距离的相同集合上构造的三维(3-D)PDF曲面测量。x轴表示测量距离;yaxis表示相应的正确距离;z轴表示特定测量距离的特定正确距离的可能性。图4(b)给出了当测量距离isin;[0,40]m时的特写视图;图4(c)给出了当测量距离isin;[30,40]m时的进一步特写视图。

B、 模型评估与验证

窗口大小和核权函数是影响误差模型平滑度和精度的两个重要因素。窗口越小,三维曲面和二维曲线的不连续性就越大,这意味着必须使用更复杂(或更多)的多项式来表示误差模型(即,误差模型的形式不那么紧凑)。为了选择最精确的模型,必须考虑偏微分方程的精度及其误差修正能力。本节末尾将解释解决第一个问题的方法,该方法基于标准恢复方法[5]。传感器网络中的许多任务都是作为一个优化实例来表示的。当误差建模与极大似然概念相结合时,误差模型通常作为优化目标,误差值的概率随误差模型的变化而最大化。第二个误差修正的度量能力,解决了PDF应该具有哪些特性才能适合优化使用的问题。

评估误差模型的最终指标是准确估计用于构建误差模型的训练数据中没有的正确值的能力。因此,研究训练数据的百分比与建模精度之间的关系至关重要。图5示出了当随机选择的训练数据的不同百分比在30%到80%之间变化时,预测误差定义为误差模型提出的值与实际正确值之间的差。如图所示,即使只有30%的训练数据,误差模型与正确值相比仍然只有8.27%的误差。

另一个度量一致性,提供了误差模型在一定精度范围内的频率的度量。这是使用恢复方法完成的,其中m%的原始数据被随机选择来构建错误模型,剩余的(1-m%)数据被用于评估模型。这个过程被重复P次以构造置信区间。在我们的实验中,P设为200。例如,图6示出当给定m=70%的训练数据时,以预测误差的直方图表示的置信区间。从图中可以看出,在置信度为80%的情况下,误差模型的预测误差为5.5%plusmn;1.5%。

C、 精度分析

从图2可以看出,根据测量距离的范围,观测到的异常值在测量误差方面的百分比不同。例如,在我们的33个数据集中,15-35m范围内的测量几乎没有异常值,而40 m范围内的测量包含了所有异常值的80%以上。因此,对不同的测量范围分别建立误差模型是有利的。数据分割是在动态规划的框架下进行的,在假设每个单独的段上应用的回归是最优的情况下,保证了最优性。算法的运行时间为O(k·R2)·O(回归),其中k是分区数,R是测量范围与分区最小大小的比值。图7示出当k=4时构造的结果pdf。为了便于可视化,PDF显示在二维设置中。pdf可用于回答以下问题:1)每个测量范围内最可能(或预期)的误差值是多少;2)特定范围内的传感器读数产生特定误差值的概率是多少。值得注意的是,可以开发其他统计技术来表征测量精度。例如,我们在第五节讨论了一种在线离群点检测方案,以有效地识别和消除对从观测数据得出的结果有不利影响的测量值。

四、校准

A、 测距测量

另一种解释三维PDF曲面的方法是,它是每个测量距离的二维PDF曲线的集合。例如,图8示出了测量距离35m的二维PDF曲线。可以通过基于该二维PDF图选择正

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[234298],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。