英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
基于时间序列的行为模式量化分析与预测-动物行为研究 摘要:行为模式具有规律性,反映了研究对象的行为特征和逻辑,对研究对象未来状态的预测有很大影响。但现有文献主要集中于行为模式的识别和分类,缺少对行为模式的描述和量化研究。行为模式量化数据可以为行为模式预测提供良好的数据基础,从而进一步提高预测的准确性。本文采用基于感知重要点的量化算法(PIP-QA)对时间序列进行分析,从时间序列中提取隐藏的行为模式,得到行为模式的量化描述。提出了一种基于LSTM(BPPM)的行为模式预测模型来预测行为模式。最后,利用蛋鸡的饲养行为数据进行实验。实验结果表明了PIP-QA的可行性以及BPPM模型具有良好的预测能力和泛化能力。 关键词:行为模式;时间序列;感知上的重要点;定量分析;LSTM;预测 1引言 行为模式是研究对象具有动机、目标和规律性的行为活动[1],是行为内容和方法的标准化,显示了研究对象的行为特征和行为逻辑。从时间角度来看,行为模式是活动时间分配的程序结构[2],因此行为模式通常隐藏在时间序列数据中。时间序列数据是观察对象按时间顺序排列的特征或行为的集合,使用时间序列数据进行分析对行为模式识别和未来状态预测有积极影响[3]。 行为模式一直是国际研究的热门话题,它具有规律性,可以反映研究对象的行为特征和逻辑。因此,其应用涉及很多领域:在金融领域,通过对金融市场数据的反向统计分析,用于检测股票交易行为确定投资期限[4];在社会领域,群体行为是一种宏观行为,它是由个体之间的相互作用而产生的[5]。群体行为模式的预测在合理利用社会资源中起着重要作用;在农业领域,对动物行为模式的研究有助于农民精细管理农场,增加经济收入,促进农业经济增长[6];在教育领域,通过分析学习者的行为模式,可以为学生提供优质的支持服务,这是行为模式分析在教育中的核心应用价值[7];在信息安全领域,每个信息系统用户都有自己的行为模式,该行为模式通过检测用户的实际行为与用户的行为模式之间的偏差来检测信息系统内的威胁[8]等。因此,行为模式分析具有重要的意义和广泛的应用。 目前,许多研究可以从时间序列中提取行为模式,但是它们通常仅识别行为模式,而没有对行为模式的量化描述。行为模式量化数据可以为行为模式预测提供良好的数据基础,从而进一步提高预测的准确性。基于以上分析,针对量化分析和行为模式预测问题,本文研究了从时间序列数据中提取行为模式和量化描述方法,并基于量化数据进一步预测了行为模式。 我们的工作主要在三个方面:首先,提出了一种基于感知点的量化算法(PIP-QA)来分析时间序列数据,并提取隐藏的行为模式;其次,提出了一种基于LSTM的行为模式预测模型(BPPM)来预测行为模式;最后以蛋鸡的饲养行为数据为例,验证了PIP-QA的可行性和准确性,并验证了BPPM的预测能力和泛化能力。 2行为模式量化分析与预测模型 2.1基于PIP的量化算法(PIP-QA) 时间序列是由一系列数据点构成的,每个数据点对时间序列都有自己的重要性。一些数据点可能会影响时间序列的整体形状,例如极端点和拐点,但某些数据点可能对时间序列没有影响并且可能会被丢弃。这些观点在人类视觉识别过程中,在感知上很重要[9],这些比其他要点更重要的要点被称为感知重要要点(PIP)。 关于如何识别PIP,Zhou[10]证明使用垂直距离(PD)识别PIP是最佳方法。此方法是连接两个相邻PIP的线与测试点之间的p3如图1所示。 Fig. 1. Perceptually important point identification. 时间序列中的数据量通常非常大,直接定量分析会导致沉重的计算负担和较长的时间成本。因此,为了提高定量分析的计算效率,需要找到一些PIP来分割时间序列。 本文将时间序列图转换为曲线点图,并使用曲线点细化算法找到PIP,主要包括Douglas–Peuker算法(DP)[11]和极限垂直距离算法(LVD),将此时间序列分割方法称为PIP方法。 2.2长短期记忆(LSTM)模型 LSTM是一种时间递归神经网络,适用于以相对较长的间隔和延迟来处理和预测时间序列中的重要事件。与其他递归神经网络(RNN)相比,LSTM解决了两个重要问题[11]:第一,训练RNN模型时,必须预先确定时间间长,但是在实际操作中,很难自动获得最佳时滞设置,而主要依靠试错法;第二,由于梯度消失和梯度爆炸,RNN模型无法捕获输入序列的长时间依赖性。LSTM网络通过添加门控循环单元来控制即时信息对历史信息的影响,从而使网络模型可以长期保持并传输信息[12]。当前的LSTM模型具有广泛的应用,例如语音识别,手写生成,机器翻译,图像字幕和解析等。 LSTM由一个输入层、一个递归隐藏层和一个输出层组成。与传统的神经网络不同,其隐藏层的基本单位是存储块[11]。LSTM使用存储单元在存储块中存储和输出信息,从而简化了长时间尺度上时间关系的学习。它利用一种基于输入的分量乘法的机制(门控的概念),定义了每个单独的存储单元的行为[13]。具体结构如图2所示。 Fig. 2. LSTM model hidden layer gating unit structure. LSTM利用输入门,输出门和遗忘门以保护和控制单元状态。其第一步是确定忘记的信息,主要通过“遗忘门”。盯着和,并为单元格状态中的每个数字输出一个介于0和1之间的数字代表遗忘的程度。下一步是决定以单元状态存储新信息。“输入门”决定需要更新的值,并且tanh(激活函数:双曲正切函数)层创建新候选值的向量,可以将其添加到状态中。然后LSTM更新旧单元状态进入新的细胞状态。最后“输出门”确定输出值。 LSTM模型的训练过程实际上是不断优化和调整权重矩阵的过程,重量矩阵和偏见项均基于反向传播(BP)算法[14],该算法有4个步骤: (1)正向计算LSTM单元输出值。 (2)反算LSTM单元误差项。 (3)根据相应的误差项计算每个权重矩阵的梯度。 (4)应用基于梯度的优化算法对模型进行优化。 有许多基于梯度的优化算法,包括随机梯度下降(SGD)[15],Ada Grad[16]和RMS Prop[17],该实验使用自适应矩估计(Adam)。Adam是一种有效的基于梯度的随机优化方法。优点在于:在每次迭代期间,偏置矢量调整后的学习速率保持在一定范围内,参数变化相对稳定,并且对计算存储器的需求很小。实证结果表明,Adam在实际应用中的性能总体上优于其他优化算法[18]。 2.3行为模式预测模型(BPPM) 基于以上理论,提出了一种行为模式预测模型(BPPM),如图4所示。首先,从时间序列中提取行为特征S。每个行为特征构成一个特征序列,则所有特征序列形成一个特征序列集。因此,行为模式的预测就是预测每个行为特征,然后将特征序列分为训练集和测试集并进行归一化。 归一化训练集表示为,归一化测试集表示为,并满足约束条件和。 (1)网络培训 为了满足隐层输入需求,采用数据分割方法对训练集进行处理,得到输入模型X,相应的理论输出是yuml;。然后把X代入隐层的训练,得到的输出P。训练过程使用反向传播算法来计算损失,并使用Adam优化算法来优化模型。 (2)网络预测 训练完成后,利用迭代方法来进行预测。理论输出Y的最后一行数据为,放Yf进入训练有素的LSTM网络,输出表示为。因此,m 1预测值为Pm 1,所以合并最后一个数据点Yf与Pm 1形成新的数据行。放Yf 1进入训练有素的LSTM网络并获得m 2预测值Pm 2,所以得到预测的序列,最后,通过逆归一化获得预测结果。 Fig. 4. Behavior pattern prediction model (BPPM). (a) BPPM Framework; (b) LSTM based BPPM structure — taking the feature sequence F1 as an example. 3实验与结果分析 3.1实验准备 实验准备主要是关于实验中的数据来源,预测模型的评估指标以及实验的计算机配置。 (1)数据来源 从饲料重量随时间变化而形成的数据序列中检索数据,这称为饲料重量时间序列。饲料重量数据由重量传感器GUANGCE YZC重量传感器收集;实验地点在杭州临安爱格禽业公司,如图5所示。有两只标记为A和B的蛋鸡,分别饲养。重量传感器安装在进料槽下方,以1 Hz的采集频率收集进料重量的变化。每天的数据收集时间是5:00–20:00,凌晨5点进食,晚上8点以后,蛋鸡进入静止状态而没有数据收集,清除饲料残渣后的第二天凌晨5点,添加新饲料。蛋鸡A用于模型训练验证,并连续32天收集数据;用蛋鸡B检验模型的泛化能力,并连续收集10天。随机选择一天的饲料重量变化的时间序列,以定量提取喂养行为。此外,在实验室中安装了一个摄像头用于监控,例如,图6中显示了8月13日17:00至19:00的饲料重量的原始和预处理时间序列,序列长度为7684。可以观察到该时间序列有很多噪声数据。原因是蛋鸡进食时与喂食槽发生碰撞,从而影响了体重传感器。结果,出现异常值明显偏离正常饲料重量。因此,实验执行了一种预处理方法,用于替换原始数据上的异常值以消除噪声。 Fig. 5. Weight sensor and experimental environment. (2)评价指标 为了评估模型的性能,均方根误差(RMSE)被选为所有预测模型的评估指标,如下公式所示。它用于测量预测值和真实值之间的偏差。RMSE越小,模型拟合越好。 其中和是时间序列的观测值t的模型输出值。是数据点的数量。 (3)实验配置 数据处理环境是Intel(R) Core(TM) i5-5200U;CPU频率为2.20 GHz;内存为4.00 GB; 操作系统是Windows7(64位),而LSTM模型是使用python3 Keras。 Fig. 6. Segment of original time series and preprocessed time series. Table 1. Algorithm performance evaluation result. 3.2行为模式量化 预处理的饲料重量时间序列通过PIP方法进行分段拟合。研究了DP算法和LVD算法在不同阈值下的性能。此外,拟合误差,压缩比和运行时间被用作算法的评估指标。拟合误差越小,算法的性能越好。压缩率是指分段后的时间序列的长度与分段前的时间序列的长度之比。对于分割算法,压缩率越高越好。算法运行时间是从算法操作的开始到结束的时间。运行时间越快越好。 图7显示了两种算法在不同阈值下对饲料重量时间序列的拟合结果。算法性能的评估结果如表1所示,表明两种算法的拟合误差随着阈值的增加而增加。但是LVD算法无法拟合超过1.5阈值的原始曲线,但是DP算法仍然有效。在压缩率方面,两种算法的压缩率均超过99%。DP算法的运行时间比LVD算法稍长,但结果仍然可以接受。使用DP算法来拟合时间序列可以用相对较少的PIP来拟合时间序列的趋势,并且拟合误差较小。 通过PIPs方法分割饲料重量时间序列后,使用PIP-QA定量提取蛋鸡的饲料行为。提取的主要采食行为数据是采食量(FI),采食时间(FT),时间间隔(TI)。关键步骤如下: (1)用PIPs方法分割饲料重量时间序列后,得到设定的PIPs。重量差设定W、时差集T和坡度设置K相邻PIP的百分比由公式计算。 (2)设置斜率阈值,并获得分类集W、设定T并设置K。 (3)得到FI和TI。PIP-QA流程图如图8所示。 表2是DP算法的定量统计结果的一部分(阈值=1.5)。结果表明,产蛋鸡的饲喂行为在2小时内发生了4次。在这段时间内,总进食量为29 g,第四次进食行为持续了960 s,进食量为12 g,进给速度为0.013 g / s。还已知每次进给的开始时间以及两次进给之间的时间间隔为1366 s、3257 s和988 s。通过分析一天的时间序列,可以获得一天的总采食量和一天中特定的蛋鸡采食行为。因此,可以分析蛋鸡的进食行为的规律模式,并可以预测蛋鸡的进食行为。 此外,将蛋鸡行为的量化统计结果与视频分析结果进行比较以进行验证。通过观察同一时期(17:00-19:00)中的视频片段,进行了统计。视频统计结果如表3所示,误差分析如表4所示。从表3可以看出,蛋 剩余内容已隐藏,支付完成后下载完整资料
资料编号:[234201],资料为PDF文档或Word文档,PDF文档可免费转换为Word
您需要先支付 30元 才能查看全部内容!立即支付
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。