英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
外文翻译
题 目 改进的二元粒子群优化与随机蛙跳
混合方法用于特征选择
作 者 S.P.Rajamohana,K.Umamaheswari
发表时间 2018年
二O一九 年 五 月 五 日
摘要:目前,大众对在网站、电子论坛和博客上分享意见、反馈、对任何离散主题的建议都很感兴趣。因此消费者倾向于在购买任何产品或使用其服务之前大量依赖产品评论。然而,并非所有的网上评论都是真实的。垃圾邮件制造者操纵评论,使其有利于产品贬值或促销。因此,由于这些虚假的评论,即垃圾内容,会影响客户做出错误的决定。为了解决这一问题,提出了一种改进的二元粒子群优化与随机蛙跳算法相结合的方法,以降低特征集的高维性并选择优化的特征子集。我们的方法可以帮助客户忽略虚假的评论,并通过提供可靠的评论来提高分类性能。采用朴素贝叶斯(NB)、近邻算法(KNN)和支持向量机(SVM)分类器进行分类。结果表明提出的混合特征选择方法提供了一个优化的特征子集,获得了较高的分类精度。
关键词:查看垃圾邮件分类、特征子集选择、朴素贝叶斯、KNN与支持向量机
1、介绍
在当今时代,互联网上用户可使用的内容数量正在迅速增加[1],购买时产品或可用服务客户通常倾向于仅依赖审查地点[2]。然而对这些可用数据的质量控制是有限的,这一限制要求人们在网站上发布虚假评论,以提升或降级产品[3]。这些人是众所周知的作为意见垃圾邮件发送者。对产品的正面垃圾邮件评论可能会带来经济收益,并有助于增加产品的受欢迎程度[4]。同样,负面的垃圾邮件评论也会被发布,目的是破坏产品或服务[5]。最近,垃圾邮件或伪造评论的问题不断增多,许多此类案件已于年发布。新闻。因此,有必要找到这些审查的真实性。特征选择(FS)是一种技术从原始数据集[6]中选择功能的子集。它主要用于建立更强大的学习模型和降低加工成本。特征选择的主要目的是将特征数量减少到提高模型的性能和分类的准确性[7]。 可以将FS检查为对状态空间的搜索, 因此可以在遍历的所有搜索空间中执行完整搜索。启发式搜索会考虑这些特征,尚未在每次迭代中选择进行评估的。随机搜索在搜索空间中创建随机子集,可以评估分类绩效的重要性。由于元启发式方法的随机性如粒子群优化(PSO)、进化算法(EA)、BAT算法(BA)、蚁群优化(ACO)和遗传算法算法[8,9]广泛用于特征选择。当特征空间为高维空间时,选择最优使用传统优化方法的特征子集并没有被证明是有效的。因此,元启发式算法广泛用于适当选择功能。两种特征选择方法,即过滤模型法和封装模型法可以用于选择特征子集。过滤模型法分析了不涉及任何学习算法的数据属性[9],可以执行子集选择和排名。虽然排名涉及到识别所有特性的重要性,但该方法更具体地用作一种预处理方法,具有冗余特性。与其他过滤器方法不同的包装器模型考虑特征之间的关系[10]。该方法首先使用一种优化算法生成各种特征子集。然后使用分类算法对生成的子集进行分析。
本文研究了一种基于规则的方法来检测虚假评论,其中定义了意外规则来检测评论者的异常行为[11]。该研究使用了Aamazon提供的数据集来识别垃圾邮件活动。N-gram方法用于检测负面的欺骗意见[12]。使用黄金标准负垃圾邮件数据集,其中包含芝加哥20家酒店的400条评论。利用支持向量机(SVM)对图像的单、双特征进行训练。量词。结果表明,基于N-gram的支持向量机分类器在超过人类判断的情况下达到了86%的准确率。提出了两种N-gram检测方法,即字符N-gram(BON)和单词N-gram(BOW)。虚假评论[5]采用NaiveBayes(NB)分类器对正面评价和负面评价进行分类。实验性的结果表明,NB分类器在正面评价中取得了较好的效果。此外,发现SVM方法在对欺骗性和真实性负面评论进行分类时显示出更好的结果。作者声称BON的效果更好与BOW相比,它的鲁棒性提供了一个小的训练数据集的优越结果。
内容复制技术是识别虚假评论的首选[13]。培训数据集中考虑了重复和接近重复的评审。此外,测试数据集中还考虑了两种不同的垃圾邮件检测技术。作者阐述了基于内容的功能,包括3类评论。首先,对目标产品的评价与作者的评价和其他评价的相似性。他们还阐明了基于突发模式的评审者的中心特征。概率语言模型的开发是为了在评论之间生成一个相似的分数[14]。这种方法评估从另一个评审中得出一个评审的可能性。为了检测内容的相似性,他们比较了Kullback–Leibler的两篇评论。。 除此之外,Kullback-Leibler分歧度量还计算每次审核的垃圾邮件分数。 选择SVM进行垃圾邮件分类,以对垃圾邮件和ham评论进行分类。他们在检测垃圾评论的方法上达到了81%的精确度。
本文使用了以词汇或句法表示为特征的聚合特征来识别评论垃圾邮件,虽然词汇特征代表字符或基于单词的特征,但句法特征表示每个句子级别的审阅者的写作风格。基于图的方法论,该图包括三个节点:即审查、审查和存储,用于检测审查垃圾邮件发送者[15,16]。它建立了两个节点之间的相互关系,通过评价评价评价者的可信度、评价者的诚实度和商店的可靠性来实现。在这种情况下,协议得分是根据用户评级计算的,这家商店的可靠性取决于审查者评论的可信度。
本文研究了传统的垃圾邮件分类特征选择技术,如词汇袋、名词袋、语言特征、加权主成分分析、关键词识别和机器学习算法。然而迄今为止,还没有尝试使用混合进化算法来审查垃圾邮件分类。进化算法已应用于调度、电力系统和无线传感器网络等不同的应用领域。这是第一个利用进化算法将评论分类为垃圾邮件和ham的研究。FS在分类中起着重要作用。因此,许多研究者主要集中在统计测量来选择特征。然而,这些方法并不能提供适当的解决方案空间。搜索空间大小随给定数据集中的特征数呈指数级增长。传统的特征选择技术涉及到更多的特征。虽然在分类过程中不需要所有这些特性,但是大量的不相关和冗余特性倾向于影响分类器的整体性能。
2、提出模型
提出的方法利用进化算法来获取特征子集,以获得更好的伪评论分类和识别精度。它由四个阶段组成,即预处理、特征提取和特征子集选择,采用混合IBPSO和SFLA进行分类。拟议系统的框图如图1所示:
图1 拟定IBPSO和SFLA的方框图
2.1、数据预处理
数据预处理阶段包括四个阶段:标记化技术、停止字删除、词干化和sentiwordnet。首先,应用标记化技术过程将字符串转换为标记。因此,每个文档都被划分为令牌。在标记化技术过程之后,停止字将从数据集中消除。在这个词干之后应用于从单词中选择根单词。最后SentiWordNet用于提取特征[17]。SentiwordNet的目的是为单词net提供一个扩展,使所有合成集都可以与一个关于负、正或客观内涵的值相关联。审核的正负分通过计算正负分的平均值来确定。然后将使用公式(1)计算目标得分。如果目标得分低于阈值,则删除单词;否则,将提取单词进行进一步处理。
(1)
2.2、特征提取
术语频率(TF)表示文档中每个词的出现次数,使用以下公式(2)计算。反向文档频率减少了重复出现的单词的权重,从而增加了文档中较不频繁单词的权重。反文档频率(IDF)使用公式(3)计算。TF-IDF用于信息检索和文本挖掘[18]。TF-IDE是项频率和IDF这两个统计量的乘积,通过公式(4)进行计算:
(2)
(3)
(4)
其中是在整个文件中出现的任何原始术语的最大重量每个文件中术语的频率。为数据集中存在的文档总数,表示文档数。
2.3、粒子群优化算法
粒子群优化(PSO)算法[30]与鸟群和鱼群到学校的行为是同义的。粒子群算法广泛应用于任务调度、模糊系统、控制与电力系统、分类等领域。根据PSO算法中种群被认为是一个群体。种群中的每个个体都被表示为一个粒子。群包含多个粒子(n),每个粒子都意味着在三维搜索空间上有一个候选解,每一个粒子都与一个特定的速度有关。其中第个粒子用位置表示,速度表示。每个粒子在搜索空间中移动以获得最佳解,每个粒子的运动都是由位置和位置决定的。每个候选解决方案都被视为如。整个群的最佳位置用表示如,用于评估粒子最佳位置的适应值。第个粒子的当前位置和速度更新为公式(5)和(6):
(5)
(6)
其中表示粒子的前一个速度,表示粒子的更新速度。和的存在形式常量。系数表示范围在之间的惯性重量控制前一速度的影响[27]。根据公式(6)依次更新当前值和当前值、粒子以前的位置。标准PSO基本上是针对连续优化问题开发的[19]。基于特征选择的目的,将粒子群算法的实时值扩展到二进制或离散空间,提出了一种粒子群算法(BPSO)的二进制版本[26,28]。在DPSO中,每个粒子都趋向于在一个离散的搜索空间中进行。在BPSO算法的情况下,每个粒子的位置限制在,达到标准化之间的所有实值速度。在BPSO中,在公式(7)和(8)应用函数,使用公式(8)更新每个粒子。
(7)
(8)
其中函数表示一个范围内的随机数。在公式(5)和(6)使用函数对粒子的更新位置进行归一化,其中指粒子的更新速度。如果大于随机生成的数字,则其的位置值表示,这意味着所选择的特征对于下一次更新是必需的。如果小于随机产生的数字,那么的位置值表示,它指定不考虑这些特征。通过减少计算时间可以降低成本,这可以通过设置500个迭代(总体大小为50)来完成。加速度参数和设置为2,惯性重量参数最初设置为0.48,如[17]所示。
算法1使用IBPSO进行特征选择。
步骤1:为IBPSO随机初始化填充。
步骤2:计算每个粒子的适合度值。
步骤3:利用方程中的线性递减惯量权重和收敛因子计算速度参考公式(11)和(12)。
步骤4:对于每个粒子估计和。
步骤5:然后将适合度值与人群的总体最佳值进行比较。如果当前值优于,则更新。
步骤6:根据公式(7)和(8)更新粒子的位置并更新当前值。
步骤7:重复步骤(2),直到满足收敛条件或达到最大迭代次数。
2.4、使用IBPSO的功能选择
2.4.1、候选解决方案表示
在IBPSO中,每个粒子位置值被视为一个二进制位字符串,表示特征的总数()。如果特征的粒子位置值为1,则选择特征;否则不选择特征,如图2所示:
图2 解决方案
2.4.2、目标函数
本研究的主要目的是促进分类准确度的即兴发挥。NB和KNN分类器的精度值用作拟用混合方法的适应度函数[24]。适应度函数通过公式(9)确定:
(9)
其中是指训练数据集的朴素贝叶斯分类精度,表示训练数据集特征子集选择。现有研究中要么使用收敛系数,要么使用惯性重量[25,7,19,26]。惯性重量在勘探开发中起着至关重要的作用。因此,在所提出的IBPSO中,线性减小惯量权重(LDIW)方法与收敛因子结合如公式(10)所示。收敛系数使用公式(11)计算。在LDIW中,和指的是起始值和结束值,是所有迭代的迭代器,公式(12)中的是最大迭代次数。算法1解释了使用IBPSO的特征选择。
(10)
(11)
(12)
算法2使用混合IBPSO _SFLA进行特征选择。
步骤1:在搜索空间上随机初始化每个粒子的位置和速度的总体。
步骤2:计算每个粒子的适应值。
步骤3:为整个人群获取和值。
步骤4:将适合度值与人群的总体值进行比较。如果当前值优于,则重置为当前粒子值。
步骤5:根据公式(13)和(14)更新粒子的速度和位置。。
步骤6:循环回到步骤2,直到满足一个标准(收敛速度达到最大迭代次数)。
步骤7:P的种群可能的解决方案;由虚拟蛙群(n)定义。
步骤8:根据适合度值按降序对青蛙进行排序,并将其划分为称为memeplexes(m)的子集。
步骤9:青蛙表示为,其中表示变量的数目。
步骤10:每一个最坏和最适合青蛙的memeplex分别表示为和。
步骤11:最优值表示为。
步骤12:根据公式(13)和(14)改善身体最差的青蛙。。
2.5、使用SFLA的功能选择
随机蛙跳算法(SFLA)融合了基于遗传的元启发式算法的优点和PSO的社会行为。它包含了一组青蛙的种群,这些青蛙被细分为被称为memeplexes的子集[20]。这些不同的memeplexes可以是不同的青蛙文化,每个都执行本地搜索。在模因中的每一只青蛙都有思想,这些思想可以受到其他青蛙的影响,最终导致模因进化。经过特定数量的进化,在洗牌过程中,思想在模因之间共享。在满足收敛条件之前,本地搜索和洗牌过程将继续进行[21]。F蛙的初始种群是随机产生的。对于S维问题,青蛙表示为。然后根据适合度值按降序对青蛙进行排序。整个人口被分成m个模因。每只青蛙都有n只,即()。青蛙f1朝着Memeplex()移动,接着青蛙f2朝着Memeplex()移动,第只青蛙去了第个memeplex,因此青蛙回到了memeplex(),依此类推[22]。在每一个Memeplex中,青蛙中最好的和最差的分别是和。此外,具有整体最佳适应性的青蛙被表示为。在每个周期中都会使用一个类似于PSO的过程来改善那些身体状况最差的青蛙。因此,具有最差适应值的青蛙的位置根据以下公式(13)和(14)进行调整。算法2解释了混合IBPSO-SFLA特征选择的步骤。
青蛙位置的变化用:
(13)
新青蛙的位置
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19683],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 基于ElasticSearch的面向社交网络的公众舆论监控平台外文翻译资料
- 基于卷积神经网络的智能车牌识别系统研究外文翻译资料
- 基于深度卷积神经网络的ImageNet分类外文翻译资料
- Android 开发的代码推荐:它是如何工作的以及可以改进的地方?外文翻译资料
- 基于传感器网络的城市天然气泄漏在线监测系统外文翻译资料
- 基于深度学习的微博文本情感分析外文翻译资料
- 定义增强现实系统的需求,以克服在协同设计会议中创建和使用设计表示的挑战外文翻译资料
- 为什么人们会玩基于地理位置的增强现实游戏:基于宝可梦Go的研究外文翻译资料
- 基于JSP和PHP的动态Web服务器性能分析与仿真建模外文翻译资料
- GNU libmicrohttpd 库教程外文翻译资料