提高推荐系统对滥发讯息者的稳定性外文翻译资料

 2022-12-18 04:12

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


提高推荐系统对滥发讯息者的稳定性

Cheng-Jun Zhang, An Zengb, Yanzhen Quc

摘要:推荐算法的准确性和多样性一直是推荐系统研究的热点。一个好的推荐系统不仅要有较高的准确性和多样性,还要有足够的鲁棒性来抵御垃圾邮件的攻击。然而,推荐鲁棒性问题在文献中受到的关注相对较少。本文系统研究了不同垃圾邮件发送者行为对不同推荐算法推荐结果的影响。在经典KNN方法的基础上,结合用户购买物品的内在相似性,提出了一种改进算法。该算法有效地提高了对垃圾邮件攻击的鲁棒性,从而在虚假用户存在于在线商业系统时,在推荐的准确性和多样性方面优于传统算法。

关键词:推荐系统,二部图网络,虚假用户

一 研究背景介绍

互联网的出现和普及给个人带来了巨大的信息。然而,随着互联网的快速发展和互联网上信息的不断增加[1,2],人们从海量的信息中获取他们需要的信息变得越来越困难。其结果是,信息的利用率显著下降,导致严重的信息超载问题。解决信息超载问题的一个很有前途的方法是通过推荐系统[3,4,5,6],根据用户以往的行为记录向用户推荐信息和产品。与搜索引擎相比,推荐系统通过分析用户的兴趣偏好来进行预测[7,8]。一旦用户的偏好被推荐系统提取出来,一小部分相关的产品就会被推荐给用户。为了在不同的环境下能够正常工作,人们开发了许多不同的算法,如基于内容的分析[9,10]、光谱分析和迭代自洽细化等,这些算法主要用于过滤不相关的信息。一些基于物理原理的算法也被用来设计推荐算法,如质量扩散[11,12,13]和传导过程[14,15,16]。将质量扩散和热传导过程相结合[17,18],可以得到一种混合算法[19,20,21],其推荐精度[22,23]和推荐多样性[24,25]均优于原两种算法。

目前许多主流推荐算法都是基于用户相似性[26]的。如果两个用户选择了许多共同的项目,那么他们将被分配具有高度相似性。这类方法的成功之处在于,那些购买过许多普通物品的人将来更有可能拥有相同的偏好。然而,在实际网络中,不可避免地会存在一些虚拟的冗余信息,影响推荐系统[27]的精度。例如,在电子商务网站中,有一些不负责任的用户倾向于在系统中随机选择,从而误导了推荐系统[28,29]。更糟糕的是,在互联网上,一些公司可能会雇佣“互联网水军”发布虚假信息,误导用户。例如,互联网水军可能被雇佣来发布对一部烂电影的好评,从而误导推荐系统,使其误以为这部电影很受欢迎,并推荐给真实的用户。这些问题在许多电子商务网站日益猖獗,给推荐系统带来了巨大的挑战。本文通过在推荐系统中添加虚拟用户,研究这些虚假信息对推荐系统的影响。虚拟用户根据不同的垃圾邮件策略与商品建立购买关系。研究发现,当虚拟用户随机或仅与某一类商品关联时,其行为对推荐的准确性影响不大。然而,当每一个虚假用户的边缘的一部分链接到最小众或最受欢迎的项目,另一部分随机链接到项目时,推荐系统的推荐精度会随着虚拟用户的增长而迅速下降。与此同时,推荐的多样性将显著下降。为了提高推荐算法的鲁棒性,我们首先使用KNN方法[30],并证明了KNN方法能够有效地抵抗干扰信息。这是因为实际用户在购买商品时通常有一定的偏好。因此,真实用户购买的商品之间应该有较高的相似性。然而,虚拟用户并没有固定的偏好,其购买行为完全是由投资者安排的。因此,虚拟用户购买的物品的相似性会相对较低。基于这一假设,我们提出了一种基于KNN方法的改进算法,改进后的算法显著提高了推荐的准确性和推荐的多样性。

2 相关的作品

在过去的几十年里,用户对商品或服务的评论信息为社交网络中的其他用户提供了重要的参考信息。然而,随着大量虚假用户混入系统,大量虚假信息被发布,极大地误导了用户[31,32]。此外,本署亦发展了多种侦测方法,以识别系统内的滥发讯息者。这些方法利用评论者的行为、文本相似性和评级模式来识别来自在线系统[33]的垃圾邮件发送者。在电子邮件系统中,识别和过滤垃圾邮件的方法有两种:一种是为每个用户维护一个白名单和黑名单,通过识别邮件发送者的身份来识别垃圾邮件发送者[3,12,17]。二是分析邮件内容,通过邮件中的关键词过滤垃圾邮件发送者。还有一种基于DNS的垃圾邮件过滤技术,它通过维护一个已被识别为垃圾邮件发送者的IP地址列表来过滤垃圾邮件发送者[3,12,17]。在在线商业和社交网络中,也有许多方法可以检测垃圾邮件行为。Zhou等人提出了一种基于相关关系的声誉算法来处理基于web的评级系统[34]中的垃圾邮件发送者。在该算法中,每个用户的受欢迎程度由该用户的评分向量和相应项目加权平均评分的相关系数来调整。Zhu等人提出了一种基于用户社交关系和社交行为[35]的SMFSR方法来识别社交网络中的垃圾邮件发送者。Benevenuto等人通过自定义视频用户[36]的属性和社会特征,利用分类策略识别社交网络中的垃圾用户amaong视频用户。lasas - casas等人提出了一种名为SpaDeS的方法来识别源网络[37]中的垃圾邮件发送者。该方法依赖于监督分类技术,仅根据网络级指标进行分类。因此,它不需要具体的信息内容。Facebook开发的公司提出了一种EdgeRank算法来识别垃圾邮件发送者,该算法根据每个帖子的某些属性为这篇帖子打分。得分较低的岗位更容易出现言语不连贯行为[31,36,37]。虽然对复杂网络中的垃圾邮件传播者的研究已经有了大量的研究,但是对于垃圾邮件传播者对推荐系统的影响还缺乏系统的研究。本文旨在系统研究垃圾邮件行为对推荐系统的影响。通过向系统中添加虚拟用户,我们可以模拟不同类型的垃圾邮件行为。我们关注垃圾邮件发送者的行为如何影响推荐系统的性能,包括推荐的准确性和多样性。最后,我们提出了一种有效的算法,成功地避免了垃圾邮件发送者使用不可靠的信息,保持了较高的推荐精度。

3 研究技术基础

3.1数据集

在本文中,我们将使用的数据集是来自在线系统的数据子集:Amazon、RYM和Delicious。每个数据都可以由用户和项组成的二部网络表示。用户和项之间的链接表示用户以前选择了项。表1给出了这些数据集的描述。在本文中,我们将主要使用Amazon数据展示结果。RYM和Delicious的结果显示在补充信息(SI)中。

表1:实证数据的基本统计

3.2 评价指标

为了测量推荐算法的准确性,必须将真实数据中的链接随机分为训练集ET和探测集EP两组。推荐算法利用训练集的信息生成推荐列表。使用探针集与推荐列表进行比较,最终测量推荐的准确度。通常ET占整个数据集90%的链接,EP占其余10%的链接。

衡量推荐准确度的一个常用指标是排名分数。排名评分指标是根据每个用户计算的。对于目标用户,我们首先关注他/她没有选择的项目,然后根据这些项目的推荐分数按降序生成这些项目的排名列表。

然后,对于探测集中用户选择的每一项,我们需要计算该项在这个排序列表中的排名。例如,用户的推荐列表长度为L,探测集项的排名为a,则该用户项的排名得分为a/L。我们需要计算所有探测集条目的排名得分的平均值。排名分数的表达式如下:

ialpha;表示连接用户i和项alpha;的调查链接。根据排名分数的定义,推荐准确度越高,排名分数的值越低。

精确度的另一个指标是精确度指数。与排名评分指标不同,精确度只计算推荐列表中的前L项的准确度。假设目标用户推荐列表中的m 项是他/她的探测集项,则该用户的精度可以表示为:

整个系统的精度可以通过对所有用户的平均P值得到。

多样性是推荐中的另一个重要问题。多样性度量是为不同用户计算推荐列表(前L项)项之间的汉明距离。假设用户i和用户j的推荐列表中有Lrsquo;个公共项,则这两个用户之间的随机汉明距离可以计算为

显然,汉明距离越大,推荐多样性越高。整个系统的多样性是通过对所有用户对的平均H得到的。

此外,我们还考虑了一个称为新奇度的度量,它计算出用户推荐列表中前L项的平均程度。在数学上,奇度可以表示为:

U是系统中用户的数量,O示用户i列表中前L个位置的一组项目。显然,新颖性指标值越小,表明推荐系统推荐的项目越不受欢迎,否则越受欢迎。

3.3 推荐算法

为了研究垃圾信息传播者对推荐系统的影响,我们比较了真实网络和不同比例垃圾信息传播者网络中推荐算法的准确性和多样性指标。我们主要考虑两种推荐算法:质量扩散(mass diffusion, MD)[11,12,13]和协同过滤(collaborative filtering, CF)[14,15,16]。我们的重点是如何影响推荐性能,当我们逐步添加垃圾邮件发送到用户-项目二部网络。将MD方法[11,12,13]应用于具有N个用户和M个项目的用户-项目二部网络。由两部分构成的网络可以用邻接矩阵表示如果一个用户 i 已经选择了一个项目alpha;,我们表示邻接矩阵中的元素aialpha;= 1,否则aialpha;= 0。MD是一种个性化的推荐算法。它需要应用于每个用户。对于用户 i ,第一步是为用户 i 选择的每一项分配一个资源单元,然后将这些资源分布在这个二部图网络中。我们使用向量f i来记录所有项上的初始资源。也就是说,所获得的资源项alpha;可以表示为fialpha;。为了进行推荐用户,我们将向量fi每个元素设置为fialpha;= aialpha;。然后,从用户开始传播过程可以表示为 ~fi = W fi, W是每个元素的扩散矩阵计算:

这里, kbeta; 项 beta; 的程度, kl 是用户 l 的程度。最后建议分数等于它扩散过程中的接受每一项资源得分。

CF算法[3,4,7,8]根据用户和项目的相似性进行推荐。在本文中,我们考虑了基于用户的CF,它依赖于用户相似度来进行推荐。为了推荐物品给目标用户 i ,该算法首先计算用户 i 和其他用户 j 之间的拓扑相似性。最终,每个推荐给用户 i 的物品 alpha; 的得分可以表示为:

4 总结 滥发讯息者所建立的连结,可能会在很大程度上篡改协同过滤算法的用户/项目相似性,以及大规模扩散算法中所接收的资源,导致每个用户的推荐列表发生重大改变。这最终会降低推荐的准确性。图1给出了一个MD推荐算法的例子。图1(a)为MD向目标用户推荐商品时的两步扩散过程(蓝色)。图1(b)也显示了将两个垃圾邮件发送者添加到网络中的过程。显然,在添加了两个垃圾邮件发送者之后,项目的最终接收资源将发生更改。为了模拟垃圾邮件发送者在用户-条目二部网络上的行为,我们让每个垃圾邮件发送者按照以下策略连接真实网络中的一定数量的边。

图 2

策略1:每个垃圾邮件用户随机连接到项目。

策略2:每个垃圾邮件用户只连接到最小度的项目。

战略3:有些边连接到最小度项,其余边连接到最大度项。

战略4:有些边连接到最大程度的项上,其余边随机连接到项上。

战略5:一些边连接到最小度的项上,其余边随机连接到项上。

在仿真中,我们发现前三种策略的垃圾邮件发送者对推荐精度的影响有限。换句话说,MD和CF推荐算法对这三种垃圾邮件行为都是稳定的。

然后我们将策略4和策略5进行比较,发现策略4的推荐准确度下降得更快。我们的研究结果表明,如果网络水军想要攻击推荐系统,当边缘的一部分连接到最热门的项目,而另一部分随机连接物品时,推荐系统将受到明显的影响。

我们进一步研究垃圾邮件发送者的数量如何影响推荐性能。我们将垃圾邮件发送者所连接的条目的比例固定为50%,并在图2(c)(d)中绘制了推荐准确度对垃圾邮件发送者数量比例的依赖关系。在这两个子图中,横轴是垃圾邮件发送者添加到原始网络的比例,纵轴是推荐精度。每个滥发讯息者所携带的边缘数目分别设定为10、20、30、40及50条。从图中可以看出,随着垃圾邮件传播者所携带的边缘的增加,准确率下降得越来越快。同时,我们发现CF的准确率下降率小于MD,这意味着CF算法对垃圾邮件发送者的鲁棒性高于MD。

研究了冷连接项和随机选择项的比例对推荐精度的影响。如图2 (a)(b)所示,横轴为连接到冷项的链接的比例(其余链接随机链接到冷项上),纵轴为精度测量的推荐精度。可以很容易的看出,当冷条目在总边缘的比例为20%左右时,推荐的准确性受到的影响最为显著。

为了更深入地了解垃圾邮件发送者对推荐性能的影响,我们考虑了上述四个推荐指标,并在垃圾邮件发送者比率和冷项比率的参数空间中研究了它们的值。在仿真中,我们将每个垃圾邮件发送者的边缘数固定为真实网络的平均用户度。排序得分、精度、多样性和新颖性的热图如图3所示。横轴是垃圾邮件发送者链接到冷条目的比率。当比值为0时,所有边都随机连接到冷件上;当比值为1时,所有边都随机连接到冷件上。纵轴表示网络中垃圾邮件发送者的比例。从图3中可以看出,当垃圾邮件发送者比例较大时,冷条目比例在20%左右时推荐多样性最大。这是因为许多垃圾邮件发送者成功地将一些原始的冷项推入推荐列表。由于每个用户推荐列表中的冷项不同,用户推荐列表之间的汉明距离变大,导致推荐多样性高。

图 3

以往的研究结果表明,虚假用户进入网络会影响推荐算法的准确性。为了抵御虚假用户的影响,一个可能的解决方案是使用KNN方法。例如,在大规模扩散算法,在从用户向物品的扩散过程中,我们对所有用户获得的资源值进行排序,只考虑alpha;分数最高的小部分用户资源,并且将它们的资源分散回项目端。KNN解析器在一定程度上可以抵抗垃圾邮件传播者的干扰。这是因为大多数垃圾邮件发送者并不在顶部,alpha;用户最高的扩散资源(最高相似度)到目标用户。KNN方法通过消除这些垃圾邮件发送者来提高推荐的准确性。KNN方法的有效性表明,提高推荐算法鲁棒性的关键是开发一种识别垃圾邮件发送者的方法,消除垃圾邮件发送者在计算项目推荐评分中的贡献。

一般来说,真实用户在选择项目时具有相对稳定的偏好,因此真实用户所选择的项目之间的相似性通常较高。然而,虚假用户的购买行为是由互联网水军公司指派的。因此,垃圾邮件发送者购

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20021],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。