英语原文共 38 页,剩余内容已隐藏,支付完成后下载完整资料
一般评估框架针对典型的爬虫
摘要
专题抓取工具正在成为支持应用程序的重要工具,如特殊化的Web门户,在线搜索和竞争情报。随着Web挖掘领域的成熟,文献中提出的不同爬行策略必须通过良好的性能测量来评估和比较常见任务。本文提出了评估专题爬虫的一般框架。我们确定了一组模拟爬行应用程序的不同自然和困难的任务。然后,我们引入一系列性能指标,用于沿着多个维度对搜索者进行公平比较评估,包括适用于Web的精确度,召回率和效率的广义概念。该框架依赖于由人工编辑人员编制并可从公共目录获得的依赖性相关性判断。提出了两种证据来评估爬行页面,从而捕获不同的相关性标准。最后,我们引入一组主题表征来分析跨主题的爬行有效性的可变性。拟议的评估框架综合了专题研究者文献中的一些方法论,以及我们小组进行的若干研究中学到的许多经验教训。总体框架将进行详细描述,然后在实践中通过评估四种
公共爬行算法的案例研究进行说明。
1简介
专题抓取工具,也被称为主题驱动或重点抓取工具,是一类重要的搜索引擎爬行程序。搜索引擎服务于Web用户的普遍流行。相比之下,为了响应特定的信息需求,局部爬行器被激活。这些可能来自个人用户(查询时间或在线爬虫)或来自具有共同兴趣的社区(主题搜索引擎和门户网站)。搜索引擎底层的搜索器被设计为尽可能全面地抓取Web的快照;主题爬虫的目标是针对与触发主题相关的Web部分。这些爬虫的优势在于它们实际上可以由丰富的上下文(主题,查询,用户程序)来驱动,在上下文中解释页面并选择要访问的链接。今天,专题抓取工具已成为许多专业服务的基础,如投资门户,竞争情报工具和科学文献库。
从早期的广度[33]和深入的第一个爬虫[14]开始,定义了爬虫研究的开始,现在我们看到了各种爬虫算法。 还有Shark Search [18],这是De Bra的Fish Search [14]更具侵略性的变体。 有些爬行者的决定很大程度上依赖于基于链接的标准[12,15,6]。 其他人则利用词汇层次结构提供的词汇和概念知识[11]。 还有一些人强调关于包括通过相关反馈收到的主题的情境知识[1,29,25]。 在一篇配套文章中,我们研究了与爬虫算法有关的几个机器学习问题,包括例如自适应在抓取中的作用和算法的缩放[27]。
一个正在增长势头的研究领域是对主题爬虫的评估。 信息检索研究的丰富遗产比较了非Web环境中的检索算法,并提供了许多可用于此目的的评估方法和措施。 但是,鉴于爬虫评估问题的维度显着不同,适当评估策略的设计是一个有效的挑战。
在一般意义上,爬虫可以评估其检索“良好”页面的能力,然而,一个主要障碍是识别这些好页面的问题。在操作环境中,真实用户可以判断页面的相关性,因为这些页面被抓取允许 我们来确定抓取是否成功不幸的是,涉及真实用户评估网络抓取的有意义的实验是非常成问题的,例如网络的规模表明,为了获得合理的抓取概念,必须进行 大量的抓取,即涉及大量的用户。
对实时Web进行爬网还会造成严重的时间限制。 因此,爬行而非短命的爬行对用户来说看起来过于沉重。 我们可以选择通过向用户显示完整抓取的结果来避免这些时间负载 但是这又限制了爬网的范围。 接下来我们可以选择间接方法,比如通过评估它们支持的应用程序来推断爬虫强度。 但是,这假设潜在的抓取工具是公开指定的,并且还禁止评估新的抓取工具。
因此,我们认为尽管获得基于用户的评估结果仍然是理想的,但在这个时候,寻求用户独立的机制来评估爬行性能是适当和重要的。 此外,在不久的将来,大多数直接的信息消费者更可能是代理人类和其他Web代理人的代理人,而不是人类本身。 因此,在爬行时间和爬行距离的参数可能超出基于用户的实验所强加的人类接受限制的情况下探索爬行者是非常合理的。
我们对爬虫文献[1,2,4,6,8,11,10,17,18,29,37]和我们自己的经验[21,24,25,26,22,31,32,27]的分析表明,表明通常,在开始比较爬行算法的实验时,会做出几个关键决策。这些不仅影响研究的直接结果和价值,还影响与未来爬虫评估进行比较的能力。在本文中,我们提供了基于这些决策的爬虫评估研究的一般框架。我们的目标是展示这个框架,并展示它在评估四个“现成”爬行器时的应用。我们的通用框架有三个不同的维度。第一个方面是关于爬行任务的性质(第2节)。这包括考虑如何确定主题以及如何识别种子和目标相关页面。第二个维度处理有效性和效率分析的评估指标(第3节)。框架的最后一个维度通过检查流行度和权威性及其对爬虫行为的影响等特定特征来更详细地研究主题(第4节)。我们将这个框架作为一种手段,通过实验系统地增加我们对履带式技术的理解。在这些部分之后,我们采用四个“现成”爬行器,并使用此框架对其进行比较(第5节)。我们在第6节中总结了我们案例研究中的实验和总体评估框架的讨论。
2爬行任务的性质
抓取任务的特点是具有几个特征。 其中包括如何定义主题,选择用于开始爬网的种子页面的机制以及主题相关目标页面相对于种子页面的位置。 显然,种子本身与该主题相关的爬行任务可能比种子和目标之间被一些非平凡链路距离分开的任务难以挑战。 这部分将讨论这些问题。
2.1主题和描述
与围绕某种查询构建的问题不同,“体育”或“美国开放”或“炭疽”这样的话题描绘了一个特定的话语领域。 例如[1,5,6,18,11,9]中所示,由于我们可能会检查其检索与主题相关的页面的能力,因此这些主题是用于评估搜寻器的便捷机制。 主题可以从不同的来源获得,例如要求用户指定它们。 一种方法是从诸如雅虎或开放目录等概念的分层索引中推导出主题[11,26,32]。 需要注意的一个关键点是所有主题都不相同。 “2002美国公开赛”和“tradeembargo”等主题分别比“体育”和“商业”更具特色。 此外,一个给定的主题可以用几种不同的方式来定义,如下所述。
主题规范在我们的框架中起着非常关键的作用。 我们首先要问:给定一个概念层次如何指定主题? 一种方法是使用叶节点概念作为主题[26]。 这种方法的问题在于选定的主题可能处于特定的不同层次。 在我们的框架中,我们通过从概念层次结构的根目录中预定距离(TOPIC LEVEL)的概念节点导出主题来控制这个问题,即它们大约在同一层次的特定层次。 一旦标识了主题节点,主题关键字就通过连接目录树根节点标签和主题节点形成。
我们不是从单个节点构建主题,而是采用更一般的方法,并从给定最大深度(MAX DEPTH)的子树构建它们,这些深度的根源是远离原始概念树根部的TOPIC LEVEL链接。 这里使用的深度是指子树的高度。 图1以TOPIC LEVEL = 2的概念层次结构构建了MAX DEPTH = 2的主题子树。
在我们的框架中,子树使用系统的方式来描述主题。此外,通过将参数DEPTH从0改变到MAX DEPTH,可以生成给定主题的替代描述。如果我们单独使用主题子树的根(DEPTH = 0)的信息,那么我们得到最少量的主题描述。如果此外,我们使用来自子树(DEPTH = 1)中下一级节点的信息,那么我们将获得该主题的更详细的视图,直到涉及子树的叶节点(DEPTH = MAX DEPTH) 。嵌入外部链接的描述性文本和标记主题子树根目录页面中外部链接的锚文本都可用于提供主题的最小描述。请注意,外部页面的这些文本描述由专业人员编辑撰写,独立于生成所描述页面内容的作者。可以添加从较高深度节点提取的类似文本以提供该主题的增强描述等。因此,一个主题可能有
depth 0 |
root |
|
targets |
||
topic
depth 1 level targets
depth 2 |
0 |
depth=0 |
|||||
depth=1 |
|||||||
targets |
|||||||
1 |
1 |
1 |
depth=2 |
||||
2 |
2 |
2 |
2 |
2 |
2 |
2 |
图1:来自分层目录的主题子树的插图。 本例中的主题具有TOPIC LEVEL = 2和MAX DEPTH = 2。 主题节点标有其深度。 从给定深度的节点链接的外部页面是该深度的目标。 阴影区域表示对应于0到MAX DEPTH之间的深度子树的目标集合,即对主题的逐渐更宽的解释。 更广泛的解释(更浅的灰色)包括更多的更具体的目标。
最大深度 1套描述,其详细程度不同。 较深处的描述包括较深处的描述。 图2以对应于叶子话题的例子说明话题描述的概念,即DEPTH = MAX DEPTH = 0。
2.2目标页面
由于很难让用户判断检索到的网页是否具有相关性,因此使用间接方法来识别目标网页更为典型。 基于分层概念的索引或这方面的一些选择。 这些目录旨在通过将入口点提供给一组概念性组织的网页来帮助用户。 因此,报纸上的雅虎目录页面将导向“今日美国”,“纽约时报”和其他新闻媒体的网站。 例如,可以将外部链接指向的资源视为目录页面所表示概念的相关集合:“今日美国”和“纽约时报”可能被视为目标相关页面的一部分, 报纸。
在我们的框架中,与主题描述并行,主题目标页面也由主题子树的深度来区分。 因此,当主题由DEPTH = 0的子树描述时,则相关目标集由来自主题子树根节点的外部链接组成。 图2描述了这样一个例子。在DEPTH = 1时对应于主题描述的目标集合还包括来自该级别的主题节点的外部链接等等。 因此,对于单个主题,有MAX DEPTH 1个目标页面集合,其集合在更高的深度处,包括在较低深度处的集合。
2.3种子页面
种子页面的规范是定义爬网任务的关键方面之一。 在几篇论文[11,4,26,22,31]中使用的方法是从假定相关的页面开始抓取工具。 换句话说,选择一些目标页面来形成种子。 这种类型的抓取任务通过示例搜索模式来模仿查询,其中用户提供示例相关页面作为抓取的起点。 作为替代策略
Topic
Description
Targets
图2:来自Open Directory(dmoz.org)的主题节点及其关联主题关键字,说明和目标集的图示。 在这个简略例子中,主题具有TOPIC LEVEL = 5。 由于这是一个叶子节点(没有子主题),唯一可能的目标集合对应于DEPTH = 0。
这些相关的种子也可以从搜索引擎获得[31,39]。 这个想法是查看抓取工具是否能够找到该主题的其他目标页面。 这个抓取任务隐含的假设是相关的页面往往是彼此的邻居[21,23]。 因此,爬虫的目标是保持专注,即保持在发现相关文档的邻域内。
更难以抓取的问题是当种子与目标页面不同时。 在这种情况下,当抓取开始时,关于目标页面的可用信息较少。 链接不仅在所指向的特定页面方面变得重要,而且在将相关文档更深入到路径中的可能性方面也变得重要[15]。 这个问题也是非常现实的,因为相当普遍的用户不能指定已知的相关页面,并且搜索引擎也可能不返回相关页面。 除少数例外情况外,文献中很少考虑第二项任务。 [1]中的这一部分与这个任务有点相关,因为作者从诸如Amazon.com的一般点开始抓取。 尽管Cho等人 [12]在一般的观点,即斯坦福大学网站上开始他们的抓取,主题在他们的研究中有相当原始的角色。
我们的框架采用一般方法,并提供了一种机制来控制抓取任务的难度。 可以指定种子和目标之间的距离DIST = 0,1,2,...链接。 因此,当DIST = 0时,我们有一些简单的抓取任务,其中一些目标形成种子。 随着DIST的增加,爬虫所面临的挑战也随之增加。 以下过程为给定主题实现了最多N个SEEDS种子页面的选择:
select_seeds(DIST,N_SEEDS,N_TOPICS,N_QUERIES){n_sample = MAX_QUERIES /(N_TOPICS * DIST); seed_set = targets(DEPTH = 0);
重复DIST次数{
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23160],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。