英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
ARTICLE IN PRESS
JID: KNOSYS [m5G;March 25, 2017;5:29]
Knowledge-Based Systems 000 (2017) 1–17
Contents lists available at ScienceDirect
Knowledge-Based Systems
journal homepage: www.elsevier.com/locate/knosys
a r t i c l e i n f o
Article history:
Received 21 October 2016
Revised 24 February 2017
Accepted 1 March 2017
Available online xxx
Index Terms:
System and application for weather computation
Temperature forecasting and distribution Mapreduce
Weather data visualization
Polar vortex
Weather data science
迈向天气云计算的数据分析
摘要
本文演示了使用云计算进行天气的创新数据分析,将系统和应用数据科学服务集成在一起,以研究极端天气事件。确定五个面临持续挑战的现有项目,我们的目标是处理,分析和可视化收集的数据,研究影响并报告有意义的发现。我们演示了如何使用云计算技术,MapReduce和优化技术来模拟温度分布和分析天气数据。提出了两个主要案例。第一个案例侧重于根据悉尼,新加坡和伦敦的历史数据研究趋势预测温度,以比较历史和预测的温度。第二种情况是使用五步MapReduce进行数值数据分析和八步可视化过程,用于分析和可视化美国在经历极涡之前,期间和之后的温度分布。就像在洪水期间和之后的英国一样。优化用于涉及云和非云之间多达100个节点的实验,并且在有和没有优化的情况下比较性能。云中60个节点下的性能提升了20%到30%。提出了结果,讨论和比较。我们证明了我们的研究成果,并在论文中彻底解释了如何实现这三个目标:(1)根据历史数据评估趋势,预测三个城市的温度; (2)使用五步MapReduce实现更短的云执行时间和(3)使用八步MapReduce进行优化,实现美国和英国地图温度分布的数据可视化。
1.简介
数据科学是一个跨学科领域,允许不同领域的专家一起学习和合作[1-2]。所有不同类型工作的输出都是数据的形式,它们有不同类型的格式。这允许不同学科的专家调查可以来自相同或不同学科的数据的含义。数据科学有五个共同的特征:数量,速度,种类,准确性和价值。卷指的是已处理和存储的数据的大小和数量。速度是数据创建,处理和分析的速率。品种是指可用的不同类型和格式的数据,可供进一步分析。准确性是数据分析的准确性和有效性。价值是数据科学提供的附加值,例如允许组织保持竞争力和效率[1-3]。它的处理,分析和显而易见提供数据输出对于所涉及的越来越多的部门至关重要。
为了成功分析数据,应采用基础设施,平台和软件即服务方法。在基础架构和平台方面,Data Science的系统依赖性允许开发人员设计和构建系统并理解不同集群,作业,节点和虚拟机之间的关系,以便针对不同场景制定出最佳建议[3, 4]。对于软件即服务,Data Science的软件依赖性允许开发人员设计和开发软件并理解库,算法,API,命令,输出和用户界面之间的关系[5-7]。为了成功开发,对系统和软件的依赖对于确保服务满足预期需求和交付所需任务至关重要。可以使用MapReduce框架作为示例。可以编写一个名为map()的函数,可以将作业发送到不同的节点并将结果返回给系统,从而智能软件可以使用reduce()函数将相关组映射到一起,并根据协作生成输出map()和reduce()函数。协同系统和软件依赖可以实现不同的开发
被称为“一切即服务”(EaaS)的服务类型。 EaaS的概念基于基础架构,平台和软件即服务的开发和集成,以确保联合提供所有系统和软件需求。例如,商业智能即服务(BIaaS)是基于管道方法架构开发的,该架构允许第一个服务的输出成为第二个服务的输入[8]。
天气即服务是一个很好的例子,需要数据科学的系统和软件依赖之间的强大协作。通常这类服务需要超级计算机,智能算法,数据服务,可视化技术来共同交付。天气计算需要系统之间,软件的不同部分之间以及系统和软件之间的良好依赖性,以确保结果快速,准确,重新赞助和交互[9,10]。利用先进技术辅助的大力科学过程有助于气象学家进行天气预报。天气信息对于公众制定相关计划特别有用,例如在晴天和明亮的天气中旅行以及避免在下雪和洪水条件下旅行。在极端天气的情况下,这些信息对公众至关重要。例如,英国在2013年12月至2014年2月期间经历了250年来最潮湿的冬季洪水[11]。成千上万的居民可以提前撤离到合适的地方,以避免洪水造成的破坏性影响,洪水破坏了英国各地的房屋,城镇和建筑物。由于极地涡旋在与英国同期的影响,美国经历了最寒冷的冬季之一,导致几个州经历低于-20°C和-30°C的低温。在同一时期,华南经历了一次最温暖的冬天,平均温度为21摄氏度[12]。一些科学家认为,由于全球变暖和人类活动的激烈,极端天气条件将成为一种常态而不是1%的可能性[13-15]。不可预测的天气有什么影响?在英国,过去几年中不可预知的天气变得越来越普遍。其中包括2006年和2013年最干燥的夏季,2009年和2010年冬季英国大幅冻结以及2011年最潮湿的夏季。有些月份出现“异常”温度,例如2013年最温暖的4月(平均16.7摄氏度)和潜在的温度2011年第二个最酷的夏天(13.6 C)。
使用计算天气预报的第一组科学家是John von Neumann及其同事,他们在20世纪40年代后期对ENIAC计算机进行了第一次实验天气预报[10]。在他们工作的十年内,数值模型成为天气科学的基础,也是计算机科学的一门学科。根据[14,16],由于极端天气,美国每年的经济损失平均超过130亿美元。由于极端天气事件的频率增加,估计的数字可能会上升。改进的天气建模和预报方法对于天气科学的发展至关重要。电子科学界已经展示了天气应用。但是,必须部署数千个CPU和昂贵的基础设施[17]。发布统计处理方法如
使用云计算可以在计算天气模拟的同时降低成本和部署规模。我们将举例说明如何实现性能和可视化以分析天气数据并进行性能评估。应该研究诸如云计算,大数据分析以及云与大数据之间的依赖性等先锋方法,以使天气科学变得可负担,可访问且技术上可行。
我们的论文介绍了如何使用云计算处理数据和大数据分析以基于集成依赖方法呈现结果的案例。我们的论文细分如下。第2节介绍了相关的模型天气预报和支持这些模型的背景理论。第3节说明了执行天气计算的体系结构,系统设计和部署。第4节显示了天气计算的结果,包括三个案例研究以及云与非云之间的比较性能。第5节展示了与美国和英国极端天气相关的数据可视化。第6节将我们的工作与类似的方法进行了比较,并总结了我们的贡献。第7节介绍了结论。
2.背景理论
本节描述了与天气科学相关的背景理论。相关工作描述如下。首先,Camp-bell和Diebold展示了他们的天气预报模型[18]。他们定义了“天气衍生物”这一术语,并将该概念应用于金融衍生品。这包括使用波动来说明时间序列波的概念,这与四个城市1996年至2001年的日平均温度相对应。温度可以建模为正态分布曲线,以显示温度的可能性。温度预测可以采用财务预测方法来估算亚特兰大,芝加哥,拉斯维加斯和费城的气温。结果证实,大多数预期温度在实际温度的95%置信区间内。第二,Plale等。 [19]解释了两个主要的天气预报系统CASA(大气协同适应传感)和LEAD(大气发现链接环境)如何实时地相互作用。它们介绍了每个系统和核心技术之间的系统架构。他们解释了LEAD如何使用工作流应用程序来推导他们的预测,即使他们没有显示技术细节。他们声明使用XML,气象命令和控制,Blackboard可以实现交互。
第三,Li [20]描述了利用e-Science原理并使用Hadoop算法处理其公共云中的应用程序和数据的管道方法。这是云计算的开创性方法,其结果支持他们的方法。然而,他们的方法尚未应用于其他与电子科学相关的专业化,如天气科学。第四,Droegemeier等。
[12]演示了使用面向服务的网格计算来实现动态天气计算。他们使用的架构是LEAD系统。他们通过几个关于阿肯色州的例子展示了雷达反射率的情况。这些包括预测的11个,9个和5个小时的降水强度。其中包括1999年1月29日和2000年3月29日的降水预报。他们还解释了他们的工作流方法,以便采集和分析他们的数据。第五,Demirkan和Delen [21]使用他们面向服务的决策支持系统来分析数据,包括地理空间数据,以及云方法中的分析和大数据。他们已经解释了体系结构及其高级方法,但没有透露他们的实现过程和性能评估。第六,Gao等[22]通过使用Hapdoop处理大地理数据来解释更详细的地理空间数据方法。他们解释了他们的架构和两个提出的算法,这是他们分析大地理数据的主要贡献。它们显示所有数据点并将它们映射到美国地图上以显示其输出。他们只进行了两次性能测试。最后,Baldauf等人[23]的提议可以对天气预报和服务进行统计后处理。
但是,这六个现有项目表明当前面临的挑战有待解决。首先,Campbell和Diebold [18]没有解释有关金融衍生品如何应用于温度预测的足够理论。有必要巩固。其次,[19]中的工作不是互动,而是信息交流。需要使用任何服务来处理数据并分析结果。第三,CASA和LEAD都很昂贵
并不是可以实际设计和实施的系统,因为资金可能会限制设计和实施的规模,而不是每个科学家都能负担得起。第四,如果没有绩效评估,Demirkan和Delen的系统就不够健全[21]。尽管Gao等[22]设计并实现了他们的算法来处理大地理数据,但他们对大数据的定义是数据量而不是数千个数据的大小。最后,Baldauf等[23]的提议要求先进的网格或超级计算机进行天气分析。
这促使我们建立一个可以执行天气模拟和预测的廉价系统。目的是处理,分析和可视化收集的数据并研究任何影响,例如根据2012年数据预测2014年天气,研究2014年极端天气的影响,并确定是否有令人满意的绩效评估。我们收集了2012年至2014年间的数据,重点关注悉尼,新加坡和伦敦等城市。我们研究了2014年在美国和英国发生的极端天气,并在特定日期收集了数据。我们提出了一种基于管道方法的改进架构[20],它可以基于公共云进行设计和实现,以存储我们的代码和私有云,用于架构,以满足实现数据,处理分析和实现数据的可承受成本的要求。通过第3节和第5节讨论的我们提出的技术实现了可视化。我们解释了所使用的数学公式,并弥合了金融衍生品与天气衍生品之间的差距我们使用来自国家气象局[24],大气层[25]和BBC天气[26]的天气数据来展示美国和英国气温的例子,以应对2013年12月至2014年3月期间经历的极端天气。
2.1。预测理论的背景
其中方法f产生与测量相关的误差残差误差和该测量的预测。此模型最适合一次处理较少的t实例。
2.2。基于均值的方法
本节介绍基于平均值的天气预报方法。运行平均值是定义平均值估计值的术语,用于基于均值的方法。它基于历史数据的测量来预测下一次测量的值[8,28,29]。运行平均值表示为
1吨
RUN_AVG(t)=值(i)(3)
t 1中
I = 0
公式(3)计算在时间t进行的测量的平均值,同时使用所有先前的测量数据作为t 1处的测量的预测值。每次测量中的权重随时间线性地减小。原因是运行平均值会在对每个预测进行建模时考虑整个历史测量值。取决于固定长度历史的平均值可以用作预测器,并且还意味着固定给予每个测量的权重。
可以计算固定长度或滑动窗口平均值
如
1吨
SW _AVG(t,K)=值(i)(4)
K 1
我K
= -
其中K = 0是一个整数,表示滑动窗口中使用的样本数。如果K = 0,则SW_AVG将最后一次测量用作唯一的预测变量,然后变为
本节介绍天气预报背后的理论,LAST(t)= SW _AVG(t,0)(5)
三种预测方法如下。
1使用K的值的选择性估计的基于均值的方法可能随时间变化,因此设置是很重要的
K动态地使其适应时间序列。梯度下降
样本均值作为预测。
策略用于实现这一目标[16]。如果K(t)代表的值
2基于中等的方法使用中值估计,即
K在时间t,公式变为
在一段时间内介于95%的信心之内 -
terval(CI)。 erri(t)=(value(t) - SW _AVG(t,K(t) i))2(6)
3使用高级数学建模的自回归方法
由于t和K的值可以在一段时间内改
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19999],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。