英语原文共 22 页,剩余内容已隐藏,支付完成后下载完整资料
医疗保健中的大数据分析----一个系统的文献综述和实际实施的路线图
Sohail Imran, Tariq Mahmood, Ahsan Morshed, and Timos Sellis, Fellow, IEEE
摘要:医疗信息管理系统(HIMSs)的出现继续产生大量的医疗保健数据,以满足全球范围内的病人护理、合规和监管要求。对这些大数据的分析为发现知识提供了无限的潜在结果。例如:医疗保健中的大数据分析(BDA)可以帮助确定疾病的病因,产生有效的诊断,通过提高医疗服务提供的效率以及治疗的有效性和可行性,提高服务质量保障,准确预测重新入院情况,加强临床护理,并确定节约成本的机会。然而,任何领域的BDA实现通常都是复杂的和资源密集型的,故障率很高,没有指导实践者的路线图或成功策略。在本文中,我们提出了一个全面的路线图,从BDA在医疗(病人护理)领域的洞见,在系统的文献回顾的基础上。我们首先确定医疗保健的大数据特性,然后回顾BDA在学术研究中的应用,重点是NoSQL数据库。我们还确定了这些应用程序的局限性和挑战,并证明了NoSQL数据库在解决这些挑战和进一步加强BDA保健研究方面的潜力。然后我们提出并描述了一种被称为医疗领域的最先进的BDA架构,它解决了当前所有的BDA挑战,并且基于最新的Zeta大数据范式。我们还提出了成功的策略,以确保Med-BDA的工作,同时概述BDA应用于医疗保健的主要好处。最后,我们比较了我们的工作与其他12个特征相关的文献评论,以证明我们的工作的新颖性和重要性。我们工作的上述贡献是集体独特的,并为临床管理人员、从业人员和专业人员提供了一个路线图,以便在他们的组织中成功地实施BDA计划。
索引术语:大数据分析BDA、大数据架构、医疗保健、NoSQL数据存储、病人护理、路线图、系统文献综述。
- 导言
医疗信息管理系统(HIMSs)的出现正在产生大量以病人为中心、粒度级的医疗数据。这一数据的高速度影响到医院和诊所与其病人之间的关系,因此有必要使用分析方法来了解患者和从业人员等临床实体的需要、态度、偏好和特点。因此,现在需要HIMSs使用最新的大数据工具和技术来实现不同的数据部署、管理和分析策略,以便利用和处理异构医疗数据转换成为有价值和有用的见解。事实上,大数据已经促使使用新的体系结构来传输HIMSs的操作模型和以数据为中心的体系结构。此外,随着与广泛分布的系统高度兼容的系统开发方法的出现,医疗保健中的大数据正在迅速变化,特别是用于大数据摄取、存储、管理、查询和分析的非关系NoSQL技术,例如通过使用MongoDBrsquo;s和Apache Hadoop的生态系统。
分析大数据或大数据分析(BDA)的过程可以处理大量、高速的数据流,从而实现个性化医学,这为医生提供了对个人健康更全面(深入)的理解。例如,BDA可用于改进非辅助人类推理中的诊断治疗决策。对BDA潜在好处的关注从未在研究论文、技术博客和视频中消退,激励研究人员设计解决方案来解决上述问题。然而,在过去十年中,BDA在多个业务领域提出了挑战。由于缺乏标准化、快速发展的技术栈、复杂的体系结构设计、难以学习的技能集、高资源和高成本要求,以及数据管理、存储、访问和分析等方面的挑战,人们对大数据技术投资犹豫不决。另一个问题是在BDA团队和业务方面缺乏标准的通信协议,BDA团队通常没有足够的业务领域背景知识,无法根据业务需求对分析进行建模,业务方也没有适当的分析知识(算法、技术栈等)。根据个人需要调整和指导BDA结果。事实上,Gartner估计有85%的大数据和BDA项目在2019年由于上述问题而失败。医疗保健中的BDA应用程序也(目前)受到这些问题的困扰。
在本文中,我们深入研究了BDA在医疗保健部门的应用领域,特别是在病人护理方面,因为大多数医疗保健大数据源与病人护理有关,大多数与BDA相关的医疗保健研究工作也是如此。我们的目的是为临床医生提供BDA在医疗保健中应用的路线图。在此之前,研究人员已经将数据科学、商业智能和数据仓库技术应用于加强病人护理。这些应用程序虽然有用且数量众多,但创建时使用的数据集非常有限,而且在存储大数据的情况下无法保证它们的可用性。他们也不足以证明临床使用。大数据比传统的基于数据挖掘的分析更加复杂、多样和庞大,需要不同的数据管理工具和技术来获得更好的洞察力。考虑到大数据空间的迅速扩展和病人护理的重要性,必须清楚地调查和确定BDA在这一领域的确切应用、它们所取得的效益以及在这一领域进一步研究需要解决的困难挑战。
我们在本文中对路线图的设想是全面和独特的,并基于以下要求。我们最初需要定义适用于医疗保健的大数据的特性,众所周知,HIMSs在一般水平上集成、管理和同步大数据,其特征是4V(体积、速度、变化、值)。我们需要了解这4V在医疗保健方面的意义,并检查它们是否符合目标数据集。自2007年以来,快速扩展和强大的NoSQL技术单独解决了许多大型数据管理问题,特别是通过使用Apache Hadoop及其生态系统。因此,我们需要通过学术研究或其他类型的在线内容来调查和描述当前在医疗保健领域的NoSQL应用程序,并强调这些应用程序所取得的好处。然后,我们需要确定医疗保健大数据社区所面临的确切挑战,无论是否使用这些NoSQL数据存储。事实上,需要给出一个路线图,通过突出NoSQL数据库对医疗保健部门尚未开发的潜力,以具体的方式解决这些挑战。为此,需要提供指导,特别是在医疗保健BDA的实现架构方面。为BDA设计一个软件架构是复杂的,因为有许多分析任务需要在一个复杂而庞大的技术栈上相互交互。Lambda和kappa架构提供了一些指导但这些都有严重的限制。新引入的Zeta体系结构解决了这些问题,我们认为,如果能够适当地形式化,那么对于医疗保健大数据公司来说,它是一个理想的解决方案。架构建议还需要与成功策略相结合,因为近年来许多BDA项目由于缺乏领导BDA项目的战略方向而失败。
我们通过两个主要的研究问题(MRQ1和MRQ2)来解决路线图规范的上述要求。我们将MRQ1定义如下:
1、MRQ1:什么是医疗大数据,如何在使用BDA应用程序的研究中对其进行分析,这些应用程序在帮助病人、医生和其他医生方面有哪些挑战和好处?
为了回答MRQ1,我们将其分为以下四个子研究问题(SRQs):
- SRQ1:医疗数据集是否显示了大数据的特性和属性?(见第IV至B节)
- SRQ2:在将BDA应用于医疗领域的研究文献中发现了哪些挑战?(第五节回答)
- SRQ3:BDA在医疗保健研究文献中的应用,特别是在NoSQL技术方面有哪些应用?(第六节回答)
- SRQ4:BDA应用在医疗保健方面有什么好处?(第七节回答)
MRQ2以MRQ1的结果为基础,我们将其定义如下:
2、MRQ2:不断发展的NoSQL技术能否解决当前的BDA挑战,这种解决方案最相关的BDA体系结构是什么,以及如何确保该解决方案在临床和医疗行业获得成功?
为了回答MRQ2,我们将其分为以下三个SRQs:
- SRQ5:在应对BDA应用于医疗保健方面的挑战方面,最先进和快速发展的NoSQL技术栈的潜力是什么?(第八节回答)
- SRQ6:如何使用包含NoSQL和其他大数据技术的BDA体系结构作为医疗保健部门未来BDA实现的指导?(第九节回答)
- SRQ7:卫生保健专业人员可以采用哪些实用策略来确保BDA体系结构的成功执行?(第十节回答)
论文的其余部分按以下方式排列。第二节介绍了系统文献综述的方法,第三节描述了大数据的相关背景,第四节描述了医疗保健大数据的重要维度以及从相关文献中提取的大数据特征(SRQ1)。在第五节中,我们识别并分类了相关文献(SRQ2)中的挑战,在第六节中,我们描述了BDA保健设置(SRQ3)的所有相关NoSQL应用程序,然后描述了第七节(SRQ4)中确定的好处。在第八节中,我们确定了NoSQL数据库对改善医疗保健BDA应用程序(SRQ5)的潜在好处,接着我们提出了Med-BDA体系结构在第九节(SRQ6)中的BDA保健和在第十节(SRQ7)中的成功策略,以允许从业者在他们的组织中实施这些改进。在第十一节中,我们比较了我们的工作对12个特征的贡献与其他有关BDA医疗保健的相关文献评论,最后总结了我们的论文在第十二节的未来研究方向。
二、研究方法
为了回答SRQ1-SRQ7,我们对以下研究领域进行了系统的文献回顾:医疗分析、医疗保健中的大数据应用、医疗保健中的BDA应用、NoSQL保健应用程序和NewSQL保健应用程序。NewSQL是业界首选的NoSQL数据库类型,因为它们提供了与关系数据库类似的ACID保证。我们的搜索查询(后面描述)是基于与这些领域相关的更流行的术语。我们选择了这些领域,以包括市场上的一整套大数据技术。我们特别感兴趣的是比较流行和成功的解决方案,如ApacheHadoop和MongoDB,以及Amazon(AWS)和Microsoft(Azure)的云解决方案。我们针对所有类型的学术研究内容以及非研究内容(例如,技术博客和公司网站)。在研究内容上,我们选择了谷歌奖学金,这是对计算机科学内容最全面的搜索,以及其他四个著名的来源,即IEEE、Springer、Elsevier和ACM。剩余资料来源的内容(威利、泰勒和弗朗西斯等)由google学者检索,通过相互合同将所有其他计算机科学相关来源的内容进行索引。医疗保健研究内容也由谷歌学者编制索引,例如美国国家医学图书馆(www.ncbi.nlm.nih.gov)。从2005年开始,我们把重点放在研究上,但如果我们认为这是必要的话,我们不会忽视更多的历史内容。我们选择门德利,因为它的使用增加和更好的功能,以管理我们的引文后,调查了其他工具。为了检索非研究内容,我们使用了google搜索引擎。
我们采用以下三步的方法从我们的Mendeley数据库中筛选出相关的研究文章子集。在第一步中,我们根据标题过滤文章,即这些标题在多大程度上与我们选定的研究领域相匹配。在第二步,我们根据摘要过滤第一步的文章,在第三步,我们根据他们的研究内容过滤第二步的文章(在阅读了前2页之后)。以下是六个基本的搜索查询:“大数据”、“NoSQL”、“NewSQL”、“大数据工具”、“大数据技术”和“大数据分析”。我们将每个查询与“医疗保健”结合起来,然后与“医疗分析”结合起来,总共提供了18个查询。我们认为这些查询具有足够的通用性,可以提取与我们的子研究问题相关的内容,即挑战、应用程序、体系结构、好处、潜力和医疗保健大数据的成功事例。
在表一给出了我们的过滤方法的结果。标题过滤给了我们260篇文章,其中我们过滤了150篇经过抽象过滤,最后,99篇文章经过文本过滤,我们用它来回答我们的七个子研究问题。此外,表二显示了我们的260个标题过滤的文章与数字源有关的分布情况;大多数文章是由Google学者检索的(70篇),而IEEE提供了最少数量的相关论文(33篇),ACM和Springer都提供了55篇奇数文章。最后,Google搜索引擎检索了4个相关的技术博客,我们的18个搜索查询都是在标题过滤阶段检索到的。在表三中,我们显示了我们选择的99篇文章的内容类型分布情况,其中大部分发表在期刊上(74篇),而会议和其他出版方法的频率相对较低。在表四中,我们显示了这99篇关于SRQ1-SRQ7的文章的分布情况;在这里,括号表示重复,因为给定的文章可以回答多个子研究问题。讨论BDA医疗保健挑战的文章是最常见的,其次是应用程序、大数据特性、BDA在医疗保健方面的好处和潜力。专注于BDA架构的使用或介绍成功策略的文章最少,而且没有一篇文章提出任何体系结构或提出路线图。此外,图1显示了99篇文章的年度分布情况,图1显示了2011至2014年出版物中定义良好的峰值,这与几个NoSQL数据库的日益流行引起了人们对BDA应用程序的兴趣,特别是MongoDB(2010年引入)、Redis(2009)、Apache Hadoop(2007)、Apache Spark(2014)加速Hadoop和AWS云服务(2009年)。至少在我们提取的论文中使用Hadoop和MongoDB证明了这一点。然而,自2017年以来,由于医疗保健数据和BDA流程的复杂性,学术研究明显减少。电信部门也出现了这种趋势。因此,学术和企业保健公司显然需要本文提出的全面路线图来解决它们的BDA实现问题,并从数据集中提取价值。为了进一步钻研,我们提供了260篇论文的分解(通过标题过滤),涉及图2(六个基本查询)、图3(六个查询与医疗保健(HC)相结合)和图4(六个查询与医疗分析(HA)相结合的数字源搜索查询的分布)。在标题过滤阶段,使用“大数据HA”搜索查询检索了所有四个技术博客。下面给出了我们可以从这些数字中得出的一些重要见解:
1、被炒作的术语“大数据”和“大数据分析”是作者使用频率最高的,在大多数相关内容中被检索, 而“NoSQL”、“NewSQL”、“技巧”和“Tools”检索的相关文章相对较少。
2、对于“大数据”和“大数据分析”这两个术语,内容在所有数字来源之间的分布似乎是一致的。
3、“医疗保健”这—术语更常被作者使用(并检索到更多的相关内容)与“医疗分析”。
4、用“大数据”和“大数据分析”检索的大量论文讨论了大数据特性、挑战、好处等更通用的主题,但没有提出任何路线图或具体的基于NoSQL的应用程序来增强和激励这一领域的研究;在用其他关键字检索的论文中,这在一定程度上已经做到了。
5、总的来说,关于BDA在医疗保健中的NoSQL应用程序以及通过大数据工具和技术解决它们的实现问题的研究显然是有限的。
自从互联网出现以来,公司数据的数量一直在增加,如今,在零售、金融、医疗保健和其他有代表性的部门,每天处理兆字节的数据已成为普遍做法。社交网络平台的兴起使大数据的规模进一步扩大到了千兆字节(Petabytes)和亚字节(ExTB),
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[605883],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。