面向大数据的流处理器数据通路结构优化

随着互联网技术的发展与应用的深化,各种数据呈爆炸式增长,数据密集型 应用的负载特性与传统应用具有很大区别,传统处理器利用时空局部性提升性能 的方法将不再适用。因此,针对大数据问题的微处理器体系结构研究成为了学术 界关注的热点,流处理器体系结构就是其中值得探索的一个方向。图搜索问题是 一类典型的大数据问题,Graph500 就采用了 BFS 算法作为其 benchmark。本文面 向 BFS 算法研究面向大数据处理的流处理器体系架构,研究数据通路的测试分析、 设计和优化。本文主要从以下几个方面展开研究: 第一,通过对混合 BFS 并行算法的访存行为以及数据摆放方式的研究,发现 了在既定的流处理器体系结构下该算法的访存模式。并且基于 FPGA 和 DDR3 平 台,测试和研究存控在不同访存模式下的带宽表现,接着通过更改 MIG 内核,定 制了一个适于 BFS 算法的存控访存策略。经过访存策略的选择和定制后,使得混 合 BFS 并行算法在既定流处理器体系结构下的性能得到了 51%的提升。 第二,设计了一系列该流处理器架构下的性能测试工具与分析方法。为了评 估流处理器性能,提出了包括用平均队列长度分析通路堵塞情况、用模块平均时 延判断数据通路功能模块性能等一系列分析方法,并依据方法设计了相关测试工 具。测试工具以多应用对比并精准定位模块的方式,设计了包括计数标记法在内 的多种测试具体实现。设计的测试工具和分析方法在该流处理器结构下有很强的 适用性,并且能够通过测试分析确定该处理瓶颈所在。 第三,通过研究影响数据通路总控接口带宽的各个因素,设计了一个性能较 好且资源开销合适的数据通路总控接口,达到了总控接口高带宽的目标。并且研 究了数据通路并行化方式,基于该流处理器架构下,设计了一套拥有包括三级缓 存、轮序仲裁等机制在内的高并行度交叉开关。新交叉开关的实现使得处理器整 体性能得到了 37.5%的提升。 第四,根据流处理器体系结构架构特点,设计了相适应的远程访存机制,并 依此实现了远程访存接口。使得流处理器可以进行多节点间的远程访存操作,为 多节点并行处理大数据问题提供了硬件支持。最后通过 Top-down、Bottom-up 和 混合算法验证了远程访存机制的正确性,性能分别为 0.89MTEPs、5.23MTEPs 和 74.44MTEPs

  • 2021-06-24
  • 阅读56
  • 下载0
  • 88页
  • pdf

基于大数据的数字图书馆信息服务研究

随着云计算、物联网、社交网络等新兴技术的发展,数据呈现爆炸式的增长, 海量数据的出现表示大数据时代的到来。数字化信息广泛存在于人们身边,如何从 海量信息中获取更多、更好、更准确、更及时、更有用的信息越来越成为人们关注 的问题,而作为人们获取信息的重要渠道之一的图书馆有义务将用户需要的信息提 供给用户。然而在如今如何从海量数据中获取有用信息,再将有用的信息反馈给用 户,已成为图书馆信息服务发展的趋势。析将大数据与数字图书馆联系在一起成为 一种必然趋势,将大数据技术融入数字图书馆信息服务为用户提供更细致,更个性 化的信息服务。 本文在前人的研究的基础上,针对大数据对数字图书馆信息服务的影响进行分 析。从比较全面的角度探讨基于大数据的数字图书馆信息服务的目标、内容和方法, 希望在将大数据应用到数字图书馆的信息服务方面起到一定研究价值。并为数字图 书馆在大数据环境下如何进行信息服务提供理论参考。 文章主要分为四部分。 第一部分介绍了大数据和数字图书馆的相关理论,对大数据和数字图书馆的概 念和特征进行描述,比较发现它们之间的契合点,从数字图书馆的发展着手描述了 将大数据和数字图书馆结合的可行性。 第二部分描述了数字图书馆的信息服务,包括数字图书馆信息服务的概念,特 点,服务的模式,归纳出现有的数字化图书馆信息服务的不足和未来发展趋势,将 大数据服务引进到数字图书馆的信息服务中。 第三部分阐述了基于数字图书馆信息服务的内容基础上,在大数据时代数字图 书馆如何进行信息服务。主要包括基于大数据的数字图书馆资源发现,资源存储, 资源组织,资源检索的内容并对其进行具体分析。 第四部分探讨了在大数据环境下数字图书馆的信息服务的内容上建立基于大 数据的数字图书馆服务的模式,描述了大数据的数字图书馆服务的特点,达到的目 标和服务的类型。

  • 2021-06-24
  • 阅读52
  • 下载0
  • 51页
  • pdf

基于大数据研究模式对重症烧伤患者临床数据的挖掘与分析

研究背景 重症烧伤是一种严重的创伤,其病情凶险,并发症多,治疗难度大。其中脓毒症 (sepsis)和多器官功能不全综合症(multiple orgall dys矗mction s),11drome,MODS)是 重症烧伤患者治疗中最常出现的并发症,也是导致重症烧伤患者死亡的重要原因。近 年研究发现,MODS的本质就是严重脓毒症或脓毒性休克。早期诊断并预警脓毒症休 克或MODS是重症烧伤患者临床救治中的关键问题之一。随着信息技术的发展,大数 据已经开始逐渐进入到医学领域,特别是在临床医学研究中。大数据技术对繁杂临床 数据的分析及处理能力十分出色,有助于深入了解重症烧伤患者的病程变化规律,辅 助临床决策。 研究目的 采用大数据处理的基本思想及技术对重症烧伤患者的临床数据进行挖掘和分析, 探索重症烧伤患者临床数据的模式特征,寻找脓毒症休克的预测模型。 研究方法 通过电子病历系统及纸质病历收集纳入107例重症烧伤患者的临床数据。对数据 进行预处理后,首先采用无监督的算法(如分层聚类、基于主成分分析的分层聚类等) 和机器学习等方法对数据进行分析,探索患者聚类亚组分类和临床结局之间的关系。 而后使用质心算法对数据进行降维处理,提取患者发生脓毒症休克前的特征性数据变 化趋势,建立脓毒症休克的预测模型并进行验证。采用R i386 3.1.2、Matlab 7.0和SPSS 18.O等软件对数据进行数学计算和统计分析。通过比较F值筛选主要变量,使用线性 随机效应模型分析、提取数据变化趋势。最后使用C语言开发能够预测脓毒症休克发 生的通用软件。 结果: 1、本课题采集的重症烧伤患者临床数据时相点共2257个,每个时相点有58个观 察指标,共130906个数据值。 2、重症烧伤患者的临床数据可使用HCPC方法分为10个亚类。 6 万方数据第三军医大学硕士学位论文 3、通过比较不同亚类的组间均值差异,得出:体温(T)、呼吸频率(R)、舒 张压(DP)、收缩压(SP)、尿量(血ne)、血肌酐(CR)、血尿素氮(BUN)、 总胆红素(TBIL)、血小板(PLT)、肌酸激酶(CK)、氧分压(p02)、二氧化碳 分压(pC02)、乳酸(1actate)、碳酸氢根(HC03。)、氧合指数(oxygenation)为差 异性最明显的指标。使用上述15个指标替代原来的58项指标,可对聚类分类的标准 进行简化。 4、重症患者聚类分组与其临床结局关系密切。其中clusterl、cluster2、cluster4、 cluster8、cluSter9和clusterl0分类中患者好转的几率分别为91.00%、89.70%、60.50%、 66.40%、71.70%和80.70%。C1uster3和cluster5分类中患者死亡的几率分别为70.50% 和82.10%。cluster6和cluster7分类中患者发生脓毒症休克的几率分别为77.90%和 70.40%。 5、通过对患者质心值随时间变化的趋势图分析可知,死亡患者的质心变化大体呈 下降趋势,而存活患者相反,呈总体上升趋势。 6、通过提取重症烧伤患者发生脓毒症休克前的质心值变化特征,建立了脓毒症休 克的预测模型: 少{『=(0.2527280+N(0,6.450e-05))+(-0.0251963+N(0,1.273e-05))x+占i, 其中勺为随机因素,均为第i个患者第j个时相点的质心值,x为住院时间。 (0.2527280+N(0,6.450e.05))为模型的截距部分,(.O.0251963+N(O,1.273e.05)) 为模型的斜率,二者为一组服从正态性分布的数组。 7、对预测模型进行验证得到其:灵敏度为75.8%,特异度为67.3%,总体诊断准 确率为78.5%。 8、在上述研究的基础上,采用计算机C语言开发出相应的重症烧伤患者脓毒症 休克预测分析软件,分为网页版及单机版两种。可在线使用或与医疗系统耦合后直接 提取临床数据进行分析,以方便临床应用。 结论 1、重症烧伤患者的临床数据可使用聚类分析方法进行分类,不同的分类与不同的 临床结局之间关系密切。通过确定患者临床数据的实时分类,可对患者预后进行预测。 2、使用大数据技术可以将重症患者的58项临床数据近似地使用其中的15项数据 进行简化替代。 7 万方数据第三军医大学硕士学位论文 3、重症烧伤患者的临床数据可以使用质心算法进行降维,并且发生脓毒症休克前 重症烧伤患者的质心值会出现特征性变化, 者是否具有发生脓毒症休克的风险。此外, 床结局进行预测。

  • 2021-06-24
  • 阅读61
  • 下载0
  • 52页
  • pdf

大数据时代媒介生产方式和传播机制的变革研究

大数据时代的来临将给人们的生活带来前所未有的变化,对包括新闻传播业 在内的各行各业产生重大变革。但是,目前国内学界对于大数据的研究还只是停 留在理论层面,而对于大数据在新闻传播领域的研究更是少之又少。纵观目前国 内外学界对大数据的研究,主要分为两大类。要么是在全社会的宏观角度分析大 数据带来的变化,并没有针对新闻传播领域做专门的分析;要么是在新闻传播领 域某一个理论或某一次实践的应用层面,做一点预测性的分析,缺乏理论支持和 现实依据。因此目前国内在新闻传播学领域,对大数据技术及大数据应用的研究, 并没有一个完整、系统的框架。 本文采用跨学科研究方法,将大数据在计算机领域的技术与新闻传播领域的 实践相结合,真正实现大数据技术下新闻媒介的理论分析与实践研究,探求大数 据时代媒介生产方式和传播机制的变革。文章从新闻媒介的理念、新闻的生产方 式、受众与广告、社会舆论、数据的准确性、社会性、有效性、公平性,新闻的 价值标准、媒介生存环境、技术和入力等多个方面多个角度进行分析,力求实现 全面、客观、综合的把握大数据时代媒介的变革与应对的问题,在一定程度上弥 补目前国内该研究领域的空白。 大数据时代使新闻从业人员从思想上树立了“数据为主、服务为王”的理念; 从新闻生产的三个阶段(新闻信息采集、人机协作报道、数据新闻呈现)改变了 新闻的生产方式;进而变革了传统意义上对新闻价值的评判标准,重塑新闻质量 标杆。在与媒介相对应的受众角度,大数据技术实现了对受众的数据化分析,提 升了受众的反馈价值;并在品牌推广方面实现了广告的精准定位,力求找到用户 的需求交叉点。大数据技术对媒介环境的变革,还要求媒介搭建互动信息平台, 加速媒介转型,寻求跨界合作,并培养数据专业人才,改善组织机构,为充分发 掘大数据技术奠定坚实的基础。 但是,大数据是一把双刃剑,随着大数据时代的来l临,人们在拥抱大数据所 带来的变革与进步的同时,也应该清楚地认识到大数据的弊端和缺陷,力求在今 后的发展中予以弥补。无论是在理论层面、实践层面,还是在社会层面、法律层 面,大数据在变革媒介环境的同时,也给新闻媒体带来了很多挑战。相关而非因山东大学硕士学位论文 果的思维模式,使大数据更多的应用于媒介与商业相关的部分,而难以应用于深 度报道;对新闻价值的评判也因为数据新闻缺乏社会性和人文关怀而大打折扣。 由于大数据技术总是将现实问题简单化、机械化、实验室化,忽略了受众的能动 性和现实的偶然性,这些变量会使数据分析的结果缺乏准确性、有效性。对消费 和商业利益的追求,使大数据在媒介生产过程中片面追逐受众喜好,放弃了社会 性和人文关怀,背离了新闻媒体的社会职责,削弱了媒体引导舆论和议题设置的 能力。技术和人才上的缺乏,迫使新闻媒体无法充分利用大数据,只得在时效性 和深刻性之问选择折中的方法。媒体还要防止大数据时代形成数据垄断、数据独 裁的局面,尽量突出自身优势,防止同质化、单一化和肤浅化新闻的出现,同时 还应加强与社会其他领域在隐私保护、能源消耗、数据管控等方面的合作。总之, 大数据是未来科技发展的大势所趋,媒体不应该对大数据技术进行回避或抵制, 反而应该擦亮双眼、审时度势,充分利用大数据技术,共同营造出更加美好的媒 介环境。

  • 2021-06-24
  • 阅读57
  • 下载0
  • 81页
  • pdf

肿瘤、心血管重大疾病临床与组学大数据存储及挖掘技术研究

随着医疗信息技术和生物科技的迅猛发展,生物医疗行业的数据量呈爆炸式 增长。作为生物医疗数据最重要的组成部分,临床与组学数据是指在疾病的诊治 和组学分析中产生的电子病历、检查报告、影像、信号数据、基因序列数据等。 在某些重点专科医院,临床数据的积累已达到百 TB 的规模,而在组学研究领域更 是达到了 PB 级。这些数据的挖掘应用将对研究疾病发生发展规律、提高诊治水平 等具有重大潜在价值。然而,随着海量数据的不断累积和应用需求的更加复杂化, 临床与组学数据存储和挖掘面临着许多新的问题,制约了其更好地实际应用。 为研究适合临床与组学大数据存储和挖掘的高效方法,本文以对人类危害极 大的肿瘤、心血管疾病为例,深入分析了两类疾病在诊治和愈后管理过程中,如 何充分利用已有数据提高诊断正确率、确定科学的治疗方案,使大多数医生均成 为“有丰富医疗经验的高价值”医生。对数据应用过程中面临的多源异构集成存 储,高速并行访问及高效挖掘算法等问题提出了一些解决方案。 首先,在深入分析临床与组学大数据组成和技术特性的基础上,本文将分散、 异构、多源、非结构化的数据分为文档数据、小文件和大文件三类,并以 NoSQL 作为存储底层,MapReduce 作为计算引擎,构建了面向并行数据挖掘的分布式存 储模型 MSPM(Medical Storage Platform for Mining)。该模型实现了三类数据的 一体化集成存储和统一规则访问,并适于并行化的数据分析和挖掘。同时,借助 NoSQL 的自动分片和副本集机制,可满足应用对高可扩展性、高可靠性的需求。 然后,针对 MSPM 模型存在的两个主要性能瓶颈进行了优化。为应对集群系 统失衡问题,提出了综合应用组合调优片键和 FDO-DT(Double Threshold based on Frequence of Data Operation)算法的改进策略,解决了数据自动分片耗时长、开销 大的问题,并实现了数据存储与读写的双均衡;为解决频繁访问原始大文件造成 的系统性能不佳问题,设计了大文件特征库,通过医学文档关键信息抽取、元信 息提取、挖掘结果动态俘获等将大文件的各类常用信息集成在库中,并由对库的 访问转移一部分对大文件的直接操作,显著节约了系统总开销。 最后,为解决经典 Apriori 算法在医疗大数据挖掘中,面临的类型复杂、属性 高维,开销大,结果针对性差等问题,设计了改进的 Apriori-M-DB 算法。通过以 键值对形式统一存储,实现了对复杂异构类型数据的挖掘。并通过 MapReduce 化, 一次扫描选取所有候选项集和兴趣集约束计数等,提高了挖掘的效率和针对性。

  • 2021-06-24
  • 阅读53
  • 下载0
  • 94页
  • pdf