肿瘤、心血管重大疾病临床与组学大数据存储及挖掘技术研究

随着医疗信息技术和生物科技的迅猛发展,生物医疗行业的数据量呈爆炸式 增长。作为生物医疗数据最重要的组成部分,临床与组学数据是指在疾病的诊治 和组学分析中产生的电子病历、检查报告、影像、信号数据、基因序列数据等。 在某些重点专科医院,临床数据的积累已达到百 TB 的规模,而在组学研究领域更 是达到了 PB 级。这些数据的挖掘应用将对研究疾病发生发展规律、提高诊治水平 等具有重大潜在价值。然而,随着海量数据的不断累积和应用需求的更加复杂化, 临床与组学数据存储和挖掘面临着许多新的问题,制约了其更好地实际应用。 为研究适合临床与组学大数据存储和挖掘的高效方法,本文以对人类危害极 大的肿瘤、心血管疾病为例,深入分析了两类疾病在诊治和愈后管理过程中,如 何充分利用已有数据提高诊断正确率、确定科学的治疗方案,使大多数医生均成 为“有丰富医疗经验的高价值”医生。对数据应用过程中面临的多源异构集成存 储,高速并行访问及高效挖掘算法等问题提出了一些解决方案。 首先,在深入分析临床与组学大数据组成和技术特性的基础上,本文将分散、 异构、多源、非结构化的数据分为文档数据、小文件和大文件三类,并以 NoSQL 作为存储底层,MapReduce 作为计算引擎,构建了面向并行数据挖掘的分布式存 储模型 MSPM(Medical Storage Platform for Mining)。该模型实现了三类数据的 一体化集成存储和统一规则访问,并适于并行化的数据分析和挖掘。同时,借助 NoSQL 的自动分片和副本集机制,可满足应用对高可扩展性、高可靠性的需求。 然后,针对 MSPM 模型存在的两个主要性能瓶颈进行了优化。为应对集群系 统失衡问题,提出了综合应用组合调优片键和 FDO-DT(Double Threshold based on Frequence of Data Operation)算法的改进策略,解决了数据自动分片耗时长、开销 大的问题,并实现了数据存储与读写的双均衡;为解决频繁访问原始大文件造成 的系统性能不佳问题,设计了大文件特征库,通过医学文档关键信息抽取、元信 息提取、挖掘结果动态俘获等将大文件的各类常用信息集成在库中,并由对库的 访问转移一部分对大文件的直接操作,显著节约了系统总开销。 最后,为解决经典 Apriori 算法在医疗大数据挖掘中,面临的类型复杂、属性 高维,开销大,结果针对性差等问题,设计了改进的 Apriori-M-DB 算法。通过以 键值对形式统一存储,实现了对复杂异构类型数据的挖掘。并通过 MapReduce 化, 一次扫描选取所有候选项集和兴趣集约束计数等,提高了挖掘的效率和针对性。

  • 2021-06-24
  • 收藏0
  • 阅读51
  • 下载0
  • 94页
  • pdf
  • 2.94M

评价

评分 :
   *