大数据时代媒介生产方式和传播机制的变革研究

大数据时代的来临将给人们的生活带来前所未有的变化,对包括新闻传播业 在内的各行各业产生重大变革。但是,目前国内学界对于大数据的研究还只是停 留在理论层面,而对于大数据在新闻传播领域的研究更是少之又少。纵观目前国 内外学界对大数据的研究,主要分为两大类。要么是在全社会的宏观角度分析大 数据带来的变化,并没有针对新闻传播领域做专门的分析;要么是在新闻传播领 域某一个理论或某一次实践的应用层面,做一点预测性的分析,缺乏理论支持和 现实依据。因此目前国内在新闻传播学领域,对大数据技术及大数据应用的研究, 并没有一个完整、系统的框架。 本文采用跨学科研究方法,将大数据在计算机领域的技术与新闻传播领域的 实践相结合,真正实现大数据技术下新闻媒介的理论分析与实践研究,探求大数 据时代媒介生产方式和传播机制的变革。文章从新闻媒介的理念、新闻的生产方 式、受众与广告、社会舆论、数据的准确性、社会性、有效性、公平性,新闻的 价值标准、媒介生存环境、技术和入力等多个方面多个角度进行分析,力求实现 全面、客观、综合的把握大数据时代媒介的变革与应对的问题,在一定程度上弥 补目前国内该研究领域的空白。 大数据时代使新闻从业人员从思想上树立了“数据为主、服务为王”的理念; 从新闻生产的三个阶段(新闻信息采集、人机协作报道、数据新闻呈现)改变了 新闻的生产方式;进而变革了传统意义上对新闻价值的评判标准,重塑新闻质量 标杆。在与媒介相对应的受众角度,大数据技术实现了对受众的数据化分析,提 升了受众的反馈价值;并在品牌推广方面实现了广告的精准定位,力求找到用户 的需求交叉点。大数据技术对媒介环境的变革,还要求媒介搭建互动信息平台, 加速媒介转型,寻求跨界合作,并培养数据专业人才,改善组织机构,为充分发 掘大数据技术奠定坚实的基础。 但是,大数据是一把双刃剑,随着大数据时代的来l临,人们在拥抱大数据所 带来的变革与进步的同时,也应该清楚地认识到大数据的弊端和缺陷,力求在今 后的发展中予以弥补。无论是在理论层面、实践层面,还是在社会层面、法律层 面,大数据在变革媒介环境的同时,也给新闻媒体带来了很多挑战。相关而非因山东大学硕士学位论文 果的思维模式,使大数据更多的应用于媒介与商业相关的部分,而难以应用于深 度报道;对新闻价值的评判也因为数据新闻缺乏社会性和人文关怀而大打折扣。 由于大数据技术总是将现实问题简单化、机械化、实验室化,忽略了受众的能动 性和现实的偶然性,这些变量会使数据分析的结果缺乏准确性、有效性。对消费 和商业利益的追求,使大数据在媒介生产过程中片面追逐受众喜好,放弃了社会 性和人文关怀,背离了新闻媒体的社会职责,削弱了媒体引导舆论和议题设置的 能力。技术和人才上的缺乏,迫使新闻媒体无法充分利用大数据,只得在时效性 和深刻性之问选择折中的方法。媒体还要防止大数据时代形成数据垄断、数据独 裁的局面,尽量突出自身优势,防止同质化、单一化和肤浅化新闻的出现,同时 还应加强与社会其他领域在隐私保护、能源消耗、数据管控等方面的合作。总之, 大数据是未来科技发展的大势所趋,媒体不应该对大数据技术进行回避或抵制, 反而应该擦亮双眼、审时度势,充分利用大数据技术,共同营造出更加美好的媒 介环境。

  • 2021-06-24
  • 阅读57
  • 下载0
  • 81页
  • pdf

肿瘤、心血管重大疾病临床与组学大数据存储及挖掘技术研究

随着医疗信息技术和生物科技的迅猛发展,生物医疗行业的数据量呈爆炸式 增长。作为生物医疗数据最重要的组成部分,临床与组学数据是指在疾病的诊治 和组学分析中产生的电子病历、检查报告、影像、信号数据、基因序列数据等。 在某些重点专科医院,临床数据的积累已达到百 TB 的规模,而在组学研究领域更 是达到了 PB 级。这些数据的挖掘应用将对研究疾病发生发展规律、提高诊治水平 等具有重大潜在价值。然而,随着海量数据的不断累积和应用需求的更加复杂化, 临床与组学数据存储和挖掘面临着许多新的问题,制约了其更好地实际应用。 为研究适合临床与组学大数据存储和挖掘的高效方法,本文以对人类危害极 大的肿瘤、心血管疾病为例,深入分析了两类疾病在诊治和愈后管理过程中,如 何充分利用已有数据提高诊断正确率、确定科学的治疗方案,使大多数医生均成 为“有丰富医疗经验的高价值”医生。对数据应用过程中面临的多源异构集成存 储,高速并行访问及高效挖掘算法等问题提出了一些解决方案。 首先,在深入分析临床与组学大数据组成和技术特性的基础上,本文将分散、 异构、多源、非结构化的数据分为文档数据、小文件和大文件三类,并以 NoSQL 作为存储底层,MapReduce 作为计算引擎,构建了面向并行数据挖掘的分布式存 储模型 MSPM(Medical Storage Platform for Mining)。该模型实现了三类数据的 一体化集成存储和统一规则访问,并适于并行化的数据分析和挖掘。同时,借助 NoSQL 的自动分片和副本集机制,可满足应用对高可扩展性、高可靠性的需求。 然后,针对 MSPM 模型存在的两个主要性能瓶颈进行了优化。为应对集群系 统失衡问题,提出了综合应用组合调优片键和 FDO-DT(Double Threshold based on Frequence of Data Operation)算法的改进策略,解决了数据自动分片耗时长、开销 大的问题,并实现了数据存储与读写的双均衡;为解决频繁访问原始大文件造成 的系统性能不佳问题,设计了大文件特征库,通过医学文档关键信息抽取、元信 息提取、挖掘结果动态俘获等将大文件的各类常用信息集成在库中,并由对库的 访问转移一部分对大文件的直接操作,显著节约了系统总开销。 最后,为解决经典 Apriori 算法在医疗大数据挖掘中,面临的类型复杂、属性 高维,开销大,结果针对性差等问题,设计了改进的 Apriori-M-DB 算法。通过以 键值对形式统一存储,实现了对复杂异构类型数据的挖掘。并通过 MapReduce 化, 一次扫描选取所有候选项集和兴趣集约束计数等,提高了挖掘的效率和针对性。

  • 2021-06-24
  • 阅读53
  • 下载0
  • 94页
  • pdf