Web大数据环境下的不一致跨源数据发现

中不同数据源之间的数据不一致是一个普遍存在的问题，严重影响了互联网的可信度和质量．目前数据不一致的研究主要集中在传统数据库应用中，对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少．针对跨源Web数据的多源异构特性和Web大数据的5V特征，将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型；研究不同类型的web数据不一致特征，建立不一致分类模型、一致性约束机制和不一致推理代数运算系统；从而在跨源Web数据一致性理论体系的基础上，实现通过约束规则检测、统计偏移分析的Web 不一致数据自动发现方法，并结合这两种方法的特点，基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法．该框架在Hadoop平台上对多个B2C电子商务大数据进行实验，并与传统架构和其他方法进行了比较，实验结果证明该方法具有良好的精确性和高效性．

 2021-06-21
收藏0
阅读434
下载0
14页
pdf

2.68M

分享至:

声明：该方案内容由用户上传，其观点仅代表作者本人；中服云系信息发布平台，仅提供方案内容存储空间服务。如因作品内容、版权和其它问题需要同本站联系的，请联系029-88386725。

评价

相关方案

低空基础设施发展研究报告（2025）

当前，世界百年变局加速演进，新一轮科技革命和产业变革？深入发展，低空经济作为新质生产力的重要组成部分，正以前瞻？性、引领性姿态加速崛起，成为推动经济结构优化升级、塑造高？质量发展新动能的关键领域。

阅读1634
下载1

华为数字化转型之道

首先从华为的视角总结了企业对于数字化转型的应有的共识，以及从战略角度阐述了华为为何推行数字化转型，然后给出了华为数字化转型的整体框架(方法论)，以及企业数字化转型成熟度评估的方法，帮助读者在厘清华为开展数字化转型工作的整体脉络的同时，能快速对自身的数字化水平进行自检，

阅读1583
下载4

2025年车路云一体化系统云控基础平台功能场景参考架构报告2.0

汽车智能化网联化融合发展已经成为全球政府、产业界的发展共识，各国通过升级政策法规、推动测试示范、加速创新应用等方式推动智能网联汽车产业发展。2024年1月，我国启动智能网联汽车“车路云一体化”应用试点，推动车路云一体化从技术验证迈向规模化应用。

阅读1519
下载3

最新上线

2026中国制造业精益白皮书

刚刚过去的2025年，中国制造业正站在人口红利结束、全球供应链重构与智能制造时代加速的十字路口。面对竞争加剧、客户需求更迭迅速、成本压力持续上升，“内卷”已成常态的形势下，企业必须建立可持续的卓越运营能力。从1999年成立至今，北京冠卓咨询已在中国服务超过250家从优秀向卓越迈进的工厂，包括数十家上市公司与世界500强在华工厂。本白皮书基于我们过去25 年的一线项目数据、行业趋势洞察与工厂改善经验，旨在为中国制造业提供。

阅读28
下载0

工作场所中的人工智能

端到端重新思考工作是创造价值的前提越来越多的组织正在使用AI进行"创新”，构建新的商业模式。端到端重新设计工作流程的公司在价值捕获和员工满意度方面表现优于仅部署工具的公司。差距不断扩大，驱动力来自更清晰的路线图和对人才的更深入投资。

阅读19
下载0

2026循环工程研究报告

从提示词到循环表达问题只是第一步，经营反馈才是关键.。为什么现在出现循环工程开场与核心判断|模型、工具、长任务界面同时成熟

阅读19
下载0

医药产业发展形势及“十五五”展望

市场经济体制改革，对外开放窗口打开，药品GMP开始推行，药品专利制度建立;地方国有企业、集体企业大量改制，MNC在华投资建厂;大量肿瘤、心血管疾病、代谢类疾病等慢病药上市，外企原研药和国内品牌仿制药引领市场增长; 全球原料药中心向中国、印度转移; 医药工业产值保持了约20%的年均增长速度; 2008年中国药品市场规模居全球第5位，2008年的医药工业总产值达到8434亿元。