基于数据源分类可信性的真值发现方法研究
网络的普及和电子商务的发展改变了人们信息获取以及消费的方式 .Web 已经成为大多数人 获取信息的重要来源 .与此同时 ,互联网信息质量问题也逐渐凸显 .Web 中存在大量过时 、错误 、虚假 、 片面的信息 .其中 ,不同网站为相同对象提供冲突信息的问题尤为突出 .如何从这些冲突信息中找到正 确信息成为亟待解决的问题 ,这类问题又被称为真值发现问题 .通过对现有真值发现问题解决方法的调 研 ,发现现有方法均未考虑数据源分类可信性差异对真值发现的影响 .因此 ,提出基于数据源分类可信 性的真值发现问题 .提出 2 种方法探测数据源分类可信性差异 ,并采用贝叶斯的方法迭代计算数据源分 类可信性和属性值准确性 .另外 ,通过考虑数据源覆盖率和对象难度对真值发现的影响 ,进一步提高真 值发现算法的准确性 .一个真实数据集的实验结果表明 ,所提方法可以显著提高真值发现的准确性 .
- 2021-07-01
- 阅读76
- 下载0
- 10页
- pdf