基于数据源分类可信性的真值发现方法研究

网络的普及和电子商务的发展改变了人们信息获取以及消费的方式 .Web 已经成为大多数人 获取信息的重要来源 .与此同时 ,互联网信息质量问题也逐渐凸显 .Web 中存在大量过时 、错误 、虚假 、 片面的信息 .其中 ,不同网站为相同对象提供冲突信息的问题尤为突出 .如何从这些冲突信息中找到正 确信息成为亟待解决的问题 ,这类问题又被称为真值发现问题 .通过对现有真值发现问题解决方法的调 研 ,发现现有方法均未考虑数据源分类可信性差异对真值发现的影响 .因此 ,提出基于数据源分类可信 性的真值发现问题 .提出 2 种方法探测数据源分类可信性差异 ,并采用贝叶斯的方法迭代计算数据源分 类可信性和属性值准确性 .另外 ,通过考虑数据源覆盖率和对象难度对真值发现的影响 ,进一步提高真 值发现算法的准确性 .一个真实数据集的实验结果表明 ,所提方法可以显著提高真值发现的准确性 .

  • 2021-07-01
  • 收藏0
  • 阅读64
  • 下载0
  • 10页
  • pdf
  • 1.40M

评价

评分 :
   *