大数据环境下支持概率数据范围查询索引的研究
随着数据规模的不断增长,大数据管理具有重要意义.在众多数学模型中,因为概率模型可以将海量数据 抽象成少量概率数据,所以它非常适合管理大数据.因此,研究大数据环境下的概率数据管理具有重要意义.作为 一种经典查询,基于概率数据的范围查询已被深入研究.然而,当前研究成果不适合在大数据环境下使用.其根本 原因是这些索引的更新代价较大.该文提出了索引 HGD-Tree 解决这一问题.首先,该文提出了一系列算法降低新 增数据的处理代价.它可以保证树结构平衡的前提下快速地执行插入、删除、更新等操作.其次,该文提出了一种基 于划分的方法构建概率对象的概要信息.它可以根据概率密度函数的特点自适应地执行划分.此外,由于作者提出 的概要是基于比特向量,上述策略可以保证索引以较低空间代价管理概率数据.最后,该文提出了一种基于位运算 的方法访问 HGD-Tree.它可以用少量的位运算执行过滤操作.大量的实验验证了算法的有效性.
- 2021-06-24
- 阅读69
- 下载0
- 18页
- pdf