基于句子级索引的数据实时去重方法及系统

本发明提供了一种基于句子级索引的数据实时去重方法及系统,包括:索引构建步骤:对数据构建句子级索引;数据存储步骤:将构建的句子级索引放入ES集群和Redis集群的索引进行存储,所述Redis集群存储预定时间内的数据,所述ES集群存储所有数据;实时去重步骤:对待去重的数据进行历史相似性数据检索,根据待去重的数据的文本长度选择相应的相似度计算方法计算与历史相似性数据检索结果的相似度,根据相似度进行去重,以及形成新的句子级索引并添加到ES集群和Redis集群的索引中。本发明针对不同长度数据,采用不同算法,同时,对海量历史数据采用句子集索引,充分结合ES和Redis的优点进行去重加快查询、实时去重。

  • 2021-06-24
  • 收藏0
  • 阅读69
  • 下载0
  • 13页
  • pdf
  • 316.69M

评价

评分 :
   *