颠覆性技术是一个具有复杂的内在结构的技术群。从空间维度来看,颠覆性技术是包含了主导技术、辅助技术、支撑技术的复杂技术群,涉及多学科、多领域。在此背景下,运用科学计量的方法对颠覆性技术进行科技评价和科学技术演变规律探索面临挑战,实质表现为数据检索。本文探索了一种基于机器学习的专利数据集构建新策略,将专利检索任务作为机器学习的二分类任务,类似于信息检索中基于主动学习的查询分类思想,并提出了将 F-measure特征最大化方法与CNN (convolutionalneural networks) 模型相结合的文本分类改进方法。本文以人工智能 (artificial intelligence,AI) 技术域为例进行训练实验,实验结果的准确率、召回率和 F1 值分别达到 98.01%、97.04% 和97.89%,这表明本文提出的策略能够精准地识别人工智能专利,提高了专利检索的准确率和召回率,以利于构建精、 准、全的人工智能技术域专利数据集。