首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于BM25的勘察设计企业科研项目重复性检测方法研究
引用本文:王扬,曹德威,王剑刚,钱锋,钱常运.基于BM25的勘察设计企业科研项目重复性检测方法研究[J].科技管理研究,2024(4):167-174.
作者姓名:王扬  曹德威  王剑刚  钱锋  钱常运
作者单位:上海勘测设计研究院有限公司
摘    要:中国勘察设计企业的科研重复投入情况日益凸显,这是对资金、人力、信誉乃至科研精神的损耗,不利于尖端技术的孵化,因此通过智能化手段自动识别科研课题重复性,最大化复用科研成果势在必行。结合BM25算法的基础理论,融合勘察设计企业的数据属性,引入领域、专业、负责人等特征值,提出一种聚焦企业内部的科研项目重复性检测方法。该方法涉及4个步骤,包括文本预处理、建立匹配库,根据词频-逆文档频率(TF-IDF)算法、BM25算法分别计算输入课题与匹配库中课题的相似度,最后分析计算结果。相较于TF-IDF算法,BM25算法通过词语饱和度和字段长度规约实现权重控制,针对新能源、工程数字化和信息化领域的研究课题中的计算结果有较高的区分度,有利于挖掘不同领域下高相似性的文本,最大程度避免潜在重复课题的遗漏;同时该算法的计算时间小于0.1 s,可满足商用,在科研课题立项重复性校验、成果重合度判定中发挥支撑作用,计算结果经技术研发人员复验,准确性满足业务管理需要,在勘察设计行业具有推广价值。

关 键 词:科研课题  项目重复性校验  勘察设计企业  BM25  词频-逆文档频率(TF-IDF)  文本相似度
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号