基于BM25的勘察设计企业科研项目重复性检测方法研究 |
| |
引用本文: | 王扬,曹德威,王剑刚,钱锋,钱常运.基于BM25的勘察设计企业科研项目重复性检测方法研究[J].科技管理研究,2024(4):167-174. |
| |
作者姓名: | 王扬 曹德威 王剑刚 钱锋 钱常运 |
| |
作者单位: | 上海勘测设计研究院有限公司 |
| |
摘 要: | 中国勘察设计企业的科研重复投入情况日益凸显,这是对资金、人力、信誉乃至科研精神的损耗,不利于尖端技术的孵化,因此通过智能化手段自动识别科研课题重复性,最大化复用科研成果势在必行。结合BM25算法的基础理论,融合勘察设计企业的数据属性,引入领域、专业、负责人等特征值,提出一种聚焦企业内部的科研项目重复性检测方法。该方法涉及4个步骤,包括文本预处理、建立匹配库,根据词频-逆文档频率(TF-IDF)算法、BM25算法分别计算输入课题与匹配库中课题的相似度,最后分析计算结果。相较于TF-IDF算法,BM25算法通过词语饱和度和字段长度规约实现权重控制,针对新能源、工程数字化和信息化领域的研究课题中的计算结果有较高的区分度,有利于挖掘不同领域下高相似性的文本,最大程度避免潜在重复课题的遗漏;同时该算法的计算时间小于0.1 s,可满足商用,在科研课题立项重复性校验、成果重合度判定中发挥支撑作用,计算结果经技术研发人员复验,准确性满足业务管理需要,在勘察设计行业具有推广价值。
|
关 键 词: | 科研课题 项目重复性校验 勘察设计企业 BM25 词频-逆文档频率(TF-IDF) 文本相似度 |
|
|