专利发明人英文重名识别判据及效度比较分析CSSCI |
| |
引用本文: | 王道仁杨冠灿傅俊英.专利发明人英文重名识别判据及效度比较分析CSSCI[J].数字图书馆论坛,2016(8):2-9. |
| |
作者姓名: | 王道仁杨冠灿傅俊英 |
| |
作者单位: | 1.中国科学技术信息研究所100038; |
| |
基金项目: | 国家科技支撑计划课题“专利信息支撑科研项目管理应用示范”(编号:2013BAH21B05)资助 |
| |
摘 要: | 本文针对英文专利发明人姓名的字符串匹配问题,利用USPTO发明人姓名的数据集,探索现有字符串匹配算法的适用性。对指向同一发明人不能精确匹配的姓名字符串,分别用10种常用的字符串匹配算法进行处理。比较匹配结果发现:Jaro-Winkler算法对同一发明人姓名字符串匹配效果最好,且结果稳定。通过回归分析可知,杰卡德算法对于发明人的识别效果最佳,基于q-gram的算法在发明人姓名消歧中有重要意义;在发明人消歧中,多种字符串匹配算法的组合运用效果更佳。
|
关 键 词: | 发明人姓名 字符串匹配 Jaro—Winkler算法 杰卡德算法 |
本文献已被 维普 等数据库收录! |
|