基于层次分类器的专利文本分类模型研究 |
| |
引用本文: | 慎金花,陈红艺,张更平,秦乐洋.基于层次分类器的专利文本分类模型研究[J].情报杂志,2023(8):157-163+68. |
| |
作者姓名: | 慎金花 陈红艺 张更平 秦乐洋 |
| |
作者单位: | 1. 同济大学图书馆;2. 同济大学经济与管理学院;3. 阿里巴巴 |
| |
摘 要: | 研究目的]为提高人工分类效率,降低因分类人员主观知识结构和客观环境因素影响导致的分类错误率,本研究构建了基于层次分类器的专利文本分类模型。研究方法]随机抽取A、D、E、H4个部中的4000条中文发明专利,以其名称和摘要数据为实验对象,通过文本预处理及文本特征表示后,基于KNN、支持向量机、Rocchio和朴素贝叶斯4种机器学习模型,分别探索IPC部、大类、小类和大组层次上的最佳分类模型及其组合。研究结论]实验结果显示,层次结构可有效改善平面分类模型的性能,层次组合模型比层次单一模型拥有更高的分类准确率,各层次的最优分类模型分别是:支持向量机(部)、Rocchio+支持向量机(大类)、Rocchio+朴素贝叶斯+支持向量机(小类)、KNN+朴素贝叶斯+支持向量机+支持向量机(大组)。
|
关 键 词: | 专利分类 文本分类 层次分类 国际专利分类 发明专利 |
|
|