LDA模型在专利文本分类中的应用 |
| |
引用本文: | 廖列法,勒孚刚,朱亚兰.LDA模型在专利文本分类中的应用[J].现代情报,2017,37(3):35-39. |
| |
作者姓名: | 廖列法 勒孚刚 朱亚兰 |
| |
作者单位: | 江西理工大学信息工程学院, 江西 赣州 341000 |
| |
基金项目: | 国家自然科学基金项目"创新网络异质性与企业创新绩效关系研究"(项目编号:71462018);江西省研究生创新专项基金资助项目"基于领域知识的LDA主题模型"(项目编号:YC2015-S304)。 |
| |
摘 要: | 对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。
|
关 键 词: | LDA 主题模型 专利文本分类 主题相似度 |
The Application of LDA Model in Patent Text Classification |
| |
Authors: | Liao Liefa Le Fugang Zhu Yalan |
| |
Institution: | School of Information Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China |
| |
Abstract: | A new text classification method based on LDA model is proposed to solve the problem of traditional VSM text categorization.The LDA topic model was used to model the patent text corpus,and the document-topic and topic-feature word matrix of the patent text was extracted to achieve the purpose of dimension reduction and to extract semantic links between documents.The class-topic matrix was introduced,Topic semantic extension,hierarchical classification using theme similarity,and KNN classification by subclass.Experimental results:Compared with the KNN patent text classification method based on vector space text representation model,this method can obtain higher classification evaluation index. |
| |
Keywords: | LDA topic model patent text classification topic similarity |
|
| 点击此处可从《现代情报》浏览原始摘要信息 |
| 点击此处可从《现代情报》下载免费的PDF全文 |