首页 | 本学科首页   官方微博 | 高级检索  
     检索      

LDA模型在专利文本分类中的应用
引用本文:廖列法,勒孚刚,朱亚兰.LDA模型在专利文本分类中的应用[J].现代情报,2017,37(3):35-39.
作者姓名:廖列法  勒孚刚  朱亚兰
作者单位:江西理工大学信息工程学院, 江西 赣州 341000
基金项目:国家自然科学基金项目"创新网络异质性与企业创新绩效关系研究"(项目编号:71462018);江西省研究生创新专项基金资助项目"基于领域知识的LDA主题模型"(项目编号:YC2015-S304)。
摘    要:对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。

关 键 词:LDA  主题模型  专利文本分类  主题相似度  

The Application of LDA Model in Patent Text Classification
Authors:Liao Liefa  Le Fugang  Zhu Yalan
Institution:School of Information Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China
Abstract:A new text classification method based on LDA model is proposed to solve the problem of traditional VSM text categorization.The LDA topic model was used to model the patent text corpus,and the document-topic and topic-feature word matrix of the patent text was extracted to achieve the purpose of dimension reduction and to extract semantic links between documents.The class-topic matrix was introduced,Topic semantic extension,hierarchical classification using theme similarity,and KNN classification by subclass.Experimental results:Compared with the KNN patent text classification method based on vector space text representation model,this method can obtain higher classification evaluation index.
Keywords:LDA  topic model  patent text classification  topic similarity  
点击此处可从《现代情报》浏览原始摘要信息
点击此处可从《现代情报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号