首页 | 本学科首页   官方微博 | 高级检索  
     检索      

文本分类中基于图模型的特征提取方法
引用本文:甄志龙,曾晓勤,韩立新.文本分类中基于图模型的特征提取方法[J].情报科学,2011(8).
作者姓名:甄志龙  曾晓勤  韩立新
作者单位:河海大学计算机与信息学院;通化师范学院计算机科学系;
基金项目:国家自然科学基金资助项目(60971088;60673186)
摘    要:文本分类是处理和组织大量文本数据的关键技术之一。为了更加有效地实现文本分类,本文提出了一种基于图模型的文本特征提取方法。该方法利用类别信息在训练数据集上构造邻接带权图及其补图,使得属于同一个类别的样本点的投影尽可能近,不属于同一个类别的样本点的投影尽可能远。这种方法既能够获得文本空间的全局结构信息又可以保留局部结构信息。最后,采用K近邻分类器在20Newsgroups标准数据集上进行训练和测试,并且与基于潜在语义索引的文本分类方法做了比较,文本分类的性能得到很大提高。实验结果表明,本文所提出的方法能够有效地提高文本分类的性能。

关 键 词:文本分类  特征提取  潜在语义索引  图模型  

Graph Based Feature Extraction in Text Categorization
ZHEN Zhi-long,ZENG Xiao-qin,HAN Li-xin.Graph Based Feature Extraction in Text Categorization[J].Information Science,2011(8).
Authors:ZHEN Zhi-long    ZENG Xiao-qin  HAN Li-xin
Institution:ZHEN Zhi-long1,2,ZENG Xiao-qin1,HAN Li-xin1 (1.College of Computer and Information Engineering,Hohai University,Nanjing 210098,China,2. Department of Computer Science,Tonghua Normal University,Tonghua 134002,China)
Abstract:Text categorization is one of the techniques for processing and organizing massive documents. This paper proposes a kind of feature extraction method based on graph model for text categorization so that the classification can be implemented effectively. The novel method utilizes the class information to construct an adjacent weighted graph and its complement on training set, which ensure the projections of samples belonged to the same class are close to each other and the projections of samples pertained to...
Keywords:text categorization  feature extraction  latent semantic indexing  graph model  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号