首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向聚类主题的文本特征描述
引用本文:聂卉.面向聚类主题的文本特征描述[J].情报学报,2009,28(4).
作者姓名:聂卉
作者单位:中山大学资讯管理系,广州,510275
基金项目:教育部人文社会科学研究项目 
摘    要:本文提出一种面向聚类主题的文本特征表示方法,即以聚类的主题概念来刻画文本的特征向量,将文本描述提升至语义层次.首先,通过聚类,形成一组以向量形式表达的隐含主题概念,再将基于词条空间的文本特征向量投影至这组主题概念,以隐含的主题概念来描述文本.实验分析表明,建立在概念空间之上的文本向量实质上是文本矢量与主题概念的关联度,能够突出表现文本内容的主题特征,更好地反映文本的语义内容,从而有效提高模型在文本检索与分类等领域的应用性能.而基于聚类形成的概念空间的维数由于可主观调整,又能有效地约减概念空间的维数,提高模型的应用实效.

关 键 词:文本聚类  概念空间模型  文本特征

Concept-Vector Modeling Based on Document Clustering
Nie Hui.Concept-Vector Modeling Based on Document Clustering[J].Journal of the China Society for Scientific andTechnical Information,2009,28(4).
Authors:Nie Hui
Institution:Department of Information Management;Sun Yat-Sen University;Guangzhou 510275
Abstract:In the paper,a Vector-space Modeling based on document subject clustering is presented.With subject concepts describing document's features,document feature value can get to the semantic level.Firstly,by clustering the document into groups,subject concept-space is generated in the form of Vector-space.Then a mapping from term-space to concept-space is established,which enable text document to be described with concept-based vector modeling.Experimental analysis shows that the vector of documents based on co...
Keywords:document clustering  concept-vector model  document feature value
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号