首页 | 本学科首页   官方微博 | 高级检索  
     检索      

一种基于类别分布信息的中文文本分类模型
引用本文:刘海峰,王元元,姚泽清.一种基于类别分布信息的中文文本分类模型[J].图书情报工作,2008,52(1):73-73.
作者姓名:刘海峰  王元元  姚泽清
作者单位:解放军理工大学理学院
摘    要:特征降维是文本分类面临的主要问题之一。首先通过 分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩;在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。

关 键 词:文本分类  特征选择  特征聚类  Bayes分布  文本表示  类别  分布信息  中文文本  分类模型  Information  Distribution  Sort  Based  Text  Categorization  Chinese  效率  法的分类  结果  试验  矩阵理论  矩阵表示  模式  概率分布  压缩  特征维数
收稿时间:2007-06-11
修稿时间:2007年6月9日

A Model of Chinese Text Categorization Based on Sort Distribution Information
Liu Haifeng,Wang Yuanyuan,Yao Zeqing.A Model of Chinese Text Categorization Based on Sort Distribution Information[J].Library and Information Service,2008,52(1):73-73.
Authors:Liu Haifeng  Wang Yuanyuan  Yao Zeqing
Abstract:The feature reduction is one of the main problems in text classification .Firstly, we select features by using CHI distribution. Secondly, we cluster the selected features by using an improved method which based on density. In virtue of the sort distribution information, we reduce the number of features twice and the information lost few. Lastly, based on the sort of texts, we use the distributing of probability to express text with matrix. By using matrix norm, we realized the text categorization. The experiment shows that this method has a higher precision of the text classification.
Keywords:
本文献已被 万方数据 等数据库收录!
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号