首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于词典约简及多分类算法的文本分类系统的设计与开发
引用本文:白振田,侯汉清.基于词典约简及多分类算法的文本分类系统的设计与开发[J].情报学报,2008,27(3).
作者姓名:白振田  侯汉清
作者单位:南京农业大学信息科技学院,南京,210095
摘    要:文本自动分类是目前机器学习、自然语言处理和信息资源检索领域的研究热点之一.本文在对自动分类的实现技术问题进行探讨的基础上,尝试对自动分类的几个环节提出改进措施.具体包括:采用约简法进行抽词词典的构造,采用投票法进行文本特征的选择,采用层次法进行逐层次的分类,采用统计与规则相结合的方法进行分类器的构造等.通过在不同语料库上与传统分类方法的对比测试表明,上述改进措施能够有效提高自动分类的性能,基于这些改进措施所开发的自动分类系统具有大规模文本自动分类的可行性.本文详细讨论了相关改进措施的原理、实现算法、流程及存在的问题.

关 键 词:抽词词典  自动分类  向量空间模型  层次分类  粗糙集

Design and Implementation of a Text Categorization System Based on Word-extracting Dictionary and Multi-categorizing Algorithms
Bai Zhentian,Hou Hanqing.Design and Implementation of a Text Categorization System Based on Word-extracting Dictionary and Multi-categorizing Algorithms[J].Journal of the China Society for Scientific andTechnical Information,2008,27(3).
Authors:Bai Zhentian  Hou Hanqing
Institution:Bai Zhentian Hou Hanqing (Nanjing Agricalture University,Nanjing 210095)
Abstract:Automatic text categorization(ATC)is one of the hot issues in the fields of machine learning,natural language processing and information retrieval.Based on a probe of procedures of realizing ATC,some proposals are presented for improving automatic categorizing,including building word-extracting dictionary with reductional method,selecting features with voting method,hierarchical text categorization with step-by-step categorization algorithm,and building categorization algorithm by integrating statistics wit...
Keywords:word-extracting dictionary  text categorization  VSM  hierarchical text categorization  rough set  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号