首页 | 本学科首页   官方微博 | 高级检索  
     检索      

文本分类中基于训练样本空间分布的K近邻改进算法
引用本文:刘海峰,刘守生,姚泽清.文本分类中基于训练样本空间分布的K近邻改进算法[J].情报学报,2013,32(1).
作者姓名:刘海峰  刘守生  姚泽清
作者单位:解放军理工大学理学院,南京,210007
基金项目:国家自然科学基金资助项目
摘    要:KNN算法是文本分类中广泛应用的算法.作为一种基于实例的算法,训练样本的数量和分布位置影响KNN分类器分类性能.合理的样本剪裁以及样本赋权方法可以提高分类器的效率.提出了一种基于样本分布状况的KNN改进模型.首先基于样本位置对训练集进行删减以节约计算开销,然后针对类偏斜现象对分类器的赋权方式进行优化,改善k近邻选择时大类别、高密度训练样本的占优现象.试验结果表明,本文提出的改进KNN文本分类算法提高了KNN的分类效率.

关 键 词:K最近邻  类偏斜  样本剪裁  文本分类

An Improved KNN Text Categorization Algorithm Based on the Training Samples Distribution
Liu Haifeng , Liu Shousheng , Yao Zeqing.An Improved KNN Text Categorization Algorithm Based on the Training Samples Distribution[J].Journal of the China Society for Scientific andTechnical Information,2013,32(1).
Authors:Liu Haifeng  Liu Shousheng  Yao Zeqing
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号