首页 | 本学科首页   官方微博 | 高级检索  
     检索      

向量空间模型中特征加权的研究
引用本文:林永民,吕震宇,赵爽,朱卫东.向量空间模型中特征加权的研究[J].情报杂志,2008,27(3):5-8.
作者姓名:林永民  吕震宇  赵爽  朱卫东
作者单位:1. 河北理工大学经济管理学院,唐山,063009
2. 北京交通大学计算机与信息技术学院,北京,100044
摘    要:随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用TF·IDF方法对特征加权.但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降.针对TF·IDF方法存在的问题,提出了一种基于特征基尼指数的特征加权方法TF·GINI.实验结果显示,这种加权方法具有很好的分类性能.

关 键 词:文本分类  特征选择  基尼指数  特征加权  向量空间模型

Research on Feature Weighting in VSM
Abstract:
Keywords:
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号