向量空间模型中特征加权的研究 |
| |
引用本文: | 林永民,吕震宇,赵爽,朱卫东.向量空间模型中特征加权的研究[J].情报杂志,2008,27(3):5-8. |
| |
作者姓名: | 林永民 吕震宇 赵爽 朱卫东 |
| |
作者单位: | 1. 河北理工大学经济管理学院,唐山,063009 2. 北京交通大学计算机与信息技术学院,北京,100044 |
| |
摘 要: | 随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用TF·IDF方法对特征加权.但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降.针对TF·IDF方法存在的问题,提出了一种基于特征基尼指数的特征加权方法TF·GINI.实验结果显示,这种加权方法具有很好的分类性能.
|
关 键 词: | 文本分类 特征选择 基尼指数 特征加权 向量空间模型 |
Research on Feature Weighting in VSM |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|