共查询到10条相似文献,搜索用时 31 毫秒
1.
改进TF-IDF算法的文本特征项权值计算方法 总被引:4,自引:0,他引:4
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(term frequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。 相似文献
2.
3.
4.
5.
一种基于类别信息的文本自动分类模型 总被引:2,自引:0,他引:2
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。 相似文献
6.
文本分类中一种基于密度的KNN改进方法 总被引:2,自引:1,他引:1
特征降维与分类算法的性能是文本自动分类的两个主要问题.KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象.本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类, 使处于样本点分布较密集区域的样本点之间的距离增大.随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果. 相似文献
7.
8.
9.
停用词表对中文文本情感分类的影响 总被引:6,自引:2,他引:4
本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究.实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好. 相似文献