共查询到17条相似文献,搜索用时 109 毫秒
1.
2.
3.
4.
5.
一种基于类别信息的文本自动分类模型 总被引:2,自引:0,他引:2
从理论角度分析基于互信息的特征选择方法的不足,提出一种改进的互信息特征选择方法;针对向量空间模型在文本表示方面的问题,使用类别空间模型将文本表示为矩阵,有效利用文本的类别信息,实现一种基于类别信息的文本分类算法。对中文文本的分类实验结果表明,该文本分类方法具有良好的分类效果。 相似文献
6.
针对中文短文本自身词汇个数少、描述信息弱的缺陷,引入特征扩展的方法辅助分类。借助网络知识库维基百科抽取相关概念,并采用统计规律与类别信息相结合的方式计算概念间相关度,建立语义相关概念集合,对短文本的特征向量进行扩展,从而有效补充短文本的语义特征。对比实验表明,基于维基百科的短文本分类方法能够提高短文本分类的效果。 相似文献
7.
本文提出一种面向聚类主题的文本特征表示方法,即以聚类的主题概念来刻画文本的特征向量,将文本描述提升至语义层次.首先,通过聚类,形成一组以向量形式表达的隐含主题概念,再将基于词条空间的文本特征向量投影至这组主题概念,以隐含的主题概念来描述文本.实验分析表明,建立在概念空间之上的文本向量实质上是文本矢量与主题概念的关联度,能够突出表现文本内容的主题特征,更好地反映文本的语义内容,从而有效提高模型在文本检索与分类等领域的应用性能.而基于聚类形成的概念空间的维数由于可主观调整,又能有效地约减概念空间的维数,提高模型的应用实效. 相似文献
8.
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词鄄文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题.本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法.新方法在整个话题范围内构造语义空间词鄄文档矩阵,采用奇异值分解对原始词鄄文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词鄄文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘.实验结果表明,该方法能够对语义空间词鄄文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果. 相似文献
9.
10.
多层次web文本分类 总被引:8,自引:0,他引:8
传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系。根据LSA理论提出了一种多层次web文本分类方法。建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类。这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题。同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式。实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好。 相似文献
11.
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取.本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重.为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度.采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试.实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.56%和0.21%. 相似文献
12.
13.
本文通过实验比较了互信息、χ2统计算法和优势率三种算法在用于局部文本特征选取时对文本分类性能的影响.实验结果显示,在应用于局部特征选择的情况下,文本特征选取算法仍然可以将特征空间的维度降低90%以上,而不降低文本分类的性能.同时,我们发现在应用于局部文本特征选取时,优势率算法的性能不如互信息和χ2统计算法.另外,对于K最近邻分类算法,随着K值的增大,文本分类的查准率在增加,而查全率在降低.最后,本文详细分析了造成这三种算法性能差异的原因,并提出了一种改进算法,来提高优势率算法应用于局部文本特征选取时的性能. 相似文献
14.
文本分类中的特征降维方法综述 总被引:42,自引:7,他引:42
文本分类的关键是对高维的特征集进行降维。降维的主要方法是特征选择和特征提取。本文综述了已有的特征选择和特征抽取方法,评价了它们的优缺点和适用范围。 相似文献
15.
16.
文本分类特征降维研究综述 总被引:5,自引:0,他引:5
17.
停用词表对中文文本情感分类的影响 总被引:6,自引:2,他引:4
本文利用三种特征选择方法、两种权重计算方法、五种停用词表以及支持向量机分类器对汽车语料的文本情感类别进行了研究.实验结果表明,不同特征选择方法、权重计算以及停用词表,对文本情感分类的影响也不尽相同;除形容词、动词和副词外的其余词语作为停用词表以及不使用停用词表对情感分类作用较大,得到的分类结果比较好;总体上,采用信息增益和布尔型权重进行中文文本情感分类的效果较好. 相似文献