首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
谭金波 《情报杂志》2007,26(9):87-88,91
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文举分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念的权重方法进行了比较研究,实验结果表明TF.IDF整体得分最高,能够对文本进行较好地形式化表示。  相似文献   

2.
基于同义词词林的文本特征选择与加权研究   总被引:1,自引:0,他引:1  
特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍.介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法.该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征.实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度.  相似文献   

3.
基于分类的VSM模式下文本检索研究   总被引:2,自引:0,他引:2  
刘海峰  王元元  王倩 《情报科学》2006,24(11):1700-1703
本文针对向量空间模型下文本检索存在的几个问题进行了研究和探讨。在文本聚类模式下提出了特征项选取的改进方法;对TF—IDF因子提出了位置参数加权模式;对信息需求表达模糊、数据稀疏等问题总结了解决的方法。  相似文献   

4.
董健 《科技通报》2014,(4):71-73
传统的文本信息处理方法无法表征文本内特征,所以不适用于模糊特征的提取分类提出一种高特征参差性下强收敛性文本的信息处理技术,对文本间和文本内的特征同时进行提取,采用迭代控制的TFIDF对特征进行加权值的计算,最后采用22类文本进行性能测试,结果显示,迭代控制的TFIDF算法能够更加细致地对文本进行分类,对特征进行提取,并且算法收敛速度快,稳定性好,具有很好的应用价值。  相似文献   

5.
巫桂梅 《科技通报》2012,28(7):148-151
研究文本快速准确分类的问题。同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似。传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点。为此提出一种基于语义索引的文本主题匹配方法。将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端。实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高。  相似文献   

6.
特征降维是基于向量空间模型(VSM)文本分类的关键技术之一,特征抽取是特征降维的主要方法。本文主要分析了几种常用的特征抽取方法,并给出了它们的实现步骤。  相似文献   

7.
余敦一 《科技通报》2014,(4):191-193
提出一种基于改进TFIDF算法的海量文本分类识别方法,将特征之间的信息熵与特征内信息熵作为文本分类识别的加权因子,采用神经网络的非线性映射能力实现权值计算和TFIDF算法的模糊化,从而解决文本分类不准确和海量文本的分类问题。采用5个类别文档,每个类别5个文档,3个特征项来进行实际试验验证,结果表明,改进的TFIDF算法能够更好的实现文本识别分类,具有更小的方差特性,对随机文本分布具有更强的鲁棒性,收敛速度更快,具有很好的应用价值。  相似文献   

8.
针对传统文本特征提取时,选择特征函数可能不符合加权算法的需求,而在特征选取表现较差的互信息算法却在特征加权时有着较好效果,本文从向量旋转的角度出发,改进了互信息方法,在特征加权时加入词频信息和平衡因子,并且在实验中证明了改进的算法提高了互信息算法的召回率和精度,提高了算法的文本分类性能。  相似文献   

9.
针对Web中文文本分类中现有权重计算方法的不足和支持向量机算法对大数据量模式分类的低效性,提出了基于粗糙集约简并且加权的支持向量机分类方法;粗糙集作为支持向量机分类的前期预处理器,应用粗糙集的约简理论和基于Web中文文本的可变精度粗糙集加权方法对分类前的数据分别进行简化并计算权重,从而提高支持向量机后期分类的效率和精度;实验结果表明,支持向量机对约简并加权后的数据进行分类,分类性能得到了进一步保证。  相似文献   

10.
在文本分类中,特征抽取是一项很重要的工作,抽取到的特征项质量的好坏直接影响到分类的效果。在研究了文本分类中常用的文本特征词预抽取方法的基础上,提出了一种基于词性选择的特征预抽取方法,结合IG方法进行特征抽取。在分类实验中实验结果显示,这种基于词性的特征预抽取方法在分类过程中可以在不降低分类精度的同时可以减少特征维数和训练时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号