首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 734 毫秒
1.
随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用TF·IDF方法对特征加权.但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降.针对TF·IDF方法存在的问题,提出了一种基于特征基尼指数的特征加权方法TF·GINI.实验结果显示,这种加权方法具有很好的分类性能.  相似文献   

2.
胡涛  刘怀亮 《现代情报》2011,31(11):46-50
文本提出了一种基于语义的特征降维方法。通过依存关系抽取实现一次降维;通过计算类别和依存关系特征项的语义相似度,结合互信息方法进行特征选择实现二次降维。对中文文本分类的实验结果表明,提出的特征降维方法具有较好的分类效果。  相似文献   

3.
基于分类的VSM模式下文本检索研究   总被引:2,自引:0,他引:2  
刘海峰  王元元  王倩 《情报科学》2006,24(11):1700-1703
本文针对向量空间模型下文本检索存在的几个问题进行了研究和探讨。在文本聚类模式下提出了特征项选取的改进方法;对TF—IDF因子提出了位置参数加权模式;对信息需求表达模糊、数据稀疏等问题总结了解决的方法。  相似文献   

4.
【目的/意义】提出一种TF*IDF改进算法,用于全文分词后的语词权重计算,提取高权重语词,分析学科研 究热点。【方法/过程】以万方数据库中2015年《情报学报》的载文为例,对每篇文章全文分词,用改进的TF*IDF方法 计算语词权重。【结果/结论】发现该改进算法准确可行,且运用该方法分析得到,用户研究、大数据、情报学、社交网 络、技术领域、文献作者、突发事件、零被引等,是2015年情报学的研究热点。  相似文献   

5.
针对Web中文文本分类中现有权重计算方法的不足和支持向量机算法对大数据量模式分类的低效性,提出了基于粗糙集约简并且加权的支持向量机分类方法;粗糙集作为支持向量机分类的前期预处理器,应用粗糙集的约简理论和基于Web中文文本的可变精度粗糙集加权方法对分类前的数据分别进行简化并计算权重,从而提高支持向量机后期分类的效率和精度;实验结果表明,支持向量机对约简并加权后的数据进行分类,分类性能得到了进一步保证。  相似文献   

6.
海量以文本形式描述的地理信息存在于互联网中,大量地理相关的网络化信息难以得到发掘。为有效提升文本信息中与地理相关文本类别精准度。针对特征矩阵对分类结果的影响,在文本预处理中加入地理类特征名词,提出基于地理名词的TF-IDF特征权重计算方法,并在向量空间模型中引用新的特征矩阵。实验结果表明,加入地理特征名词可以降低特征维度,新的特征矩阵可以优化分类结果。该方法更准确地分类出与地理相关文本信息。本实验只针对与地理相关的文本信息发现,并未对地理信息进一步分类。此方法具有一定的应用前景和实用价值,可在此基础上进一步对文本信息类别中的地理分类进行研究。  相似文献   

7.
基于特征的意见挖掘中,特征权重计算是一个难点。在对各种权重计算方法深入研究的基础上,提出一种新的权重计算方法以解决该问题。该方法集成了层次分析法和G1法的基本思想,可以有效提高权重计算的准确性。一方面,该方法使用G1法对层次分析法中单层次指标权重计算进行改进,以克服层次分析法中判断矩阵的不一致性带来的问题;另一方面,在单层次指标的层次总权重计算中,提出一个总权重计算通用公式,扩展了层次分析法中层次总权重计算公式,使其更适合一般的应用。  相似文献   

8.
基于同义词词林的文本特征选择与加权研究   总被引:1,自引:0,他引:1  
特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍.介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法.该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征.实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度.  相似文献   

9.
廖开际  杨彬彬 《情报杂志》2012,31(7):182-186
基于词频统计思想的传统文本相似度算法,往往只考虑特征项在文本中的权重,而忽视了特征项之间的语义关系.综合考虑了特征项在文本中的重要程度以及特征项之间的语义关系,提出构建文本特征项的加权语义网模型来计算文本之间的相似度,并在模型构建的过程中,对特征项的选取、权值计算做了适当的改进.最后用实验验证了基于加权语义网的文本相似度算法相较于传统的算法,相似度计算的精确度有了进一步的提高.  相似文献   

10.
文本分类中一种改进的特征选择方法   总被引:1,自引:0,他引:1  
刘海峰  王元元  张学仁 《情报科学》2007,25(10):1534-1537
本文提出了一种改进的基于互信息的特征选择方法,与改进的TF-IDF权值公式相结合对文本特征进行选择,提高了特征项信息利用效率。试验表明,该算法提高了文本分类正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号