首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
李海蓉 《情报科学》2012,(6):852-857
简要介绍语义模板的概念,提出基于语义模板向量空间的文档自动分类模型。利用支持向量机(SVM,Support Vector Machine)分类算法对文档测试集进行基于语义模板空间、词向量空间的分类实验,实验结果表明,基于语义模板空间的文本分类性能比基于词向量空间的分类性能要高。  相似文献   

2.
巫桂梅 《科技通报》2012,28(7):148-151
研究文本快速准确分类的问题。同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似。传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点。为此提出一种基于语义索引的文本主题匹配方法。将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端。实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高。  相似文献   

3.
基于后缀树结构与向量空间模型来设计西文二次文献的文献相关性判定算法.给出了文献相关性判定的流程,分析了后缀树算法的优势,并采用后缀树算法抽取特征项建立向量空间模型.与基于词的向量空间模型相比,基于后缀树的文献相关性判定算法在理论上有利于降低向量空间的维数,避免产生高维问题,并且基于后缀树模型的文献相关性算法独立于语言种类.  相似文献   

4.
VSM与LSI中的正交假设   总被引:1,自引:0,他引:1  
李孟臣 《现代情报》2005,25(8):223-224,F0003
向量空间模型(VSM)长期以来被用于文本检索.然而潜伏在其中的正交假设却迟迟未能得到解决。国内有些学者认为潜在语义索引模型(LSI)解决了这个问题。然而,本文作者通过对删的分析。认为正交假设在LSI中仍然存在。  相似文献   

5.
基于潜在语义空间的文本检索问题研究   总被引:6,自引:0,他引:6  
本文针对潜在语义空间模型下文本检索存在的问题进行了研究;对LSI/SVD方法的理论及问题进行探讨,对文本一特征项矩阵加权方式进行了改进,对文本的聚类提出了k—means截尾算法,对原始向量空间降秩后的语义空间维数的确定提出了解决方法。  相似文献   

6.
信息环境的异构性、动态性与海量性使传统基于自然文本的信息检索方法与技术面临极大挑战,集成概念空间理论与潜在语义索引技术能为这种困境提供一些解决方案.在分析概念空间内涵与特征的基础上,利用潜在语义索引原理讨论了概念提取方法、同义词近义词处理方法及基准向量的生成方法,分析了网络条件下基于概念空间的文本分类、聚类检索基本机制,最后给出了完善概念空间的自学习机制.  相似文献   

7.
为了提高文本分类的准确性和效率,提出了一种基于潜在语义分析和超球支持向量机的文本分类模型.针对SVM对大规模文本分类时收敛速度较慢这一缺点,本文将超球支持向量机应用于文本分类,采用基于增量学习的超球支持向量机分类学习算法进行训练和分类.实验结果表明,超球支持向量机是一种解决SVM问题的有效方法,在文本分类应用中具有与SVM相当的精度,但是明显降低了模型复杂度和训练时间.  相似文献   

8.
针对目前常用的信息检索算法普遍存在查询性能不高的问题。本文提出了一种基于AWAR算法的信息检索扩展查询模型,该模型首先采用传统向量空间模型算法对检索目标进行初检,然后利用最小完全加权置信度阈值生成完全加权关联规则,最后根据规则提取扩展词,得到查询结果。实验表明,基于AWAR算法的信息检索扩展查询模型的检索性能比传统向量空间模型算法和基于局部上下文分析的查询扩展的检索算法要高。  相似文献   

9.
陈立华 《现代情报》2010,30(3):26-28,31
潜在语义分析是自然语言使用于情报检索系统的理论基础,以此理论建构的空间向量模型是评判检索系统性能优良与否的知识工具。阐述了潜在语义标引(LSI)的基本内容、LSI下影响自然语言检索查准率的因素及向量空间模型检索软件的运行机制。此评述对网络化的情报检索技术的发展起到了一定的参考作用。  相似文献   

10.
基于潜在语义索引和遗传算法的文本特征提取方法   总被引:9,自引:0,他引:9  
郝占刚  王正欧 《情报科学》2006,24(1):104-107
本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singular Value Deccvaposition)可以有效地降低向量空间的维数,但通过维数约简后的文本特征仍要保持在数百维左右,因此本文采用遗传算法在此基础上继续降维。实验结果表明,这两种方法结合可以极大的降低文本向量空间的雏数,并能提高分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号