共查询到10条相似文献,搜索用时 31 毫秒
1.
简要介绍语义模板的概念,提出基于语义模板向量空间的文档自动分类模型。利用支持向量机(SVM,Support Vector Machine)分类算法对文档测试集进行基于语义模板空间、词向量空间的分类实验,实验结果表明,基于语义模板空间的文本分类性能比基于词向量空间的分类性能要高。 相似文献
2.
研究文本快速准确分类的问题。同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似。传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点。为此提出一种基于语义索引的文本主题匹配方法。将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端。实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高。 相似文献
3.
基于后缀树结构与向量空间模型来设计西文二次文献的文献相关性判定算法.给出了文献相关性判定的流程,分析了后缀树算法的优势,并采用后缀树算法抽取特征项建立向量空间模型.与基于词的向量空间模型相比,基于后缀树的文献相关性判定算法在理论上有利于降低向量空间的维数,避免产生高维问题,并且基于后缀树模型的文献相关性算法独立于语言种类. 相似文献
4.
VSM与LSI中的正交假设 总被引:1,自引:0,他引:1
向量空间模型(VSM)长期以来被用于文本检索.然而潜伏在其中的正交假设却迟迟未能得到解决。国内有些学者认为潜在语义索引模型(LSI)解决了这个问题。然而,本文作者通过对删的分析。认为正交假设在LSI中仍然存在。 相似文献
5.
6.
7.
为了提高文本分类的准确性和效率,提出了一种基于潜在语义分析和超球支持向量机的文本分类模型.针对SVM对大规模文本分类时收敛速度较慢这一缺点,本文将超球支持向量机应用于文本分类,采用基于增量学习的超球支持向量机分类学习算法进行训练和分类.实验结果表明,超球支持向量机是一种解决SVM问题的有效方法,在文本分类应用中具有与SVM相当的精度,但是明显降低了模型复杂度和训练时间. 相似文献
8.
针对目前常用的信息检索算法普遍存在查询性能不高的问题。本文提出了一种基于AWAR算法的信息检索扩展查询模型,该模型首先采用传统向量空间模型算法对检索目标进行初检,然后利用最小完全加权置信度阈值生成完全加权关联规则,最后根据规则提取扩展词,得到查询结果。实验表明,基于AWAR算法的信息检索扩展查询模型的检索性能比传统向量空间模型算法和基于局部上下文分析的查询扩展的检索算法要高。 相似文献
9.
基于潜在语义分析的影响自然语言检索查准率指标因素的评述 总被引:1,自引:0,他引:1
潜在语义分析是自然语言使用于情报检索系统的理论基础,以此理论建构的空间向量模型是评判检索系统性能优良与否的知识工具。阐述了潜在语义标引(LSI)的基本内容、LSI下影响自然语言检索查准率的因素及向量空间模型检索软件的运行机制。此评述对网络化的情报检索技术的发展起到了一定的参考作用。 相似文献
10.
基于潜在语义索引和遗传算法的文本特征提取方法 总被引:9,自引:0,他引:9
本文采用潜在语义索引(LSI)和遗传算法(GA)进行文本特征提取。在采用潜在语义索引将语义关系体现在VSM(Vector Space Model)中,通过奇异值分解(SVD,Singular Value Deccvaposition)可以有效地降低向量空间的维数,但通过维数约简后的文本特征仍要保持在数百维左右,因此本文采用遗传算法在此基础上继续降维。实验结果表明,这两种方法结合可以极大的降低文本向量空间的雏数,并能提高分类准确率。 相似文献