首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。  相似文献   

2.
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。  相似文献   

3.
廖开际  杨彬彬 《情报杂志》2012,31(7):182-186
基于词频统计思想的传统文本相似度算法,往往只考虑特征项在文本中的权重,而忽视了特征项之间的语义关系.综合考虑了特征项在文本中的重要程度以及特征项之间的语义关系,提出构建文本特征项的加权语义网模型来计算文本之间的相似度,并在模型构建的过程中,对特征项的选取、权值计算做了适当的改进.最后用实验验证了基于加权语义网的文本相似度算法相较于传统的算法,相似度计算的精确度有了进一步的提高.  相似文献   

4.
李法运  农罗锋 《情报科学》2013,(2):34-37,44
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。  相似文献   

5.
由于向量空间模型在文本聚类中的应用,而必须对文本特征进行降维。本方法首先利用特征的概率分布计算特征之间的相似度,在此基础上对特征进行聚类;然后在文本聚类的结果上计算各个特征的信息增益值;最后在各个特征类上取出一定比例的最重要的特征达到特征选择的目标。实验表明,该改进算法在聚类的准确度方面较以前的方法有所提高,可以有效地用于文本自动聚类。  相似文献   

6.
基于语义向量空间模型的文档检索系统研究   总被引:1,自引:0,他引:1  
针对向量空间模型中因义相似度,建立了语义向量空间模型,并设计了基于语义向量空间模型的文档检索系统,重点研究了其中语义相似度计算和查询扩展两个核心技术,并通过实例验证了该检索系统的有效性.  相似文献   

7.
基于改进VSM的中文问答系统研究   总被引:1,自引:0,他引:1  
针对向量空间模型中的权重计算公式仅考虑词语项在文档中的相关频数,提出词语项本身的领域权重概念,改进了向量空间模型的权重计算.同时结合关键词距离和关键词顺序信息,实现了句子相似度计算,以特定课程的FAQ库检索作S@n测试对比,结果表明改进后的相似度模型提高了s@n值  相似文献   

8.
文章提出的适用于关联数据资源集相似度计算的综合描述信息模型,分为基本描述、内容描述和外部链接3个模块描述资源集,并根据各信息项的特点挑选字符串相似度、集合相似度、向量空间模型和基于统计和语义的相似度等算法计算资源集相似度,在一定程度上解决了当前关联创建中相关资源集手工配置的问题。  相似文献   

9.
提出一种基于向量空间模型的科技文献自动分类方法.首先构建分类代表文本,计算单文本与分类代表文本之间的相似度;然后利用训练集计算出分类归属度,以判断某一文本分类的可能性,实现科技文献的自动分类.以3个学科的文献为例,验证该方法的可用性.  相似文献   

10.
一种基于向量空间模型的改进文本分类算法   总被引:2,自引:0,他引:2  
牛玲 《情报杂志》2006,25(6):63-64,67
探讨了基于向量空间模型的文本分类技术,通过规范化向量空间模型术语,论述了向量空间模型中TD-IDF向量化文档的不足;提出基于位置等因素的权重改进算法;借助扩展的潜在语义索引算法KLSC和辅助主题词表来消除模型很难处理一词多义、一义多词的现象;根据用户个性化的服务需求,给出了个性化服务的意见。  相似文献   

11.
传统的检错码链路分流算法采用统计分析方法确定加密流量所属的具体应用协议,进行本层链路分流,当在链路层出现未加密数据时,性能不好。提出一种基于语义相似度融合检错码跨层链路分流算法。设计链路建立体系结构与检错码领域本体结构模型,为使分流后的链路特征向量的误差平方和最小,构建特征空间互信息区域语义相似度向量模型,计算语义相似度权值的微调参数,获得链路载波频率,采用检错码编码理论对链路载波频率进行冗余编码,提高语义相似度的融合性能。实现检错码跨层链路分流改进。仿真结果表明,采用该算法,链路建立过程的建立时间最短,有效避免了避免路由冲突,缩短了网络协议识别时间,有效提高检错码的抗干扰能力。  相似文献   

12.
随着信息技术的飞速发展,自然语言处理越来越受到人们的重视,句子相似度计算在自然语言处理领域具有非常重要的地位。基于二元文法模型的汉语句子相似度计算方法以相邻关键词共同出现进行加权的方式计算句子相似度。方法重点考虑关键词词形和句长相似度,还适当考虑了近义词的情况。实验结果表明,该方法可以更好的处理句子长度差较大的句子相似度,在计算汉语句子相似度时准确率高于关系向量模型的方法。  相似文献   

13.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

14.
黄莉  李湘东 《情报杂志》2012,31(7):177-181,176
KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度.以Jensen-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度;作为对比,也使用常规的余弦值方法计算文本之间的相似度,并进而使用KNN最邻近算法对文本进行分类,以探讨不同的相似度计算方法对使用KNN最邻近算法进行文本自动分类效果的影响.多种试验材料的实证研究说明,较之于余弦值方法,基于Jensen-Shannon散度计算文本相似度的自动分类会使分类正确率更高,但会花费更长的时间.  相似文献   

15.
基于内容的非结构化P2P搜索系统中直接影响查询效果和搜索成本的两个主要问题是,高维语义空间所引起的文本相似度计算复杂以及广播算法带来的大量冗余消息. 本文提出利用集合差异度实现基于内容聚类的P2P搜索模型提高查询效率和减少冗余消息。该模型利用集合差异度定义文本相似度,将文本相似性的计算复杂度控制在线性时间内而有效地减少了查询时间;利用节点之间的集合差异度实现基于内容的聚类,既降低了查询时间,又减少了冗余消息.模拟实验表明,利用集合差异度构建的基于内容的搜索模型不仅具有较高的召回率,而且将搜索成本和查询时间分别降低到了Gnutella系统的40%和30%左右.  相似文献   

16.
巫桂梅 《科技通报》2012,28(7):148-151
研究文本快速准确分类的问题。同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似。传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点。为此提出一种基于语义索引的文本主题匹配方法。将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端。实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高。  相似文献   

17.
基于词频比的改进Jaccard系数文本相似度计算,交集中词的权重不是相同的,而是按照词频比确定权重。通过短文本实验和长文本实验,基于词频比的改进Jaccard相似度比传统Jaccard相似度更加科学合理,适合法律法规、政策文件等说明性文本的相似度计算。  相似文献   

18.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

19.
何小琴 《现代情报》2012,32(8):45-48
采购联盟合作伙伴的选择是采购联盟成功的一个关键,而伙伴搜索是伙伴选择重要的第一步。本文将电子商务中采购联盟伙伴搜索问题转换为采购需求文本的语义匹配问题,介绍了一种基于领域本体和语义相似度的采购联盟伙伴搜索模型。该模型通过对采购需求文本概念向量的上位填充和语义相似度计算来量化采购需求的语义匹配程度。  相似文献   

20.
基于改进KNN的文本分类方法   总被引:8,自引:0,他引:8  
钱晓东  王正欧 《情报科学》2005,23(4):550-554
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号