首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
文本的向量空间模型是把文本量化为空间里的向量,文本相似度的计算即对向量相似性的计算。本文通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间向量空间模型相似度比较忽略了文本长度的缺点,引入文本长度参数,并在基于互信息的特征词抽取时考虑词频的因素对文本相似度的影响,有效减少了相似度低的文本干扰。实验结果验证了改进算法的有效性和准确性。  相似文献   

2.
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。  相似文献   

3.
围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。  相似文献   

4.
巫桂梅 《科技通报》2012,28(7):148-151
研究文本快速准确分类的问题。同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似。传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点。为此提出一种基于语义索引的文本主题匹配方法。将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端。实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高。  相似文献   

5.
廖开际  杨彬彬 《情报杂志》2012,31(7):182-186
基于词频统计思想的传统文本相似度算法,往往只考虑特征项在文本中的权重,而忽视了特征项之间的语义关系.综合考虑了特征项在文本中的重要程度以及特征项之间的语义关系,提出构建文本特征项的加权语义网模型来计算文本之间的相似度,并在模型构建的过程中,对特征项的选取、权值计算做了适当的改进.最后用实验验证了基于加权语义网的文本相似度算法相较于传统的算法,相似度计算的精确度有了进一步的提高.  相似文献   

6.
基于向量空间模型的信息检索系统的设计   总被引:8,自引:1,他引:7  
包金龙 《情报杂志》2005,24(7):44-45,49
向量空间检索模型最早提出于1958年,它在信息检索系统中有着良好的性能表现。先对该模型作了介绍,然后在向量空间模型的基础上,根据文献标引、索引项权重的确定、相似度测算这三个步骤设计了一个信息检索系统,总结了该系统要用到的核心技术,并评价了该系统。  相似文献   

7.
基于语义向量空间模型的文档检索系统研究   总被引:1,自引:0,他引:1  
针对向量空间模型中因义相似度,建立了语义向量空间模型,并设计了基于语义向量空间模型的文档检索系统,重点研究了其中语义相似度计算和查询扩展两个核心技术,并通过实例验证了该检索系统的有效性.  相似文献   

8.
随着信息技术的飞速发展,自然语言处理越来越受到人们的重视,句子相似度计算在自然语言处理领域具有非常重要的地位。基于二元文法模型的汉语句子相似度计算方法以相邻关键词共同出现进行加权的方式计算句子相似度。方法重点考虑关键词词形和句长相似度,还适当考虑了近义词的情况。实验结果表明,该方法可以更好的处理句子长度差较大的句子相似度,在计算汉语句子相似度时准确率高于关系向量模型的方法。  相似文献   

9.
文章提出的适用于关联数据资源集相似度计算的综合描述信息模型,分为基本描述、内容描述和外部链接3个模块描述资源集,并根据各信息项的特点挑选字符串相似度、集合相似度、向量空间模型和基于统计和语义的相似度等算法计算资源集相似度,在一定程度上解决了当前关联创建中相关资源集手工配置的问题。  相似文献   

10.
一种基于TFIDF方法的中文关键词抽取算法   总被引:4,自引:1,他引:3  
本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著.  相似文献   

11.
针时目前基础研究项目分类的不足,提出一种基于项目内容特征的项目分类新方法.首先构建基于VSM的项目内容特征表示模型,确定类模型的表示方式.然后计算项目与类的相似度,提出相对相似度的概念.并定义交叉项目与交叉的判别方法,再根据相对相似度对基础研究项目进行分类.最后给出一个实例验证,对实例的分类结果进行详细的分析.并与原分类结果进行系统的比较.  相似文献   

12.
基于改进KNN的文本分类方法   总被引:8,自引:0,他引:8  
钱晓东  王正欧 《情报科学》2005,23(4):550-554
本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。  相似文献   

13.
利用话题检测技术将Blog信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。研究了话题检测模型中的词频统计、权重计算以及相似度计算,把简单聚类算法与ISODATA算法相结合,并应用到中文Blog热门话题检测系统中,实验结果表明,文本分类的效果有了进一步的提高。  相似文献   

14.
15.
盛秋艳 《情报科学》2012,(8):1238-1241
本体技术作为一种能在语义和知识层次上描述概念体系的有效工具,给词语间相似度计算带来了新的机会。词语相似度的研究,是知识表示以及信息检索领域中的一个重要内容。本文利用本体来组织概念,计算概念之间的语义相似度,将语义相似度分成概念相似度和描述相似度,把概念相似度和描述相似度进行合并,生成最终的语义相似度。依据《中国分类主题词表》建立的计算机领域本体,验证了语义相似度计算方法的有效性。  相似文献   

16.
王井 《情报科学》2020,38(3):54-59
【目的/意义】通过订阅记录获取用户兴趣爱好,并将协同过滤推荐方法应用于图书个性化推荐,为读者提供优质服务。【方法/过程】以协同过滤算法为基础,根据用户订阅记录,分别计算用户相似性和订阅图书相似性。针对传统协同过滤方法在计算热门订阅相似度时存在的缺陷,引入对订阅权重的惩罚机制,减轻了热门订阅会和很多订阅相似的可能性,并根据协同过滤方法,产生相应推荐结果。【结果/结论】运用公开可获取的数据集进行的算法验证表明,基于订阅记录的协同过滤算法推荐准确度较高,对提升用户图书借阅体验相关研究与实践有一定的参考价值。  相似文献   

17.
研究不完全信息下大型客机协同研制供应链风险的评估方法。针对大型客机供应链风险评估的不完全特征,建立了考虑接近关联度和相似关联度最大的不完全信息推测模型;依据最大关联度的思想,提出了群体评估者定权的方法;基于灰靶决策框架,提出了考虑风险最大区分思想下的属性权重测算的极大熵方法。将所提出理论应用到大型客机“主-供”模式协同研制“初创期”的供应链风险评估实践,并得到合理的评估结果。  相似文献   

18.
LDA模型在专利文本分类中的应用   总被引:1,自引:0,他引:1  
对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果:与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。  相似文献   

19.
相似度计算是自动问答领域里的重要内容。为了保证候选答案集中各答案能具备合理的排序,解决传统自动问答系统不能高效的综合评价相似度问题,提出利用综合指数法对关键词相似度、语义相似度等进行综合评价,得到综合相似度。并针对部分候选答案冗余信息过多,不利于答案提取的情况,设计了衰减相似度参数,用来解决句子冗余信息对答案提取的影响。实验结果表明,综合指数法的相似度算法能够有效的提高问答的正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号