期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《科技广场》2017,(2)

文本的向量空间模型是把文本量化为空间里的向量,文本相似度的计算即对向量相似性的计算。本文通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间向量空间模型相似度比较忽略了文本长度的缺点,引入文本长度参数,并在基于互信息的特征词抽取时考虑词频的因素对文本相似度的影响,有效减少了相似度低的文本干扰。实验结果验证了改进算法的有效性和准确性。相似文献

2.

一种基于语义的中文文本分类算法

赵辉刘怀亮范云杰左晓飞《情报理论与实践》2012,35(3):115-118

针对向量空间模型中语义缺失问题,将语义词典（知网）应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。相似文献

3.

文本聚类中文本表示和相似度计算研究综述

吴夙慧成颖郑彦宁潘云涛《情报科学》2012,(4):622-627

围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。相似文献

4.

基于文本潜在特性分类方法研究与仿真

巫桂梅《科技通报》2012,28(7):148-151

研究文本快速准确分类的问题。同一词语在不同的语言环境下或者由不同的人使用可能代表不同的含义,这些词语在文本分类中的描述特征却极为相似。传统的文本分类方法是将文本表示成向量空间模型,向量空间模型只是从词语的出现频率角度构造,当文中出现一些多义词和同义词时就会出现分类延时明显准确性不高等特点。为此提出一种基于语义索引的文本主题匹配方法。将文本进行关键词的抽取后构造文档-词语矩阵,SVD分解后通过优化平衡的方法进行矩阵降维与相似度的计算,克服传统方法的弊端。实践证明,这种方法能大幅度降低同义词与多义词对文本分类时的影响,使文本按主题匹配分类时准确高效,实验效果明显提高。相似文献

5.

基于加权语义网的文本相似度计算的研究

廖开际杨彬彬《情报杂志》2012,31(7):182-186

基于词频统计思想的传统文本相似度算法,往往只考虑特征项在文本中的权重,而忽视了特征项之间的语义关系.综合考虑了特征项在文本中的重要程度以及特征项之间的语义关系,提出构建文本特征项的加权语义网模型来计算文本之间的相似度,并在模型构建的过程中,对特征项的选取、权值计算做了适当的改进.最后用实验验证了基于加权语义网的文本相似度算法相较于传统的算法,相似度计算的精确度有了进一步的提高. 相似文献

6.

基于向量空间模型的信息检索系统的设计 总被引：8，自引：1，他引：7

包金龙《情报杂志》2005,24(7):44-45,49

向量空间检索模型最早提出于1958年,它在信息检索系统中有着良好的性能表现。先对该模型作了介绍,然后在向量空间模型的基础上,根据文献标引、索引项权重的确定、相似度测算这三个步骤设计了一个信息检索系统,总结了该系统要用到的核心技术,并评价了该系统。相似文献

7.

基于语义向量空间模型的文档检索系统研究 总被引：1，自引：0，他引：1

唐明伟卞艺杰陶飞飞《情报杂志》2010,29(5)

针对向量空间模型中因义相似度,建立了语义向量空间模型,并设计了基于语义向量空间模型的文档检索系统,重点研究了其中语义相似度计算和查询扩展两个核心技术,并通过实例验证了该检索系统的有效性. 相似文献

8.

基于二元文法模型的汉语句子相似度计算

《中国科技信息》2016,(13)

随着信息技术的飞速发展,自然语言处理越来越受到人们的重视,句子相似度计算在自然语言处理领域具有非常重要的地位。基于二元文法模型的汉语句子相似度计算方法以相邻关键词共同出现进行加权的方式计算句子相似度。方法重点考虑关键词词形和句长相似度,还适当考虑了近义词的情况。实验结果表明,该方法可以更好的处理句子长度差较大的句子相似度,在计算汉语句子相似度时准确率高于关系向量模型的方法。相似文献

9.

关联数据资源集相似度计算方法研究

邓兰兰李春旺《情报理论与实践》2012,35(5):112-116

文章提出的适用于关联数据资源集相似度计算的综合描述信息模型,分为基本描述、内容描述和外部链接3个模块描述资源集,并根据各信息项的特点挑选字符串相似度、集合相似度、向量空间模型和基于统计和语义的相似度等算法计算资源集相似度,在一定程度上解决了当前关联创建中相关资源集手工配置的问题。相似文献

10.

一种基于TFIDF方法的中文关键词抽取算法 总被引：4，自引：1，他引：3

徐文海温有奎《情报理论与实践》2008,31(2):298-302

本文在海量智能分词基础之上,提出了一种基于向量空间模型和TFIDF方法的中文关键词抽取算法.该算法在对文本进行自动分词后,用TFIDF方法对文献空间中的每个词进行权重计算,然后根据计算结果抽取出科技文献的关键词.通过自编软件进行的实验测试表明该算法对中文科技文献的关键词自动抽取成效显著. 相似文献

11.

基础研究项目分类的新方法

于洋党延忠《科学学与科学技术管理》2009,30(3)

针时目前基础研究项目分类的不足,提出一种基于项目内容特征的项目分类新方法.首先构建基于VSM的项目内容特征表示模型,确定类模型的表示方式.然后计算项目与类的相似度,提出相对相似度的概念.并定义交叉项目与交叉的判别方法,再根据相对相似度对基础研究项目进行分类.最后给出一个实例验证,对实例的分类结果进行详细的分析.并与原分类结果进行系统的比较. 相似文献

12.

基于改进KNN的文本分类方法 总被引：8，自引：0，他引：8

钱晓东王正欧《情报科学》2005,23(4):550-554

本文针对VSM (向量空间模型)中KNN (K最近邻算法)在文本处理环境下的不足,根据SOM (自组织映射神经网络)理论、特征选取和模式聚合理论,提出了一种改进的KNN文本分类方法。应用特征选取和模式聚合理论以降低特征空间维数。传统的VSM模型各维相同的权重并不适应于文本处理的环境,本文提出应用SOM神经网络进行VSM模型各维权重的计算。结合两种改进,有效地降低了向量空间的维数,提高了文本分类的精度和速度。相似文献

13.

中文Blog热门话题检测技术研究

张欣《人天科学研究》2011,(9):6-9

利用话题检测技术将Blog信息按照所表达的话题进行归类和组织,可以使Blog信息更加有效、准确地为用户使用。研究了话题检测模型中的词频统计、权重计算以及相似度计算,把简单聚类算法与ISODATA算法相结合,并应用到中文Blog热门话题检测系统中,实验结果表明,文本分类的效果有了进一步的提高。相似文献

14.

Knowledge based collection selection for distributed information retrieval

Baoli Han Ling Chen Xiaoxue Tian 《Information processing & management》2018,54(1):116-128

相似文献

15.

一种基于本体的语义相似度计算方法

盛秋艳《情报科学》2012,(8):1238-1241

本体技术作为一种能在语义和知识层次上描述概念体系的有效工具,给词语间相似度计算带来了新的机会。词语相似度的研究,是知识表示以及信息检索领域中的一个重要内容。本文利用本体来组织概念,计算概念之间的语义相似度,将语义相似度分成概念相似度和描述相似度,把概念相似度和描述相似度进行合并,生成最终的语义相似度。依据《中国分类主题词表》建立的计算机领域本体,验证了语义相似度计算方法的有效性。相似文献

16.

一种基于订阅记录的图书协同过滤推荐方法研究

下载免费PDF全文

王井《情报科学》2020,38(3):54-59

【目的/意义】通过订阅记录获取用户兴趣爱好,并将协同过滤推荐方法应用于图书个性化推荐,为读者提供优质服务。【方法/过程】以协同过滤算法为基础,根据用户订阅记录,分别计算用户相似性和订阅图书相似性。针对传统协同过滤方法在计算热门订阅相似度时存在的缺陷,引入对订阅权重的惩罚机制,减轻了热门订阅会和很多订阅相似的可能性,并根据协同过滤方法,产生相应推荐结果。【结果/结论】运用公开可获取的数据集进行的算法验证表明,基于订阅记录的协同过滤算法推荐准确度较高,对提升用户图书借阅体验相关研究与实践有一定的参考价值。相似文献

17.

基于灰关联寻优的协同研制供应链风险评估研究

王翯华朱建军张明《科技管理研究》2017,(11)

研究不完全信息下大型客机协同研制供应链风险的评估方法。针对大型客机供应链风险评估的不完全特征,建立了考虑接近关联度和相似关联度最大的不完全信息推测模型;依据最大关联度的思想,提出了群体评估者定权的方法;基于灰靶决策框架,提出了考虑风险最大区分思想下的属性权重测算的极大熵方法。将所提出理论应用到大型客机“主-供”模式协同研制“初创期”的供应链风险评估实践,并得到合理的评估结果。相似文献

18.

LDA模型在专利文本分类中的应用 总被引：1，自引：0，他引：1

廖列法勒孚刚朱亚兰《现代情报》2017,37(3):35-39

对传统专利文本自动分类方法中,使用向量空间模型文本表示方法存在的问题,提出一种基于LDA模型专利文本分类方法。该方法利用LDA主题模型对专利文本语料库建模,提取专利文本的文档-主题和主题-特征词矩阵,达到降维目的和提取文档间的语义联系,引入类的类-主题矩阵,为类进行主题语义拓展,使用主题相似度构造层次分类,小类采用KNN分类方法。实验结果：与基于向量空间文本表示模型的KNN专利文本分类方法对比,此方法能够获得更高的分类评估指数。相似文献

19.

基于CIM的相似度综合评价算法

宋欣申安来郭凤媛钟杰胡艳君王建林《现代情报》2013,33(3):129-131

相似度计算是自动问答领域里的重要内容。为了保证候选答案集中各答案能具备合理的排序,解决传统自动问答系统不能高效的综合评价相似度问题,提出利用综合指数法对关键词相似度、语义相似度等进行综合评价,得到综合相似度。并针对部分候选答案冗余信息过多,不利于答案提取的情况,设计了衰减相似度参数,用来解决句子冗余信息对答案提取的影响。实验结果表明,综合指数法的相似度算法能够有效的提高问答的正确率。相似文献