首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于改进VSM的中文问答系统研究   总被引:1,自引:0,他引:1  
针对向量空间模型中的权重计算公式仅考虑词语项在文档中的相关频数,提出词语项本身的领域权重概念,改进了向量空间模型的权重计算.同时结合关键词距离和关键词顺序信息,实现了句子相似度计算,以特定课程的FAQ库检索作S@n测试对比,结果表明改进后的相似度模型提高了s@n值  相似文献   

2.
分析了词向量在自然语言处理中的作用。使用已经训练好的词向量进行了简单类比推理、词语间离和句子相似度分析。给出一种结合词向量和传统语义解析两者优点的句子相似度计算WCos公式,通过传统语义分析将程度词单独提取处理,使用权值修改对照表进行权值设置,然后对余弦相似度公式进行修正。该方法在句子相似度分析方面明显优于单纯依赖于词向量的句子相似度分析方法。  相似文献   

3.
章成敏  鞠海燕 《情报杂志》2005,24(11):101-103,105
综合考虑查询串所包含关键词的词形、语义、语用三个层面的信息计算查询串相似度的计算方法。首先利用字面相似度算法计算查询串在词形上的相似度,然后利用义类词典进行关键词在语义层面上的匹配,得到查询串在语义层面上的相似度,接着以搜索引擎作为语料库来源,将查询串提交给搜索引擎,通过对返回结果中重叠部分的统计分析,计算查询串在语用上的相似度,最后综合这三个相似度,完成相似度的计算。实验结果表明该算法的有效性。  相似文献   

4.
XML信息检索中结构相似度计算   总被引:2,自引:0,他引:2  
鲁远  万常选 《情报杂志》2007,26(11):109-111
XML信息检索中,检索结果排序时必须同时考虑关键词相似度和结构相似度,就此重点讨论了结构相似度计算问题,提出了一种计算用户查询和检索结果间结构相似度的数学模型。  相似文献   

5.
[目的/意义]引入IMRD架构对论文的关键词进行细分与归类,有利于挖掘各类关键词的潜藏信息,丰富论文创新性评价指标的层次结构和内容,从而提升评价指标的精确性、科学性。[方法/过程]应用文本处理技术和LDA主题模型提取论文的关键词,根据IMRD架构将论文的关键词分为Topic关键词和Method关键词,结合两类关键词的相似度和相似论文数量等因素计算论文相似值,继而根据关键词的类别特征分别构建Topic关键词学科热度值、学术潜力值及Method关键词创新性的数学模型。最后,整合论文创新性的各种影响因素,构建一个多维度、多层次的论文创新性评价指标。[结果/结论]以CNKI数据库中“篇关摘”含有“自然语言处理”的中文期刊论文为实证对象,结果表明本文构建的创新性评价指标能有效区分具有不同创新水平的论文。  相似文献   

6.
本文提出了一种能够同时考虑关键词和发生时间的新型算法。该算法首先对数据预处理后,建立微博事件集合的LDA模型,生成主题词集合作为事件的描述标志,通过DTW算法对事件关键词间的语义、时序相似度进行计算,得到对应的相似度矩阵,最后采用协同训练普聚类方法,迭代生成最终的特征向量并完成事件选取。仿真实验结果表明,本文提出的算法同以往算法相比具有准确率高以及效率高的特点。  相似文献   

7.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。  相似文献   

8.
【目的/意义】文本相似度计算是自然语言处理中的一项基础性研究,通过总结和分析文本相似度计算的经 典方法和当前最新的研究成果,完善对文本相似度计算方法的系统化研究,以便于快速学习和掌握文本相似度计 算方法。【方法/内容】对过去20年的文本相似度计算领域的经典文献进行整理,分析不同计算方法的基本思想、优 缺点,总结每种计算方法的侧重点和不同方向上最新的研究进展。【结果/结论】从表面文本相似度计算方法和语义 相似度计算方法两方面进行阐述,形成较为全面的分类体系,其中语义相似度计算方法中的基于语料库的方法是 该领域最为主要的研究方向。  相似文献   

9.
现有的相似度计算方法大都依赖于作者间的直接关联,忽略了间接关联.文章提出一种新的基于SimRank的作者相似度计算方法,充分考虑作者关键词二分图网络的整体结构特性,利用图结构相似度算法挖掘出作者间以及词汇间的潜在关联关系.初步实验表明该方法能够有效地识别作者之间的相似度,相比于传统的关键词耦合,该方法可以明显提高作者相似度计算的准确性.  相似文献   

10.
相似度计算是自动问答领域里的重要内容。为了保证候选答案集中各答案能具备合理的排序,解决传统自动问答系统不能高效的综合评价相似度问题,提出利用综合指数法对关键词相似度、语义相似度等进行综合评价,得到综合相似度。并针对部分候选答案冗余信息过多,不利于答案提取的情况,设计了衰减相似度参数,用来解决句子冗余信息对答案提取的影响。实验结果表明,综合指数法的相似度算法能够有效的提高问答的正确率。  相似文献   

11.
本文主要描述了在自然语言处理中汉语一维吾尔语的句子级对齐系统的设计与实现。系统主要实现对维语和汉语的句子边界进行识别、对于双语进行段落级的对齐,以及把基于规则和基于句子长度的算法相结合实现维语和汉语句子级的识别。本系统基本达到了所预想的结果,对汉语和维吾尔语的双语语料库建设提供了辅助工作。  相似文献   

12.
词语相似度计算研究   总被引:8,自引:0,他引:8  
词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。本文首先讨论了词语相似度计算的应用背景,然后总结了词语相似度计算的两类策略,包括每类策略的思想、依赖的工具和主要的方法,并对这两类策略进行了简单的比较。  相似文献   

13.
李慧 《现代情报》2015,35(4):172-177
词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度。本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于维基百科的算法,并总结了各自的特点和不足之处。最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势。  相似文献   

14.
梁少星 《现代情报》2015,35(8):151-156
相似度计算方法的优劣直接影响到信息检索与推荐的效果。本文根据本体图模型中属性序列的特点,综合考虑层次关系和属性关系,在分析路径关联相似度、层次相交关联相似度及属性相交关联相似度的影响因素的基础上给出了实例之间综合语义相似度的计算方法。文章最后讨论了该相似度计算方法在解决基于内容的推荐中的过于专门化问题、协同过滤推荐中的稀疏性问题以及检索中查全率和查准率问题中的应用。  相似文献   

15.
围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。  相似文献   

16.
文本的向量空间模型是把文本量化为空间里的向量,文本相似度的计算即对向量相似性的计算。本文通过分析传统的基于向量空间模型(VSM)文本相似度计算算法存在的不足,提出一种改进的文本相似度计算算法。改进算法充分考虑到了文本间向量空间模型相似度比较忽略了文本长度的缺点,引入文本长度参数,并在基于互信息的特征词抽取时考虑词频的因素对文本相似度的影响,有效减少了相似度低的文本干扰。实验结果验证了改进算法的有效性和准确性。  相似文献   

17.
[目的/意义]关键词是反映期刊研究主题、研究方法和数据源等信息的重要途径。本文尝试通过论文关键词来研究学术期刊的相似度,为期刊分类等学术研究和实际工作提供参考。[方法/过程]首先,在相关文献梳理的基础上,提出了基于论文关键词的两种期刊相似度计算方法。然后,以《中国图书馆学报》和《情报学报》为实证对象,从CSSCI采集了两种期刊1998-2017年的关键词数据。最后,计算了两种期刊的相似度,并分析了两种期刊论文的共现关键词。[结论]研究发现,两种期刊的相似度有一定波动,但整体上呈现为一个下降趋势。这反映出两种期刊上发表的论文的相似性在不断下降,而差异性在不断增加。  相似文献   

18.
[目的/意义] 从关键词语义类型和学术文献老化两个维度出发挖掘学术论文价值,为学者推荐符合其研究需求并在时间维度上具有较大参考意义的学术论文。[方法/过程] 首先,将学术论文关键词按语义类型进行划分|随后,基于共现关系计算同类型关键词间相似度,基于关键词相似度得到论文在语义类型上的相似度|然后,借用文献老化思想,计算不同类型论文的时间价值|最后,结合论文在语义类型上的相似度及时间价值,生成论文推荐列表从而进行推荐工作。[结果/结论] 实证结果表明,使用该方法推荐的论文,一方面与学者研究方向相符|另一方面在时间维度上也具有较大价值,推荐的论文质量较高。  相似文献   

19.
廖开际  杨彬彬 《情报杂志》2012,31(7):182-186
基于词频统计思想的传统文本相似度算法,往往只考虑特征项在文本中的权重,而忽视了特征项之间的语义关系.综合考虑了特征项在文本中的重要程度以及特征项之间的语义关系,提出构建文本特征项的加权语义网模型来计算文本之间的相似度,并在模型构建的过程中,对特征项的选取、权值计算做了适当的改进.最后用实验验证了基于加权语义网的文本相似度算法相较于传统的算法,相似度计算的精确度有了进一步的提高.  相似文献   

20.
针对主观题自动批阅的特点,AATS原型系统采用一种加权相似计算模型,先求词语权重并构建关键词语的相似矩阵,然后由相似矩阵开始对句子间的相似度值进行计算,最后通过实验进行系统测试。实验表明,AATS系统的准确率可达84.86%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号