共查询到20条相似文献,搜索用时 15 毫秒
1.
基于改进VSM的中文问答系统研究 总被引:1,自引:0,他引:1
针对向量空间模型中的权重计算公式仅考虑词语项在文档中的相关频数,提出词语项本身的领域权重概念,改进了向量空间模型的权重计算.同时结合关键词距离和关键词顺序信息,实现了句子相似度计算,以特定课程的FAQ库检索作S@n测试对比,结果表明改进后的相似度模型提高了s@n值 相似文献
2.
3.
综合考虑查询串所包含关键词的词形、语义、语用三个层面的信息计算查询串相似度的计算方法。首先利用字面相似度算法计算查询串在词形上的相似度,然后利用义类词典进行关键词在语义层面上的匹配,得到查询串在语义层面上的相似度,接着以搜索引擎作为语料库来源,将查询串提交给搜索引擎,通过对返回结果中重叠部分的统计分析,计算查询串在语用上的相似度,最后综合这三个相似度,完成相似度的计算。实验结果表明该算法的有效性。 相似文献
4.
XML信息检索中结构相似度计算 总被引:2,自引:0,他引:2
XML信息检索中,检索结果排序时必须同时考虑关键词相似度和结构相似度,就此重点讨论了结构相似度计算问题,提出了一种计算用户查询和检索结果间结构相似度的数学模型。 相似文献
5.
[目的/意义]引入IMRD架构对论文的关键词进行细分与归类,有利于挖掘各类关键词的潜藏信息,丰富论文创新性评价指标的层次结构和内容,从而提升评价指标的精确性、科学性。[方法/过程]应用文本处理技术和LDA主题模型提取论文的关键词,根据IMRD架构将论文的关键词分为Topic关键词和Method关键词,结合两类关键词的相似度和相似论文数量等因素计算论文相似值,继而根据关键词的类别特征分别构建Topic关键词学科热度值、学术潜力值及Method关键词创新性的数学模型。最后,整合论文创新性的各种影响因素,构建一个多维度、多层次的论文创新性评价指标。[结果/结论]以CNKI数据库中“篇关摘”含有“自然语言处理”的中文期刊论文为实证对象,结果表明本文构建的创新性评价指标能有效区分具有不同创新水平的论文。 相似文献
6.
7.
[目的/意义]旨在为跨语言文本聚类研究提供参考。[方法/过程]首先,通过分句及计算每个句子的语义特征值确定文档的特征句集并进行文档向量表示;其次,将词旋转距离(Word Rotator’s Distance,WRD)的思路引入相似度计算步骤中,提出语义特征句向量距离(Semantic Feature Sentence Vectors’ Distance, SFSVD)相似度计算方法,获得不同文档间的相似度;最后,利用HAC聚类算法获得文本聚类的结果。[结果/结论]提出的汉语-俄语跨语言文本聚类方法对比现有方法,其Purity值和NMI值显著提升且表现稳定。基于语义特征句和SFSVD相似度计算方法能够较准确地表示文本信息,从而进一步提升汉语-俄语跨语言文本聚类的性能。 相似文献
8.
【目的/意义】文本相似度计算是自然语言处理中的一项基础性研究,通过总结和分析文本相似度计算的经 典方法和当前最新的研究成果,完善对文本相似度计算方法的系统化研究,以便于快速学习和掌握文本相似度计 算方法。【方法/内容】对过去20年的文本相似度计算领域的经典文献进行整理,分析不同计算方法的基本思想、优 缺点,总结每种计算方法的侧重点和不同方向上最新的研究进展。【结果/结论】从表面文本相似度计算方法和语义 相似度计算方法两方面进行阐述,形成较为全面的分类体系,其中语义相似度计算方法中的基于语料库的方法是 该领域最为主要的研究方向。 相似文献
9.
现有的相似度计算方法大都依赖于作者间的直接关联,忽略了间接关联.文章提出一种新的基于SimRank的作者相似度计算方法,充分考虑作者关键词二分图网络的整体结构特性,利用图结构相似度算法挖掘出作者间以及词汇间的潜在关联关系.初步实验表明该方法能够有效地识别作者之间的相似度,相比于传统的关键词耦合,该方法可以明显提高作者相似度计算的准确性. 相似文献
10.
11.
12.
13.
词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度算法主要分为基于统计和基于语义资源两类方法,前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度,而后者利用人工构建的语义词典或语义网络计算相似度。本文比较分析了两类词语相似度算法,重点介绍了基于Web语料库和基于维基百科的算法,并总结了各自的特点和不足之处。最后提出,在信息技术的影响下,基于维基百科和基于混合技术的词语相似度算法以及关联数据驱动的相似性计算具有潜在的发展趋势。 相似文献
14.
相似度计算方法的优劣直接影响到信息检索与推荐的效果。本文根据本体图模型中属性序列的特点,综合考虑层次关系和属性关系,在分析路径关联相似度、层次相交关联相似度及属性相交关联相似度的影响因素的基础上给出了实例之间综合语义相似度的计算方法。文章最后讨论了该相似度计算方法在解决基于内容的推荐中的过于专门化问题、协同过滤推荐中的稀疏性问题以及检索中查全率和查准率问题中的应用。 相似文献
15.
16.
17.
[目的/意义]关键词是反映期刊研究主题、研究方法和数据源等信息的重要途径。本文尝试通过论文关键词来研究学术期刊的相似度,为期刊分类等学术研究和实际工作提供参考。[方法/过程]首先,在相关文献梳理的基础上,提出了基于论文关键词的两种期刊相似度计算方法。然后,以《中国图书馆学报》和《情报学报》为实证对象,从CSSCI采集了两种期刊1998-2017年的关键词数据。最后,计算了两种期刊的相似度,并分析了两种期刊论文的共现关键词。[结论]研究发现,两种期刊的相似度有一定波动,但整体上呈现为一个下降趋势。这反映出两种期刊上发表的论文的相似性在不断下降,而差异性在不断增加。 相似文献
18.
[目的/意义] 从关键词语义类型和学术文献老化两个维度出发挖掘学术论文价值,为学者推荐符合其研究需求并在时间维度上具有较大参考意义的学术论文。[方法/过程] 首先,将学术论文关键词按语义类型进行划分|随后,基于共现关系计算同类型关键词间相似度,基于关键词相似度得到论文在语义类型上的相似度|然后,借用文献老化思想,计算不同类型论文的时间价值|最后,结合论文在语义类型上的相似度及时间价值,生成论文推荐列表从而进行推荐工作。[结果/结论] 实证结果表明,使用该方法推荐的论文,一方面与学者研究方向相符|另一方面在时间维度上也具有较大价值,推荐的论文质量较高。 相似文献
19.
基于词频统计思想的传统文本相似度算法,往往只考虑特征项在文本中的权重,而忽视了特征项之间的语义关系.综合考虑了特征项在文本中的重要程度以及特征项之间的语义关系,提出构建文本特征项的加权语义网模型来计算文本之间的相似度,并在模型构建的过程中,对特征项的选取、权值计算做了适当的改进.最后用实验验证了基于加权语义网的文本相似度算法相较于传统的算法,相似度计算的精确度有了进一步的提高. 相似文献
20.
针对主观题自动批阅的特点,AATS原型系统采用一种加权相似计算模型,先求词语权重并构建关键词语的相似矩阵,然后由相似矩阵开始对句子间的相似度值进行计算,最后通过实验进行系统测试。实验表明,AATS系统的准确率可达84.86%。 相似文献