首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
介绍了当前国内外有关词汇语义相似度算法的研究现状,分析并对比了几种具有代表性的计算方法,并将几种常用的词汇语义相似度算法应用于FAQ中,分别采用准确率、召回率、F值以及MRR、MAP5个指标进行评价,根据相似问句的检索效果判断各词语相似度算法的优劣。  相似文献   

2.
词汇链能够帮助计算机正确理解词汇语义和掌握文档主旨,使得它在信息检索、文本挖掘和自动翻译等领域有着广泛的应用。提出了一种知网的中文词汇链抽取算法。该算法通过知网词典来规范词汇的语义并且通过计算词汇之间的语义相似性来确定词汇在具体语境中的语义。为了提高词汇链词汇语义的精确性和词汇链抽取的速度,算法采用非贪婪策略来确定词汇语义,按照贪婪策略来构建词汇链。实验结果表明该算法是有效的。  相似文献   

3.
针对传统检索模型局限于语法层次上关键词匹配的特点,以领域本体为知识组织方式,提出了一种基于领域本体的语义检索模型,同时给出了该模型中的查询语义扩展算法和相似度计算算法。  相似文献   

4.
针对FIHC文本聚类算法基于频繁词集实现聚类而未考虑词语间潜在语义联系的缺陷,对FIHC算法进行了有效改进。通过把基于知网的语义相似度计算方法归并到FIHC的Score函数中,有效的改善了score函数单纯的基于向量空间模型的不足。通过实现证明,改进后的FIHC算法明显的提高了聚类质量。  相似文献   

5.
杨立波 《太原大学学报》2011,12(1):111-113,116
基于CFN的相似度计算是一种相似度计算算法、将此算法与实例机器翻译联系,通过语法,语义两个角度对句子进行观察和分析,并经过CFN标注汉语句子,从两个层面进行相似度计算,并建立实例相似度计算模型,使基于CFN的相似度的计算方法更为简便。  相似文献   

6.
在中文信息处理中,句子相似度计算是一项基础而核心的研究课题,长期以来一直是人们研究的一个热点和难点.句子相似度计算在实际中有着广泛的应用,它的研究状况直接决定着其他一些相关领域的研究进展,如信息检索的相似句子匹配、自动问答的问题匹配与答案抽取等,句子相似度计算都是非常重要的环节.本文提出了一种基于依存关系匹配的句子相似度计算方法,利用词语内在概念和词语相互依存关系计算句子之间的相似度.结果表明,该算法能显著提高返回结果的准确率.  相似文献   

7.
随着信息化的深入发展,各应用领域积累了大量采用半结构化方式记录的文本数据。为了快速有效地从大规模面向领域的半结构化文本中抽取有用信息,信息抽取技术应运而生。文本信息抽取的核心算法之一是计算词或短语的相似度,针对面向领域的半结构化文本中的中文短语相似度计算,先采用模式匹配算法从原始半结构化文本中抽取中文短语,然后结合领域语义依存关系,对基于公共子串的短语相似度计算方法进行改进,以此提高短语相似度计算的可靠性。实验结果表明,所提算法具有较好的计算效果。  相似文献   

8.
句子相似度计算模型在基于实例的机器翻译中有着举足轻重的地位。提出了一种基于多特征加权的句子相似度计算模型,在对中文句子的词形、词序、句法和语义4种特征相似度计算的基础上,融合这4种特征,通过采用不同的特征权重来调节不同特征对句子相似度计算的影响,使得句子相似度计算更加准确。实验结果表明,该算法在计算句子相似度方面准确性较高。  相似文献   

9.
针对传统过滤算法只能实现结构对应层次的判断这一不足,提出了基于语义的信息过滤新算法。通过分词、计算词语相似度等操作,构造出体现语句语义关系的框架,然后再通过计算框架问的匹配程度来进行过滤。试验证明,过滤效果较传统算法在语义对应层次上有所提高。  相似文献   

10.
关键词抽取技术能从海量产品评论文本中挖掘出用户关注的焦点,方便后续为用户推荐合适的产品。经典关键词抽取算法TextRank在迭代计算词汇节点的重要性得分时,忽略了邻近词汇节点的影响力差异。为此,提出一种融合TFIDF与TextRank算法(简称TFTR)抽取评论中的关键词。首先,通过引入用户浏览评论后给出的评论有用性反馈,提高有效评论中出现的重要词语权重,对TFIDF算法进行改进。然后将改进后的词频逆文档频率作为词节点特征权重引入到TextRank算法中,以改进词汇节点的重要性得分分配过程。实验结果表明,相比传统的TextRank算法,TFTR算法提取出的产品评论关键词准确性在P@10标准下提高了15.7%,证明了该算法的有效性。  相似文献   

11.
采用本体概念映射方法,研究概念间相似度计算问题并提出本体图驱动的概念相似度算法。该算法将概念映射到本体结构图上,通过计算概念的语义、结构及属性相似度得到综合相似度。其中,结构相似度通过语义辐射圆计算模型得到,属性相似度通过概念重心向量夹角余弦得到。通过实验对比证明,该算法在一定程度上提高了相似度准确性,为数据挖掘提供了一定依据。  相似文献   

12.
传统句子相似度算法没有全面考虑句子结构与语义特征,影响相似度计算准确性,对此提出一种基于句法块向量的句子相似度计算方法。该方法综合考虑句子的语义信息与结构信息,首先构建两句子的语义依存关系树,然后进行一些被动转换等操作,最后根据词向量构建各个句法块向量并通过余弦值计算句子相似度。在常规句子对中进行测试实验,结果表明,综合句子结构与语义信息可提高相似度计算准确性。一般句子相似度计算正确率达到92%,比传统方法提高8%~10%。  相似文献   

13.
郭丽  刘磊 《教育技术导刊》2013,12(4):130-131
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。  相似文献   

14.
为提升抽取短文本关键词的准确率和召回率,并发掘出文中未出现但能很好表达短文主题的关键词,提出一种短文本关键词抽取及扩展方法。该方法在关键词抽取时,考虑了词的统计特征、主题特征及词搭配特征等多种特征,分步对词的评分进行修正,最终得到较为准确的关键词。关键词扩展时,通过计算抽取出的关键词与主题特征词之间的相似度,扩展出能够较好反应短文本主题的扩展关键词。考虑主题特征及关键词扩展时,需要有主题相关性较强的长文本语料库辅助。有相关性较强的长文本语料库时,该方法有较好的表现。  相似文献   

15.
阅读中的二语词汇语义通达是指通过视觉接受输入二语词汇信息,并提取词义的过程。受不同表征观及实验方法的影响,研究者在双语者是否需要借助母语通达二语词义这一核心问题上仍存在巨大分歧。目前研究者构建的二语词汇语义通达模型假设主要有:语义独立储存理论下二语词汇语义通达模型、语义共同存储理论下二语词汇语义通达模型和混合(mixed)语义表征理论下多维二语词汇语义通达模型。近年来相关研究表明,二语词汇语义通达受双语者二语熟练度、认识能力、认知压力、二语接触方式和程度、二语习得年龄、双语平衡度、词频、词长、词型、词形相似度、语义相关度和语言相似度等多个维度影响。然而目前有关各因素交互效应的研究并不太多,且多以行为实验为主。未来应着眼于对影响二语词义通达的各种因素交互效应进行整合性研究,采用先进技术手段,严格控制实验过程,才可能进一步完善现有二语词汇语义通达模型。  相似文献   

16.
词相似度计算在文本分类等自然语言处理众多任务中有广泛应用,为了提高准确率并将其应用于文本分类任务中,提出基于知网与同义词林以及基于nGram训练大规模语料相结合的方法,通过词义演化技术检测词义变化确定两种方法的权重,利用皮尔逊相关系数对比人工定义词语相似度。通过实验将该方法与基于知网和同义词林的方法进行对比,根据随时间改变而词义有无变化选取15对词语进行测试,结果表明后者比前者提高了28%。由此可以看出,基于语料与语义词典的方法明显比单纯基于语义词典的方法好,但仍有较大改进空间。  相似文献   

17.
将医学图像配准中的互信息算法移植到车牌识别系统,首先基于颜色信息快速定位车牌并校准分割出待识别的车牌字符,然后计算分割字符与字库字符的互信息值,互信息值的大小反映了图像之间的相似程度,最后通过比较互信息值的大小确定最终结果.实验证明,互信息算法相对其他车牌识别常规算法能更准确反映出图像之间的相似度,从而得到更精确的识别效果.  相似文献   

18.
在对传统的术语相似度计算方法和模型的研究基础上,提取出最能够影响语义本体相似度因素。然后,在综合传统相似度计算方法的优缺点的基础上,提出了一种被证明是能有效改进相似度计算效果的模型。  相似文献   

19.
本体匹配解决了本体异构问题,作为本体匹配的关键技术,相似度算法决定了匹配的精度和效率。WordNet中概念节点的语义距离常作为相似度算法的依据。设计了一种新的语义距离计算方法及相似度算法,并以此搭建一个本体匹配框架进行了验证。  相似文献   

20.
本文在联结主义的理论"模型将词汇的语义知识用分布表征值来表示"的基础上,选择了一组汉语复合词进行语义抽取和计算分析,基于语义距离提出了一个自动评估语义透明度的计算方法.实验直观有效地展现了一组多义语素间的同义、近义和同型异义关系,并揭示了语义透明度在多义语素系统中本质上是对某一具体语素义的相对距离.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号