首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
针对现有基于语词的术语相似度典型算法存在的问题,提出了将WordNet和编辑距离计算应用于术语词语匹配过程,并根据术语修饰词的位置赋予特征权重的术语相似度改进算法.和已有算法相比,新的算法在三个方面有所改进.首先,在术语中心词匹配过程中引入WordNet的同义词、近义词检索功能,实现中心词之间的语义匹配;其次,将术语词语的直接匹配改进为基于编辑距离计算的模糊匹配;最后,在计算过程中充分考虑了术语修饰词与中心词之间的距离对修饰词权重分配的影响因素.针对新算法提出了具体的实现步骤,并选取基因工程领域实验数据对改进算法和现有典型算法进行对比评测.实验证明,每种改进方法在单独测试时效果优于或至少不低于Nenadic算法.基于三种改进方法的综合计算方法在计算效果方面具有明显提升.  相似文献   

2.
利用查询术语同义词关系扩展信念网络检索模型   总被引:2,自引:0,他引:2  
信念网络模型是一种重要的、基于贝叶斯网络的信息检索模型.它定义了一个明确的样本空间,给出了信息检索的一个灵活有效的基本框架.本文针对传统信念网络模型没有利用术语之间关系的缺陷,利用信息检索用同义词和词语相似度等概念,提出了最优同义词、相似概念、概念相似度等定义,提出了一种概念相似度的计算方法.然后利用上述定义对传统信念网络模型进行扩展,提出了一种基于查询术语同义词关系的扩展信念网络检索模型,讨论了扩展模型的拓扑结构和利用扩展模型进行信息检索的具体方法.实验结果表明,扩展后的信念网络模型比传统模型具有更好的检索性能.  相似文献   

3.
文本主观题自动阅卷的关键是提高考生答案文本和试题标准答案文本之间相似度计算结果的准确率。参考文本试题人工阅卷方法,提出一种结合人工制定文本相似标准、词语集合及词语次序和同义词的短文本相似度计算方法,设计并实现相应文本主观题阅卷系统。建立试题人工评分标准库,并在387道银行培训领域真实考题数据集上进行自动阅卷与人工阅卷结果对比实验。结果显示,文本试题自动阅卷结果与人工阅卷结果相比,完全相同的达到58%,准确率达到80%左右。  相似文献   

4.
基于SUMO和WordNet本体集成的文本分类模型研究   总被引:1,自引:0,他引:1  
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。  相似文献   

5.
基于改进编辑距离的相似重复记录清理算法   总被引:1,自引:0,他引:1  
相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。  相似文献   

6.
提出一种改进的基于相似度计算的科技文献关键词选取算法。先利用N-gram算法提取领域词库,再综合利用领域词库和常识词库,对最初选择的关键词重新切分,进行给定关键词之间的语义对比。语义相似度大于一定阈值的关键词被认为是表达同一意义的同义词,将同义词在文献库中合并,从而解决关键词冗余问题。实验结果可以证明该方法的有效性。  相似文献   

7.
基于词序方法的文本相似度计算模型   总被引:1,自引:0,他引:1  
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试.试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%.  相似文献   

8.
抄袭剽窃论文识别研究综述   总被引:2,自引:0,他引:2  
抄袭剽窃论文的识别是知识产权保护中一项重要的内容,已有众多的识别方法和系统.本文从抄袭剽窃的定义、文本的表示(向量空间模型、广义向量空间模型、隐性语义索引模型)、文本相似度的研究内容、文本相似度的计算方法(基于统计学的计算方法和基于语义理解的计算方法)、数字指纹和词频统计两大类技术和方法和抄袭剽窃识别系统等方面为基本思路,对该领域中已提出的主要研究方案进行了分类阐述和比较分析,总结了其最新研究进展,为下一步的研究提出了新的课题和设想.  相似文献   

9.
本文提出了一种对中文文本摘要中抽取出的句子进行重述的方法.首先使用基于统计的方法对文本进行特征统计,计算词和句子的权重,摘取出权值较高的句子;然后对这些句子应用一种基于向量相似度计算的算法进行指代消解,同时提出一种新的句子向量相似度的计算方法去除冗余;最后利用启发式规则进行加工,从而得到文本摘要.实验结果显示,系统修改后的文摘具有较好的连贯性和流畅性,与修改之前的文摘相比,文摘质量有明显提高.  相似文献   

10.
基于领域本体和概念向量的中文文本相似性测度研究   总被引:2,自引:0,他引:2  
文本相似性测度被广泛用于计算用户提问与文档资源相关程度以及基于内容相似资源推荐。OCVSM是一种基于领域本体和概念向量相似性测度的方法。该方法将军用飞机领域知识本体OntoAvion的概念集作为词汇抽取特征项,根据本体中概念间的关系确定特征项的相似度,最后利用余弦算法计算文本向量相似度。实验证明,该方法与基于语言学词典的相似性测度方法相比,更接近用户对文本相似性的判断。表10。图5。参考文献10。  相似文献   

11.
提出一种利用翻译词对信息快速构建知识组织系统中术语之间同义关系的方法:利用单词条的翻译数量、翻译共现强度等作为基本输入,通过简单布尔判断、条件互信息或向量空间模型余弦相似度来计算术语之间的相似度,进而发现并构建同义关系;采用准确率和丰富率来评价构建效果,通过在新能源汽车领域进行实验,发现该方法不但速度快,而且在翻译信息比较丰富的条件下,对于中文同义关系构建有较好效果。  相似文献   

12.
刘伟 《图书情报工作》2015,59(12):128-134
[目的/意义] 鉴于目前同义词抽取方法无法避免抽取结果含有较多的噪音,需要较高的人工代价去除噪音,提出一种对同义词抽取结果排序的方法,使得正确结果排序提前,以达到提高抽取结果准确性及降低人工去噪代价的目的。[方法/过程] 将抽取结果转化为抽取关系有向图,基于该有向图计算抽取结果中每个词汇与被抽取词汇的词义相似性,并按照词义相似性高低进行排序。排序方法的最大特点是只利用了当前的同义词抽取方法,不需要人工参与和额外的语义知识。[结果/结论] 通过在真实数据集上进行验证,得出排序效果与抽取结果的规模呈正向关系的论点,即一个给定词汇的同义词抽取结果数量越多,排序的效果就会越好。  相似文献   

13.
Text Categorization (TC) is the automated assignment of text documents to predefined categories based on document contents. TC has been an application for many learning approaches, which prove effective. Nevertheless, TC provides many challenges to machine learning. In this paper, we suggest, for text categorization, the integration of external WordNet lexical information to supplement training data for a semi-supervised clustering algorithm which can learn from both training and test documents to classify new unseen documents. This algorithm is the Semi-Supervised Fuzzy c-Means (ssFCM). Our experiments use Reuters 21578 database and consist of binary classifications for categories selected from the 115 TOPICS classes of the Reuters collection. Using the Vector Space Model, each document is represented by its original feature vector augmented with external feature vector generated using WordNet. We verify experimentally that the integration of WordNet helps ssFCM improve its performance, effectively addresses the classification of documents into categories with few training documents and does not interfere with the use of training data.  相似文献   

14.
设计并实现一个科技项目同行评议专家智能遴选系统,以专家信息和专家档案库为基础,采用基于统计的术语抽取技术解决未登录词问题,利用向量空间检索计算待评审项目和评审专家的相关性,根据相关性大小遴选出最合适的评审专家。  相似文献   

15.
信息检索扩展技术研究   总被引:1,自引:0,他引:1  
本文针对信息检索在查询扩展方面的不足,提出了一种结合本体理论和用户相关反馈技术的查询扩展方法。以FirteX作为检索平台, 选取WordNet作为本体扩展资源来验证本文所提出的查询扩展算法,实现结果表明该方法比基于余弦相似性的查询扩展方法在平均查全率、平均查准率方面有更大的优点。  相似文献   

16.
改进的中文同义词相似匹配方法   总被引:2,自引:0,他引:2  
信息检索的核心技术是文档集与提问集的相似匹配。目前基于关键词的字面匹配方法和基于词义的概念匹配方法各有优势与不足。在数字图书馆文献检索中可以综合两者的优势。设计一种改进的中文同义词相似匹配方法较现有两种方法优越,并具有更好的应用性。图2。表3。参考文献2。  相似文献   

17.
曾文  徐红姣  李颖  王莉军  赵婧 《情报工程》2016,2(3):037-042
文本相似度的计算方法以采用TF-IDF的方法对文本建模成词频向量空间模型(VSM)为主,本文结合科技期刊文献和专利文献特点,对TF-IDF的计算方法进行了改进,将词频的统计改进为科技术语的频率统计,提出了一种针对科技文献相似度的计算方法,该方法首先应用自然语言处理技术对科技文献进行预处理,采用科技术语的自动抽取方法进行科技文献术语的自动抽取,结合该文提出的术语权重计算公式构建向量空间模型,来计算科技期刊文献和专利文献之间的相似度。并利用真实有效的科学期刊和文献数据进行实验测试,实验结果表明文中提出的方法优于传统的TF-IDF计算方法。  相似文献   

18.
提出一种基于WordNet自动构建语义分布词典的方法。在介绍WordNet系统和Semcor语料库的基础上,设计语义分布词典的结构。分析Sense.idx文件和Taglist文件内容,详细描述以它们为基础自动构建语义分布词典的过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号