首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 875 毫秒
1.
随着关联数据应用的不断深入,已有众多的数据集发布在网上,但目前已发布的关联数据集之间关联很少,为数据的共享使用带来不便。本研究提出一种基于统计学习方法进行关联数据集间实体识别及链接构建的方法。首先进行数据集间的实体匹配,采用基于K中心点聚类算法实现属性的聚合及关系发现,对具有高相关度的属性进行匹配关系描述,降低实体匹配时的属性匹配计算次数;其次对已匹配的属性进行实体属性值的相似度比较计算,实现实体间相似度的比较,在SILK框架下实现实体的链接构建工作,以达到实体链接发现的目的;最后通过实验验证,这一方法能降低数据集间实体匹配计算次数,提高实体链接的正确率,具有可行性及实用性。图12。表4。参考文献19。  相似文献   

2.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

3.
数字图书馆面临着进一步提高信息检索质量的问题,基于都柏林核心集的知识集成和检索能够发挥重要作用。结合Web网页的特点和本体知识,给出一种都柏林核心集网页文本的数据模型。词义扩展的相似匹配是当前知识检索采用的较为实用的方法,基于该模型采用词素匹配的技术并结合词义扩展的信息检索的一些技术,能使信息有效地存储集成和提高信息利用质量,能使开发的知识检索系统有更好的应用性。图1。参考文献7。  相似文献   

4.
李琳娜 《情报工程》2016,2(1):059-065
本文基于概念树计算论文与专家之间的相似度,然后采用基于启发式的最大相似度匹配方法将论文分配给相应的评审专家.基于概念树的相似度计算,可以充分满足主题覆盖度约束;基于启发式的最大相似度匹配算法不仅可以满足利益冲突约束,又可以满足专家工作量约束.最后实验验证了所提算法的有效性.  相似文献   

5.
语义链接构建原则包括链接来源确定、链接对象评价与链接属性选择,而链接类型则分为概念间的词汇型链接与实体间的关系型链接。基于此,图书馆可利用SPARQL查询从目标数据集中选择满足链接要求的术语变量,或通过基于本体映射的相似度计算在概念间构建词汇型链接。另一方面,关系型链接构建可利用SPARQL查询寻找与馆藏存在语义相似性的实体并判断其语义关系,或利用字符串相似度匹配对资源文本特征属性进行精确匹配,从而实现图书馆与外部关联数据集的链接构建与资源共享。  相似文献   

6.
基于语义网计算英语词语相似度   总被引:14,自引:2,他引:14  
荀恩东  颜伟 《情报学报》2006,25(1):43-48
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(Sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。  相似文献   

7.
阐述智能检索中基于用户模型的本体映射方法,提出在实现智能检索系统目的下引入用户模型的改进的本体映射框架。从语义、语法两个方面详细介绍基于该框架组织结构的相似度的计算过程,最后提出独立匹配与组合匹配相结合的综合匹配策略。  相似文献   

8.
基于社会化标签系统的个性化信息推荐探讨   总被引:4,自引:0,他引:4  
针对用户个人特征并向其提供准确恰当信息的个性化信息推荐研究,一直是学术界和产业界所关注的热点。结合后控词表,对用户分散的、个性化的标注进行处理,并将用户兴趣用向量表示,然后借鉴协同过滤算法的思想,寻找出相似用户集及其内部的资源集。在此基础上,采用相对匹配策略,提出一种基于社会化标签系统的个性化推荐方法。  相似文献   

9.
基于领域本体和概念向量的中文文本相似性测度研究   总被引:2,自引:0,他引:2  
文本相似性测度被广泛用于计算用户提问与文档资源相关程度以及基于内容相似资源推荐。OCVSM是一种基于领域本体和概念向量相似性测度的方法。该方法将军用飞机领域知识本体OntoAvion的概念集作为词汇抽取特征项,根据本体中概念间的关系确定特征项的相似度,最后利用余弦算法计算文本向量相似度。实验证明,该方法与基于语言学词典的相似性测度方法相比,更接近用户对文本相似性的判断。表10。图5。参考文献10。  相似文献   

10.
定义C2C电子商务平台中不同于B2C平台的三维推荐空间和推荐问题,并针对该问题提出一种三维个性化推荐方法。该方法对传统二维协同过滤方法和基于内容推荐的方法进行混合和扩展。首先利用卖家特征属性计算卖家相似度,并基于销售关系和卖家相似度对三维评分数据集进行填补,以解决评分数据的稀疏问题,再利用填补后的评分数据计算买家相似度,获取最近邻并预测未知评分。实验证明,该方法能较好地解决C2C平台中的个性化推荐问题,在形成卖家和商品组合推荐时具有较好的性能。  相似文献   

11.
多媒体信息检索是根据相似性度量而不是精确匹配技术进行检索的。有效性是测量多媒体检索系统性能的一个主要参数,本文着重介绍了几种常见的有效性度量方法,讨论了各自的优点、缺点和适用性,并给出了一个新的有效性度量方法。  相似文献   

12.
探讨了音乐旋律特征的匹配检索,通过将检索过程分解为三个步骤:字符串匹配检索、相似度计算和相关度计算来对旋律轮廓中的不同特征进行相应的计算处理,得到最终的检索结果并总结了音乐旋律特征的匹配检索模型。  相似文献   

13.
Efficient information searching and retrieval methods are needed to navigate the ever increasing volumes of digital information. Traditional lexical information retrieval methods can be inefficient and often return inaccurate results. To overcome problems such as polysemy and synonymy, concept-based retrieval methods have been developed. One such method is Latent Semantic Indexing (LSI), a vector-space model, which uses the singular value decomposition (SVD) of a term-by-document matrix to represent terms and documents in k-dimensional space. As with other vector-space models, LSI is an attempt to exploit the underlying semantic structure of word usage in documents. During the query matching phase of LSI, a user's query is first projected into the term-document space, and then compared to all terms and documents represented in the vector space. Using some similarity measure, the nearest (most relevant) terms and documents are identified and returned to the user. The current LSI query matching method requires that the similarity measure be computed between the query and every term and document in the vector space. In this paper, the kd-tree searching algorithm is used within a recent LSI implementation to reduce the time and computational complexity of query matching. The kd-tree data structure stores the term and document vectors in such a way that only those terms and documents that are most likely to qualify as nearest neighbors to the query will be examined and retrieved.  相似文献   

14.
基于百科资源的多策略中文同义词自动抽取研究   总被引:3,自引:1,他引:2  
采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路.综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点.实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中.未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵.图1.表6.参考文献13.  相似文献   

15.
This paper describes features and methods for document image comparison and classification at the spatial layout level. The methods are useful for visual similarity based document retrieval as well as fast algorithms for initial document type classification without OCR. A novel feature set called interval encoding is introduced to capture elements of spatial layout. This feature set encodes region layout information in fixed-length vectors by capturing structural characteristics of the image. These fixed-length vectors are then compared to each other through a Manhattan distance computation for fast page layout comparison. The paper describes experiments and results to rank-order a set of document pages in terms of their layout similarity to a test document. We also demonstrate the usefulness of the features derived from interval coding in a hidden Markov model based page layout classification system that is trainable and extendible. The methods described in the paper can be used in various document retrieval tasks including visual similarity based retrieval, categorization and information extraction.  相似文献   

16.
介绍跨库检索和粗糙集的基本概念,提出将粗糙集理论引入跨库检索系统中来构建基于粗糙集的跨库检索系统模型的方法,并对该模型对结果集的处理进行重点论述。实验结果表明,跨库检索系统的返回结果可以按照查询的相似度高低排序,以提高用户查询的准确率和有效性。  相似文献   

17.
通过对检索资源及用户检索提问的语义解析,采用基于概念图匹配的语句相似度计算方法,不仅可得到与检索条件精确匹配的信息资源,而且还能查询到与检索条件语义相关的隐含信息资源,提高信息查全率和查准率。最后,用一个语义检索实验系统验证系统分析与设计的可行性和有效性。  相似文献   

18.
Document clustering offers the potential of supporting users in interactive retrieval, especially when users have problems in specifying their information need precisely. In this paper, we present a theoretic foundation for optimum document clustering. Key idea is to base cluster analysis and evalutation on a set of queries, by defining documents as being similar if they are relevant to the same queries. Three components are essential within our optimum clustering framework, OCF: (1) a set of queries, (2) a probabilistic retrieval method, and (3) a document similarity metric. After introducing an appropriate validity measure, we define optimum clustering with respect to the estimates of the relevance probability for the query-document pairs under consideration. Moreover, we show that well-known clustering methods are implicitly based on the three components, but that they use heuristic design decisions for some of them. We argue that with our framework more targeted research for developing better document clustering methods becomes possible. Experimental results demonstrate the potential of our considerations.  相似文献   

19.
基于汉字聚类特征的中文字符串相似度计算研究   总被引:1,自引:0,他引:1  
采用聚类分析的方法,对汉字的特征进行研究和分析,找出其内在规律,根据汉字具有“成簇性”的特点,对中文字符串进行精细化匹配,给出基于改进编辑距离的相似度计算模型。实验结果表明,该模型对中文字符串的相似度具有更为精细的体现。  相似文献   

20.
This paper presents a method for assessing the quality of similarity functions. The scenario taken into account is that of approximate data matching, in which it is necessary to determine whether two data instances represent the same real world object. Our method is based on the semi-automatic estimation of optimal threshold values. We propose two methods for performing such estimation. The first method is an algorithm based on a reward function, and the second is a statistical method. Experiments were carried out to validate the techniques proposed. The results show that both methods for threshold estimation produce similar results. The output of such methods was used to design a grading function for similarity functions. This grading function, called discernability, was used to compare a number of similarity functions applied to an experimental data set.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号