首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 130 毫秒
1.
有效避免伪反馈的"查询主题漂移"主要需要解决两大问题,一是如何确定相关文档,形成较高质量的伪相关文档集,另一个是在伪相关文档集里如何挑选扩展信息.本文主要研究在获取了高质量伪相关文档集合的基础上如何有效进行XML查询扩展.针对XML文档的特点,提出了扩展向量空间模型的查询词扩展方法.实验结果表明,与初始查询和传统的词项扩展方法相比,该扩展方法更能获得与用户查询意图相关的扩展信息,更能有效地提高检索质量和性能.  相似文献   

2.
查询扩展技术通过向初始查询请求加入相似或相关的词,组成更为准确的扩展查询表达式,来减少查询请求与相关文献在表达上的不匹配现象,改善检索性能.与传统的查询扩展不同,XML查询扩展不仅要对文档内容进行有效扩展,而且还要考虑结构扩展.本文提出了一种基于伪反馈的XML查询扩展方法,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的"内容+结构"的查询扩展表达式.相关实验结果表明,相对没有扩展的查询,所提方法具有更好的精度.  相似文献   

3.
XML信息检索探究   总被引:4,自引:0,他引:4  
廖述梅  万常选  徐升华 《情报学报》2007,381(2):229-234
XML文档是具有层次结构和文本内容的半结构化数据。现有的Web信息检索是基于HTML文档的关键词全文检索,无法胜任XML元素粒度的检索;同时,XML数据库检索实现的是精确查找,检索结果无排序支持。因此,融合信息检索和数据库技术研究XML检索问题成为必然。本文从XML检索的问题域出发,阐述了XML信息检索(XML IR)的国内外研究现状与特点,并分析了目前XML IR的热点和难点问题。  相似文献   

4.
为了改进基于关键词的信息检索方法的局限性,论文研究了一种综合利用领域本体改善信息检索性能的方法.该方法强调通过交互式的方式引导用户一步步逼近其真实的、潜在的检索需求,使用基于编辑距离的词形匹配方法辅助用户查询本体词汇,使用基于概念空间的检索词联想方法帮助用户扩充检索词.使用基于领域本体的词义识别算法来确定文档中的词汇词义.使用XML技术实现用户查询需求和文档标注的规范化标注.实验表明,该方法会有效提升查全率并且会改进查准率.  相似文献   

5.
指出传统信息检索技术对XML文档的处理,没有考虑其结构信息,描述粒度不够细致,故不能充分挖掘XML文档的表达能力;认为采用元素索引、属性索引和结构索引来记录XML文档的结构信息,可在细粒度上记载XML文档的结构,从而深层次地挖掘XML文档的表达能力。  相似文献   

6.
本文针对信息检索在查询扩展方面的不足,提出了一种结合本体理论和用户相关反馈技术的查询扩展方法.以FirteX作为检索平台,选取WordNet作为本体扩展资源来验证本文所提出的查询扩展算法,实现结果表明该方法比基于余弦相似性的查询扩展方法在平均查全率、平均查准率方面有更大的优点.  相似文献   

7.
基于伪相关反馈的跨语言查询扩展   总被引:3,自引:2,他引:1  
相关反馈是一种重要的查询重构技术,本文分析了两类相关反馈技术,一是按用户是否参与可分为伪相关反馈和交互式相关反馈,二是按作用于查询的方式可分为查询扩展与检索词重新加权.在此基础上,本文重点探讨了将相关反馈技术应用于跨语言信息检索,提出了翻译前查询扩展、翻译后查询扩展、翻译前与翻译后相结合的查询扩展三种方法.最后,本文通过伪相关反馈实验对这三种方法进行了比较,实验结果显示,三种跨语言查询扩展方法都能够有效地提高检索结果的精度,其中翻译后查询扩展方法相对更优越.此外,查询式的长度对不同跨语言查询扩展方法产生着不同程度的影响.  相似文献   

8.
查询扩展是信息检索领域中的一个热门话题,其目标是将与初始查询词相关的其他单词添加到初始查询请求中,以更详细地描述用户的信息需求.本文将查询过程视为特殊的问答过程,并基于此思想提出一种新的查询扩展方法.本文的贡献主要有以下几点:① 借助统计语言模型从大规模问答对数据中挖掘单词之间的扩展关系,并根据单词间的扩展关系对候选扩展词进行评级;② 提出一个新的查询扩展词选取策略,以克服已有查询扩展方法仅依赖评级的扩展词选取策略的不足.通过在真实数据集合上的实验,证明本文提出的查询扩展方法可以取得优于传统方法的性能,具有一定的实用性.  相似文献   

9.
信息检索扩展技术研究   总被引:1,自引:0,他引:1  
本文针对信息检索在查询扩展方面的不足,提出了一种结合本体理论和用户相关反馈技术的查询扩展方法。以FirteX作为检索平台, 选取WordNet作为本体扩展资源来验证本文所提出的查询扩展算法,实现结果表明该方法比基于余弦相似性的查询扩展方法在平均查全率、平均查准率方面有更大的优点。  相似文献   

10.
一个构造良好的查询是信息检索质量的基本保证,语义查询扩展技术解决了传统信息检索系统不能很好理解用户查询意图的问题,在提高检索查全率的同时保证了检索准确率。本文以查询关键字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,以WordNet本体库和WordNet Domains扩展库作为消歧数据源,使用基于局部上下文和基于图论的两类无导词义消歧方法进行查询关键字到本体概念的映射,最后基于概念词汇关联完成基于语义的查询扩展。综合WordNet本体库和WordNet Domains扩展库中的各项知识源对查询词义进行判定,保证了词义消歧的精度;采用无导词义消歧实现查询词义的快速判定,保证了信息检索的实时性;根据查询关键词的多寡分别提出两类消歧方法,满足了各种查询需求。  相似文献   

11.
基于Apriori改进算法的局部反馈查询扩展   总被引:1,自引:0,他引:1  
提出面向查询扩展的Apriori改进算法,采用三种剪枝策略,极大提高挖掘效率;针对现有查询扩展存在的缺陷,提出基于Apriori改进算法的局部反馈查询扩展算法,该算法用Apriori改进算法对前列初检文档进行词间关联规则挖掘,提取含有原查询词的词间关联规则,构造规则库,从库中提取扩展词,实现查询扩展。实验结果表明该算法能够提高信息检索性能,与现有算法比较,在相同查全率水平级下其平均查准率有了明显提高。  相似文献   

12.
针对现有信息检索系统中存在的词不匹配问题,提出一种基于词间关联规则的查询扩展算法,该算法利用现有挖掘算法自动对前列初检文档进行词间关联挖掘,提取含有原查询词的词间关联规则,从中提取扩展词,实现查询扩展。实验结果表明,该算法能改善和提高信息检索系统的查全率和查准率,具有很高的应用价值,与未进行查询扩展时相比,采用本文查询扩展算法后,平均准确率提高了13.34%,与传统的局部上下文分析查询扩展算法比较,其平均准确率提高了4.87%。  相似文献   

13.
[目的/意义] 针对当前查询扩展技术面临的瓶颈,提出一种关联数据驱动的查询扩展方法,改善检索系统的查全率、查准率。[方法/过程] 将扩散激活理论应用到关联数据集中,使得在输入查询词搜索潜在语义实体时,对提取的查询词的语义特征在知识库中进行有特定机制的扩散和激活,最后对这些语义关联的候补概念进行收集,并利用推理机制进行筛选,得到更优的概念集。[结果/结论] 该方法能有效提高检索系统的查全率、查准率,证明了本文提出的技术的可行性、有效性。  相似文献   

14.
This paper investigates the effectiveness of using MeSH® in PubMed through its automatic query expansion process: Automatic Term Mapping (ATM). We run Boolean searches based on a collection of 55 topics and about 160,000 MEDLINE® citations used in the 2006 and 2007 TREC Genomics Tracks. For each topic, we first automatically construct a query by selecting keywords from the question. Next, each query is expanded by ATM, which assigns different search tags to terms in the query. Three search tags: [MeSH Terms], [Text Words], and [All Fields] are chosen to be studied after expansion because they all make use of the MeSH field of indexed MEDLINE citations. Furthermore, we characterize the two different mechanisms by which the MeSH field is used. Retrieval results using MeSH after expansion are compared to those solely based on the words in MEDLINE title and abstracts. The aggregate retrieval performance is assessed using both F-measure and mean rank precision. Experimental results suggest that query expansion using MeSH in PubMed can generally improve retrieval performance, but the improvement may not affect end PubMed users in realistic situations.  相似文献   

15.
检索词自动扩展词库构建方法的基本思路是:根据语料是否规范化处理进行词库分类建设,优化了系统的检索性能;结合学科类别,对词库语料进行领域划分,引导科技人员对技术领域的准确把握;建设以本体库为基础,将与规范词具有关联性、相似性的语料通过关系表与关联库关联,把科技文献中的关键词组成一个有序的关系网,解决了传统检索系统中检索词无关联的不足;通过对检索词出现频率进行统计分析,进而更新词库,保证本体库、关联库语料的时效性,突破了人工对词库更新管理的受限性。  相似文献   

16.
Relevance feedback methods generally suffer from topic drift caused by word ambiguities and synonymous uses of words. Topic drift is an important issue in patent information retrieval as people tend to use different expressions describing similar concepts causing low precision and recall at the same time. Furthermore, failing to retrieve relevant patents to an application during the examination process may cause legal problems caused by granting an existing invention. A possible cause of topic drift is utilizing a relevance feedback-based search method. As a way to alleviate the inherent problem, we propose a novel query phrase expansion approach utilizing semantic annotations in Wikipedia pages, trying to enrich queries with phrases disambiguating the original query words. The idea was implemented for patent search where patents are classified into a hierarchy of categories, and the analyses of the experimental results showed not only the positive roles of phrases and words in retrieving additional relevant documents through query expansion but also their contributions to alleviating the query drift problem. More specifically, our query expansion method was compared against relevance-based language model, a state-of-the-art query expansion method, to show its superiority in terms of MAP on all levels of the classification hierarchy.  相似文献   

17.
特征词抽取和相关性融合的伪相关反馈查询扩展   总被引:2,自引:0,他引:2  
针对现有信息检索系统中存在的词不匹配问题,提出一种基于特征词抽取和相关性融合的伪相关反馈查询扩展算法以及新的扩展词权重计算方法。该算法从前列n篇初检局部文档中抽取与原查询相关的特征词,根据特征词在初检文档集中出现的频度以及与原查询的相关度,将特征词确定为最终的扩展词实现查询扩展。实验结果表明,该方法有效,并能提高和改善信息检索性能。  相似文献   

18.
一种面向用户兴趣的个性化语义查询扩展方法   总被引:1,自引:0,他引:1  
在基于本体的语义查询扩展研究的基础上,结合用户模型的研究,提出要将用户的兴趣模型与查询扩展相结合,实现个性化的语义查询扩展,并把个性化的语义查询扩展过程分为两个阶段——检索关键词向用户模型中的个性化领域本体概念的映射以及在本体层次对映射概念的语义扩展,给出每一阶段的实现算法。实验表明该方法能够提高信息检索的查准率和查全率,在一定程度上满足个性化的查询需求。  相似文献   

19.
This paper investigates the number of expansion terms to use in automatic query expansion by examining the behavior of eight retrieval systems participating in the NRRC Reliable Information Access Workshop. The results demonstrate that current systems are able to obtain nearly all of the benefit of using a fixed number of expansion terms per topic, but significant additional improvement is possible if systems were able to accurately select the best number of expansion terms on a per topic basis. When optimizing average effectiveness as measured by mean average precision, using a fixed number of terms increases the score a large amount for a small number of topics but has little effect for most topics. The analysis further suggests that when a topic is helped by automatic feedback, the increase is from a set of terms that reinforce each other rather than from the system finding a single excellent term.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号