首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
基于HTML文档结构的向量空间模型的改进   总被引:8,自引:1,他引:8  
胡健  陆一鸣  马范援 《情报学报》2005,24(4):433-437
根据HTML文档不同标签域的分布特征和对文档内容的代表能力不同,我们提出了一种改进的向量模型(PFTF),并通过trec12的查询实验,比较了传统向量模型与PFTF模型对单个标签域以及多个文档表示结果的结合的检索性能。实验结果表明,PFTF模型对于这两个方面都有提高。  相似文献   

2.
基于概念向量空间的文档语义分类模型研究   总被引:1,自引:0,他引:1  
针对传统文档自动分类方法和目前语义分类方法中存在的问题,提出一种新的基于概念向量空间的文档语义分类模型,该模型通过字符匹配算法将原文档高维词向量空间中相互独立的词项匹配到描述本体概念的属性集合,进而映射成属性集合对应的本体概念,形成低维的、语义丰富的文档概念向量空间。采用目前非常流行的数据集“20Newsgroups”作为实验数据集,对基于概念向量空间的文档语义分类模型进行实验验证。实验结果表明:提出的文档语义分类方法与传统基于词向量空间的文档分类方法相比,能够极大地降低向量空间维度,提高文档分类的性能。   相似文献   

3.
基于BP神经网络的文档特征表示研究   总被引:3,自引:0,他引:3  
本文根据BP神经网络的函数逼近功能 ,针对文档特征项在文档中的权重 ,提出了一种基于BP神经网络的网络计算模型。实验表明 ,在面向相似主题的文档集中 ,这种方法比当今最常用的向量空间模型计算的文档特征项的权重更精确  相似文献   

4.
王梅 《中国索引》2005,3(4):40-43
索引系统主要研究信息的表示、存储、组织和访问。索引主要是标引信息资源外表特征和内容特征,建立相关参见,形成相应索引数据库,基于索引词匹配的查询,通过布尔逻辑模型、模糊逻辑模型、向量空间模型或者概率模型来提高查准率。由于索引词匹配技术很难解决一词多义的现象,相关参照很难解决不确定的相关关系,往往会检索大量的无关信息。近年来,为了提高索引的利用率,索引系统利用语义技术、超链技术、语义网检索技术和知识处理技术,促进索引系统向更高层次发展。本文主要以索引语义为主线,讨论索引语义扩展的方法和技术,结合信息资源管理系统的应用,探讨索引语义功能的实现。  相似文献   

5.
介绍一个建立在向量空间模型上的文档分类系统。该系统着重解决向量维数压缩和中文专有词汇获取等问题。在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇。实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率。  相似文献   

6.
针对常用信息检索模型存在的两大不足——检索提问与内容表达上的语义缺失与结果返回形式上的单文档局限,提出相应的解决方案,在此基础上进一步提出基于本体的族式返回检索模型,并就该模型中的部分关键问题,如族式返回、查询与文档表示以及语义匹配等进行讨论。  相似文献   

7.
针对目前信息服务机构只能提供文献的检索服务而不提供表格检索功能这一现状,提出一种基于向量空间模型的表格检索算法,并从表格特征抽取、特征词权值设置、检索结果匹配排序等方面进行讨论,为未来表格检索服务提供一定的理论依据。  相似文献   

8.
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果.  相似文献   

9.
在信息检索中,代数理论是构建检索模型的重要手段之一,以代数理论为基础的检索模型克服了布尔模型不能进行部分匹配的缺点而广为采用。本文分析了代数理论的向量空间模型,并对该模型进行了扩展:用最小项标引词以反映词与词之间的关系,用奇异值分解来捕捉文献的语义结构;最后对这三种模型进行了比较。  相似文献   

10.
现代情报检索模型理论比较与发展研究   总被引:9,自引:0,他引:9  
关于相关性的计量一直是情报检索的核心问题,为此,人们提出了一系列检索模型。本文从比较与发展的角度,按时间顺序介绍了布尔模型、向量空间模型、概率模型、模糊模型、逻辑模型、概念模型、网络模型等,并在分析、比较与评价的基础上,对情报检索模型研究发展的未来趋势做了一些预测。  相似文献   

11.
近几年来国外信息检索模型研究进展   总被引:2,自引:0,他引:2  
信息检索模型是信息检索的核心.近几年来国外对于布尔模型的研究主要表现在对布尔模型的改进及对扩展布尔模型的进一步优化.对向量空间模型的研究,主要集中在对向量空间模型的扩展研究及对向量空间模型的应用方面.概率模型的发展主要集中在继续对概率模型进一步的研究,其与其它信息检索模型的结合,以及语言模型的研究和发展.近年来对于新兴的基于本体的信息检索模型的研究,主要集中在对基于本体的信息检索模型理论的研究,与其它检索模型的融合,以及基于本体检索模型的应用.国外信息检索模型研究的最新成果,为国内此方面的研究提供了前沿性的参考信息.  相似文献   

12.
数字图书馆个性化信息检索模型研究*   总被引:3,自引:0,他引:3  
结合向量空间技术、Agent技术、Web日志挖掘等技术提出了一个基于概念的数字图书馆个性化信息检索模型。该模型根据用户主动提供的初始信息建立基于概念的用户兴趣模型,利用用户对文档的主动评价和用户的访问行为更新用户兴趣模型,并将用户兴趣模型用于检索结果的相关度排序和最新信息的推荐以及合作推荐。最后给出系统的实现方法。  相似文献   

13.
丁洁  王曰芬 《图书情报工作》2014,58(15):135-141
在综合国内学术信息检索服务的现状和现有理论方法研究的基础上,以检索词推荐为研究对象,构建基于文献特征项共现网络的学术信息检索词推荐模型。模型包括基础文献存储模块、文献特征项抽取模块、文献特征项共现网络预处理模块、基于特征项的文献检索模块及检索词服务前端5个部分。利用实验验证基于特征项的共现网络用于检索词推荐的可行性,结果表明推荐模型结果与各检索项的检索词更具有相关性,推荐质量较好。  相似文献   

14.
信息检索系统中的相关反馈技术   总被引:2,自引:0,他引:2  
本文论述了布尔模型、向量空间模型以及概率模型中所采用的相关反馈技术,其中主要集中于检索词权值调整以及查询扩展等两项技术。作者还讨论了相关反馈技术对检索性能影响的评估方法,并提出了相关反馈在实际应用中需要解决的问题。  相似文献   

15.
基于潜语义标引的自然语言检索   总被引:3,自引:0,他引:3  
在信息检索中, 向量空间模型是最有效的数学工具之一。由于自然语言检索的特殊性, 以及传统信息检索模型受到同义词、多义词的影响, 检索的查准率不高。为了提高自然语言检索的查准率, 我们对基于概念的信息检索模型——
潜语义标引(LS I) 模型进行了探讨, 并分析了基于LS I 的两个实例。  相似文献   

16.
This work introduces a new approach to record clustering where a hybrid algorithm is presented to cluster records based upon threshold values and the query patterns made to a particular database. The Hamming Distance of a file is used as a measure of space density. The objective of the algorithm is to minimize the Hamming Distance of the file while attaching significance to the most frequent queries being asked. Simulation experiments conducted proved that a great reduction in response time is yielded after the restructuring of a file. We study the space density properties of a file and how it affects retrieval time before and after clustering, as a means of predicting file performance and making appropriate choices of parameters. Criteria, such as, block size, threshold value, percentage of records satisfying a given set of queries, etc., which affect clustering and response time are also studied.  相似文献   

17.
以矩阵理论作为研究的切入点,将经典向量空间模型中常用的向量和集合以矩阵的形式加以重构,并认为基于向量内积法的相似性计算与相应矩阵的乘法运算等价。结合稀疏矩阵和数据稀疏的定义,分析VSM信息检索背景下数据稀疏产生的原因;同时,讨论三种情形下数据稀疏对相似性计算的共同影响--部分毫无意义的时间复杂度。最后,给出规避数据稀疏问题的三层策略:文本级策略、文本集级策略和矩阵级策略。  相似文献   

18.
将自然语言处理技术——统计语言模型引入信息检索领域产生了一系列全新的检索模型,典型包括查询似然模型、生成相关性模型、词项依赖模型、统计翻译模型、泊松分布模型以及风险最小化框架等。本文从统计学模型以及N-gram技术的角度重点解析这些信息检索模型的演进过程。最后对基于统计语言模型的信息检索模型的发展过程以及未来发展趋势和挑战进行了总结。  相似文献   

19.
信息检索过程的不确定性分析   总被引:3,自引:0,他引:3  
韩毅 《图书情报工作》2005,49(5):102-104
分析信息检索的四个基本过程(信息提问产生、信息标识形成、检索匹配与信息获取利用)中不确定性的产生机制及其特性,指出这种不确定性是由于四种知识结构(信源知识结构、标引人员知识结构、公共知识结构与用户知识结构)的相互作用与匹配的不一致产生的,井给出四种知识结构的作用模型指出并强调信息检索的效率与可靠性取决于这四种知识结构的作用与匹配效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号