共查询到20条相似文献,搜索用时 576 毫秒
1.
文本检索的潜在语义索引法初探 总被引:5,自引:0,他引:5
传统的文本检索方式是基于提问集合和文本集合的单纯语词匹配检索,然而这并不能解决检索实践过程中存在的同义和多义问题。文章阐述了文本检索的潜在语义索引法的原理并通过实验来验证潜在语义索引可以用来解决同义和多义问题,完善检索系统的性能。 相似文献
2.
数据的存储和检索是大数据时代有效构建系统应用的关键技术问题。针对高校教育信息系统数据量大、存储异构、查找困难等问题,提出一种基于分类索引以及热度积累的云存储及实时搜索引擎设计方案。该方法首先建立持久性硬盘分类索引。然后,通过一种索引热点数据缓存技术和一种高效的热度累积缓存替换策略,利用内存提升查询性能,降低对硬盘索引表的磁盘访问开销。 相似文献
3.
一种支持高效检索的实时更新倒排索引策略 总被引:5,自引:0,他引:5
最近的研究使得搜索引擎中搜取的网页文档与万维网的变化越来越同步。为使用户通过搜索引擎获取网络上的最新信息,必须加快倒排索引的更新。本文介绍了使用界标和增加/删除网页文档两种典型的倒排索引更新策略,并分析了它们的优缺点,提出了一种支持高效检索的实时更新倒排索引策略。这种策略综合了减少更新操作、加快实时更新和缩短用户查询响应时间等方面的优点,较好地适应了当前网络内容变化的特点。最后通过实验对这种策略进行了验证。 相似文献
4.
信息资源索引数据库的研究 总被引:5,自引:0,他引:5
信息资源索引是信息利用的基础,索引数据库应运而生。从单机系统到国际联机检索,开创了信息索引技术高度发展与广泛应用的新时代。因特网的迅猛发展使搜索引擎已成为互联网上的新兴产业。本文重点讨论了网络信息资源索引数据库的设计、建立与利用问题,展望了未来索引数据库的发展趋势 相似文献
5.
基于并行文献数据库的索引语言概念兼容转换 总被引:3,自引:0,他引:3
本文提出的RST模型 ,是一种基于并行文献数据库的概念语义相似度度量模型 ,适用于不同索引语言概念之间的自动兼容转换。RST模型根据粗糙集和索引语言的一些基本理论建立 ,能够明确定义概念之间的语义关系和相似程度。实验表明 ,RST模型的性能明显优于现有的两种方法 ,可以广泛应用于各类电子文献数据库和搜索引擎的集成检索系统 ,从而实现应用单种索引语言进行跨数据库的有效检索。 相似文献
6.
用传统的搜索引擎技术搜索时,每次都需要重新生成索引,这个过程会花费大量时间。采用增量索引方法后,系统支持即时增量索引,即对新加入的文档可以立即加入索引,且不用重新对原内容进行重索引。系统能满足信息搜索中搜索数据量的增长和索引即时更新的要求。 相似文献
7.
定义什么叫文献数据库?广义地说,所有以文献为信息源而产生的计算机可读数据的集合,都可以叫做文献数据库.但由于有书目数据与文摘索引数据之分,制作部门又不一样,书目机读数据的集合,习惯上叫做书目数据库,因而文献数据库一般指文摘索引机读数据的集合. 相似文献
8.
搜索引擎关键技术在检索层面上的分析理解 总被引:2,自引:0,他引:2
搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。通过对搜索引擎的相关技术(搜索技术、索引技术、检索技术和接口技术)的关联分析,以及对个性化搜索引擎的技术分析,阐述了搜索引擎研究发展方向的个性化信息服务功能。 相似文献
9.
本文对Z39.50的搜索引擎Zebra的索引和搜索的过程及机理作了详细的叙述。 相似文献
10.
11.
基于作者中文图书主题标引的工作实践,重点阐述了中文图书主题标引工作中的主题词的查找、在版编目数据的利用以及标引工具书的使用。同时,就标引人员如何提高中文图书主题标引质量谈了自己的看法。 相似文献
12.
本文主要结合自然语言在国内外的应用现状,分析了自然语言检索的发展趋势,同时对自然语言标引技术和处理方法进行了探讨,阐述了自然语言智能检索原理及其在智能搜索引擎中的应用,并就其在智能检索中的应用改进提出了自己的一点看法,预见了第三代搜索引擎的自然语言化是一种必然趋势。 相似文献
13.
14.
15.
16.
Jee-Hyub Kim Byung-Kwan Kwak Seungwoo Lee Geunbae Lee Jong-Hyeok Lee 《Information Retrieval》2001,4(2):115-132
In Korean information retrieval, compound nouns play an important role in improving precision in search experiments. There are two major approaches to compound noun indexing in Korean: statistical and linguistic. Each method, however, has its own shortcomings, such as limitations when indexing diverse types of compound nouns, over-generation of compound nouns, and data sparseness in training. In this paper, we propose a corpus-based learning method, which can index diverse types of compound nouns using rules automatically extracted from a large corpus. The automatic learning method is more portable and requires less human effort, although it exhibits a performance level similar to the manual-linguistic approach. We also present a new filtering method to solve the problems of compound noun over-generation and data sparseness. 相似文献
17.
18.
针对潜在语义索引(Latent Semantic Indexing,LSI)计算成本很大,不利于扩展信息检索领域的特点,提出引进图论中的层次搜索方法(Level Search Scheme,LS),设计出一种针对多主题数据集、融合信息检索和信息过滤的新型算法。该方法能够在信息过滤阶段保持高的查全率,在信息检索阶段保证高的查准率,从而最后达到很好的检索效果。
〔关键词〕 潜在语义索引 层次搜索 奇异值分解(SVD) 相似文献
19.
受控标引和受控词表的应用 总被引:1,自引:0,他引:1
本文介绍了受控标引的定义、特点,并对当前关于受控标引和受控语言已经过时的论点进行了反驳,认为受控标引和受控语言具有自然语言所不能代替的优点。文章还论述了受控词表在数据库、搜索引擎、DC元数据中的应用,进一步证明受控语言在当前网络环境下具有一定的地位,认为当前文献信息的组织和利用应该把受控语言和自然语言结合起来。 相似文献
20.
《归档文件整理规则》出台后,档案以“件”为单位,实现文件级管理,公文主题词作为档案的重要检索途径之一,相应地也应改革原有的标引方法,使之符合档案管理和现代化检索的要求。 相似文献