首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
杨文刚 《北京档案》2012,(10):29-30,33
随着计算机技术的发展,档案信息的检索技术有待提高,垂直搜索引擎作为面向特定主题的搜索引擎,非常适合用来开发专业领域的搜索引擎。介绍了垂直搜索引擎的特点和系统结构,引入了Lucene.net的开源项目,提出了实现基于Lucene.net的档案垂直搜索引擎的设计方案,给出了搜索引擎系统中采集模块、索引模块和检索模块的实现方法。  相似文献   

2.
Lucene全文检索的应用及检索效率测试研究   总被引:1,自引:0,他引:1  
使用Lucene设计一个全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块.第二部分着重分析PDF数据转换,XML文档设计,索引的分词、建立及效率等技术难点,并对中文分词分析器、索引文件膨胀率、索引影响因子及检索系统并对检索响应时间进行测试.应关注XML数据库的安全性.  相似文献   

3.
彭哲 《图书情报工作》2008,52(6):110-110
全文检索系统由三大功能模块组成:索引模块、检索模块和存储模块。本文着重分析系统组成和XML数据库的设计、建立倒排索引文件、中文分词等技术难点。同时在此基础之上建立基于Lucene/XML的期刊文献全文检索系统。  相似文献   

4.
基于Lucene的Web站点站内全文检索系统的设计与实现   总被引:1,自引:0,他引:1  
曹强 《图书情报工作》2007,51(9):124-126,144
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和查准率方面的比较。  相似文献   

5.
基于Lucene的Ftp搜索引擎的设计   总被引:2,自引:0,他引:2  
针对当前网络中所使用的基于数据库的Ftp搜索引擎没有标准资源文档且不支持中文分词和动态数据更新的缺陷,提出基于Lucene这个功能强大的全文索引引擎工具包的Ftp搜索引擎的设计方案。此Ftp搜索引擎不仅能够自动生成标准格式的XML资源文档,而且采用基于字典的前向最大匹配中文分词法在Lucene中动态更新全文索引。该设计还能够对检索关键字进行中英文混合分析和检索。  相似文献   

6.
一种基于Lucene检索引擎的全文数据库的研究与实现   总被引:15,自引:0,他引:15  
在对数据库有关技术分析的基础上,分析对比了全文数据库的特点和关键所在。介绍了实现全文检索的工具包Lucene搜索引擎,并将其引入具体应用,对全文数据库索引和查找技术进行研究,提出并实现了无需后台数据库的全文数据库组织方式,事实表明,索引和查找的时空效率都很高。  相似文献   

7.
许琦  顾新建  胡恒杰 《情报学报》2007,26(4):588-593
通用搜索引擎虽然功能强大,但存在一些缺陷,如索引库更新不及时、响应速度慢等,而且没有对检索结果根据用户的个人需求做过滤处理.针对这些问题,本文主要从用户个性化需求出发对个性化搜索系统进行了研究,阐述了基于全文索引工具包Lucene所研究开发的一种个性化智能搜索引擎系统.首先介绍了系统的结构模型和工作流程,然后对系统各模块的设计做了详细的研究.实验结果表明,在面向用户定制的站点的信息检索服务中,系统的综合性能比通用搜索引擎有所提高.  相似文献   

8.
图像对象特征值的抽取、存储、转换、显现的实现有多种方法,SIMIIRS系统主要采用了数据库方法和XML方法。文章主要讨论了图像资源的XML描述方法、建立图像信息的XML索引文档,检索XML文档以实现图像信息查询与提供。  相似文献   

9.
高校校园网信息资源数量巨大.各信息发布系统的相互独立及多种异构数据源的使用对在校园网范围内进行统一的信息检索设置了障碍.系统着重解决由非结构化文本数据和结构化数据库数据形成的多数据源的集成与整合问题.在Nutch搜索引擎基础上利用Lucene接口对多种源数据建立索引.构建多数据源全文信息检索平台,从而有效地实现全网信息检索并提高检索速度和精度。  相似文献   

10.
基于传统文本检索系统的XML索引实现研究   总被引:3,自引:0,他引:3  
陆伟 《情报学报》2006,25(6):679-685
作为重要的信息交换与存储标准,XML得到学者们越来越多的重视。作为XML检索研究的重要组成部分,XML索引机制与实现的研究已经取得了一定的研究成果。然而,大部分研究都是基于数据库及专门的半结构化管理器之上的。本文提出了如何在传统文本检索系统Okapi的基础上构建XML索引的方法。首先介绍了Okapi的索引结构,在此基础上,深入探讨了XML索引的存储结构及实现,并对索引的性能进行了评价。  相似文献   

11.
研究将XML文本检索方法应用于长文本环境,并以中文博硕士论文为数据集。对博硕士论文数据集的XML标引、索引、关键词检索和结构化检索分别进行设计和实现,构建一个基于XML的中文博硕士论文检索系统。  相似文献   

12.
农业科技信息智能检索系统中的知识组织*   总被引:1,自引:1,他引:1  
介绍了采用文献计量方法对《中国农业科技文献数据库》中的分类和主题标引进行分析,揭示主题词与类目之间的关系,用于构建农业初级本体。同时,以该初级本体作为检索知识库并利用纯XML数据库技术,建立了农业科技智能检索系统。  相似文献   

13.
对开源全文检索引擎Lucene的系统架构、索引与检索过程、语言分析器进行分析的基础上,针对其对中文只能进行单字切分、双字切分的不足,二次开发基于Lucene中英文语言分析器ZH_CNAnalyzer,并给出一个调用此分析器建立索引与检索的实例。  相似文献   

14.
Query languages for XML such as XPath or XQuery support Boolean retrieval: a query result is a (possibly restructured) subset of XML elements or entire documents that satisfy the search conditions of the query. This search paradigm works for highly schematic XML data collections such as electronic catalogs. However, for searching information in open environments such as the Web or intranets of large corporations, ranked retrieval is more appropriate: a query result is a ranked list of XML elements in descending order of (estimated) relevance. Web search engines, which are based on the ranked retrieval paradigm, do, however, not consider the additional information and rich annotations provided by the structure of XML documents and their element names.This article presents the XXL search engine that supports relevance ranking on XML data. XXL is particularly geared for path queries with wildcards that can span multiple XML collections and contain both exact-match as well as semantic-similarity search conditions. In addition, ontological information and suitable index structures are used to improve the search efficiency and effectiveness. XXL is fully implemented as a suite of Java classes and servlets. Experiments in the context of the INEX benchmark demonstrate the efficiency of the XXL search engine and underline its effectiveness for ranked retrieval.  相似文献   

15.
中文自动标引是图书馆学情报学界多年研究的问题并取得了一定成果,其在信息检索数据库研究领域不可或缺。随着全文检索和中文搜索引擎的盛行,中文信息处理有多个学科涉及。中文自动标引、全文检索和中文搜索引擎是什么关系有必要加以明确,以确定其在中文信息处理领域的地位。经探讨认为,全文检索利用了中文自动标引的各种方式,搜索引擎利用了全文检索,因此搜索引擎利用了中文自动标引。中文自动标引、全文检索及中文搜索引擎三者关系是中文自动标引被利用和在技术发展方面相互促进的关系。  相似文献   

16.
基于Lucene的中文字典分词模块的设计与实现   总被引:8,自引:1,他引:8  
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。  相似文献   

17.
XML搜索引擎研究   总被引:1,自引:0,他引:1  
首先分析传统搜索引擎查准率不高的原因,然后介绍XML以及XML搜索引擎研究现状,并对XML搜索引擎所涉及的文档存储、索引、查询等关键技术进行详尽探讨。在此基础上,设计现行网络环境下的XML搜索引擎模型。认为该模型可充分利用XML文档的DTD模式信息,并能大幅度提高查询的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号