首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 218 毫秒
1.
基于Lucene的Ftp搜索引擎的设计   总被引:2,自引:0,他引:2  
针对当前网络中所使用的基于数据库的Ftp搜索引擎没有标准资源文档且不支持中文分词和动态数据更新的缺陷,提出基于Lucene这个功能强大的全文索引引擎工具包的Ftp搜索引擎的设计方案。此Ftp搜索引擎不仅能够自动生成标准格式的XML资源文档,而且采用基于字典的前向最大匹配中文分词法在Lucene中动态更新全文索引。该设计还能够对检索关键字进行中英文混合分析和检索。  相似文献   

2.
分析Lucene的语言分析器结构,针对其只能进行中文单字、双字切分的不足,采用基于词典的正向最大匹配分词算法,设计并实现基于Lucene的中英文语言分析器ZH_CNAnalyzer,实验结果表明其能够对中英文文档进行高效索引,满足实际应用的需要。  相似文献   

3.
Nutch是一个开放源代码的web搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,由于不夹杂商业利益,它对搜索结果的排序算法较为透明公平。文章重点讨论Nutch的工作原理及其中文分词技术,并尝试构建基于nutch的中文搜索引擎。  相似文献   

4.
基于AIMLBot智能机器人软件,利用"海量智能分词"和Lucene.net对机器人的中文知识库进行分词和索引检索,运用《知网》对用户输入问句与知识库问句进行相似度计算,获取相似度最高的知识问句进行推理,从而实现机器人在图书馆实时虚拟参考咨询中的服务。  相似文献   

5.
彭哲 《图书情报工作》2008,52(6):110-110
全文检索系统由三大功能模块组成:索引模块、检索模块和存储模块。本文着重分析系统组成和XML数据库的设计、建立倒排索引文件、中文分词等技术难点。同时在此基础之上建立基于Lucene/XML的期刊文献全文检索系统。  相似文献   

6.
Lucene全文检索的应用及检索效率测试研究   总被引:1,自引:0,他引:1  
使用Lucene设计一个全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块.第二部分着重分析PDF数据转换,XML文档设计,索引的分词、建立及效率等技术难点,并对中文分词分析器、索引文件膨胀率、索引影响因子及检索系统并对检索响应时间进行测试.应关注XML数据库的安全性.  相似文献   

7.
对开源全文检索引擎Lucene的系统架构、索引与检索过程、语言分析器进行分析的基础上,针对其对中文只能进行单字切分、双字切分的不足,二次开发基于Lucene中英文语言分析器ZH_CNAnalyzer,并给出一个调用此分析器建立索引与检索的实例。  相似文献   

8.
基于反序词典的中文逆向最大匹配分词系统设计*   总被引:6,自引:0,他引:6  
介绍几种常见的分词算法,在改进传统的反序词典、优化逆向最大匹配算法的基础上,设计并实现基于逆向最大匹配的中文分词系统,试验证明速度和精度都有显著提高。  相似文献   

9.
针对受限领域的特点及现有分词面临的困难,比较现有分词的方法,选择并改进了最大分词算法,设计了一个基于受限领域的中文分词系统,在一定程度上比较好地解决了未登录词和分词歧义的问题。  相似文献   

10.
汉语分词技术综述   总被引:2,自引:1,他引:1  
首先介绍了汉语自动分词技术及基于词索引的中文全文检索技术,接着分别从文献自动标引、文摘自动生成、文本自动分类、文本信息过滤、自然语言检索接口和智能检索等方面详细地阐述了汉语自动分词技术在中文全文检索中的应用,并对目前汉语自动分词技术存在的局限性进行了分析,提出了发展思路,最后对汉语自动分词技术在中文全文检索中的应用前景进行了预测。  相似文献   

11.
针对当前网络环境下专业化学科信息服务需求的不断提高,简要介绍开源全文检索软件Lucene的特点,基于该软件设计实现学科信息服务平台的索引模块和检索模块,并就全文检索的性能与通用关系型数据库进行对比分析。对比结果表明,Lucene开源软件可有效提高学科信息服务平台的检索能力。  相似文献   

12.
[目的/意义] 构建一个基于多语言本体的跨语言信息检索模型,有助于用户通过该模型使用自己熟悉的语言来获取不同语种的信息资源。[方法/过程] 通过本体设计及检索模型功能模块设计建立一个基于数字出版领域本体的中英跨语言信息检索模型,并利用Java语言及Lucene搜索引擎架构对该模型进行编程实现。[结果/结论] 多语言领域本体具有明确、形式化、共享、概念化、结构清晰等特征,可以作为语义层应用于跨语言信息检索系统之中,实现信息资源的语义表达。经测试,本文构建的模型能够较好地实现分词、查询扩展和语义关联等功能,促进跨语言信息检索向语义层次发展。  相似文献   

13.
基于Lucene的Web站点站内全文检索系统的设计与实现   总被引:1,自引:0,他引:1  
曹强 《图书情报工作》2007,51(9):124-126,144
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和查准率方面的比较。  相似文献   

14.
采用开源软件Lucene、IKAnalyzer、Luke进行中文学术文献计量软件的开发实践。介绍该软件的实现框架、数据准备、索引建立、自定义SemicolonAnalyzer分析器中的关键实现代码,并对该软件的不同计量效果进行分析。研究的主要目的是利用开源软件降低计量软件开发的复杂度,为研究人员提供一种自行开发中文学术文献计量软件的可行方法。  相似文献   

15.
基于XML的全文检索原型系统的设计与实现*   总被引:1,自引:0,他引:1  
针对当前单位网站搜索引擎存在的索引速度慢、更新不及时、检索效率低等问题,在深入分析和研究Lucene和XML等技术在建立搜索引擎方面优越性能的基础上,构建一个基于XML的全文检索原型系统。该系统以XML作为通用数据接口,以Lucene作为实现平台,能够实现快速及时索引和提高检索效率的目的。  相似文献   

16.
对Lucene内部的相似度评分算法进行研究分析,指出其在书目搜索中,未考虑图书的受欢迎度这一因素对搜索结果排序的影响。提出一种改进的算法并予以实现。实验结果证明,改进的算法能将较受读者欢迎的图书排列在前,提升读者的书目搜索体验。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号