首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 343 毫秒
1.
基于Lucene的中文字典分词模块的设计与实现   总被引:8,自引:1,他引:8  
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。  相似文献   

2.
Ftp服务器是因特网最主要的服务器之一,其搜索引擎为人们使用Ftp服务提供了很大的方便.基于Lucene而设计的Ftp搜索引擎将会为用户提供更多更好的服务。本文主要论述了设计基于Lucene的Ftp搜索引擎的详细流程。  相似文献   

3.
分析Lucene的语言分析器结构,针对其只能进行中文单字、双字切分的不足,采用基于词典的正向最大匹配分词算法,设计并实现基于Lucene的中英文语言分析器ZH_CNAnalyzer,实验结果表明其能够对中英文文档进行高效索引,满足实际应用的需要。  相似文献   

4.
基于Lucene的Web站点站内全文检索系统的设计与实现   总被引:1,自引:0,他引:1  
曹强 《图书情报工作》2007,51(9):124-126,144
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和查准率方面的比较。  相似文献   

5.
基于XML的全文检索原型系统的设计与实现*   总被引:1,自引:0,他引:1  
针对当前单位网站搜索引擎存在的索引速度慢、更新不及时、检索效率低等问题,在深入分析和研究Lucene和XML等技术在建立搜索引擎方面优越性能的基础上,构建一个基于XML的全文检索原型系统。该系统以XML作为通用数据接口,以Lucene作为实现平台,能够实现快速及时索引和提高检索效率的目的。  相似文献   

6.
Nutch是一个开放源代码的web搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,由于不夹杂商业利益,它对搜索结果的排序算法较为透明公平。文章重点讨论Nutch的工作原理及其中文分词技术,并尝试构建基于nutch的中文搜索引擎。  相似文献   

7.
Lucene全文检索的应用及检索效率测试研究   总被引:1,自引:0,他引:1  
使用Lucene设计一个全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块.第二部分着重分析PDF数据转换,XML文档设计,索引的分词、建立及效率等技术难点,并对中文分词分析器、索引文件膨胀率、索引影响因子及检索系统并对检索响应时间进行测试.应关注XML数据库的安全性.  相似文献   

8.
许琦  顾新建  胡恒杰 《情报学报》2007,26(4):588-593
通用搜索引擎虽然功能强大,但存在一些缺陷,如索引库更新不及时、响应速度慢等,而且没有对检索结果根据用户的个人需求做过滤处理.针对这些问题,本文主要从用户个性化需求出发对个性化搜索系统进行了研究,阐述了基于全文索引工具包Lucene所研究开发的一种个性化智能搜索引擎系统.首先介绍了系统的结构模型和工作流程,然后对系统各模块的设计做了详细的研究.实验结果表明,在面向用户定制的站点的信息检索服务中,系统的综合性能比通用搜索引擎有所提高.  相似文献   

9.
汉语分词对中文搜索引擎检索性能的影响   总被引:3,自引:0,他引:3  
金澎  刘毅  王树梅 《情报学报》2006,25(1):21-24
针对中文网页的特点,研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用网页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。  相似文献   

10.
针对DSpace开源系统基于Lucene的全文索引和关键词检索技术存在的问题,在特色库建设中引入了Solr搜索服务,替换了原有的Lucene分析器,强化了分面搜索、分面浏览、访问统计的发现功能,探索了词汇控制规范检索、分类法强化学科属性、自由词检索方式。  相似文献   

11.
传统搜索引擎通常靠抓取全文关键词进行分析,由此带来三大缺陷:缺乏语义描述导致查准率低;检索结果冗余模糊导致检索效率低;检索途径不足。基于DC元数据描述网络资源的优越性,课题组设计了一个基于DC元数据的网络搜索引擎系统DCSE,力图克服传统搜索引擎的上述缺陷。DCSE系统自动抓取含DC描述的Web网页,把DC描述信息存入到数据库,排序索引后提供用户检索。检索界面设计成以15个DC元素为检索项的多项逻辑组合检索,检索结果以各DC元素的描述内容来显示,如标题、创建者、描述、日期等。用户通过多项组合检索提高查准率,并通过清晰的结果显示对所需信息做出快速判断、选择,从而达到提高检索效率的目的。  相似文献   

12.
一种基于Native XML的全文检索引擎   总被引:5,自引:0,他引:5  
王弘蔚  肖诗斌 《情报学报》2003,22(5):550-556
随着XML的日益流行 ,基于XML的全文检索应用需求也迅速扩大。在这些应用中 ,native XML数据库是发展方向。虽然商业化的native XML数据库已经出现 ,但其全文检索的性能还不尽人意。本文提出一种方法 :在传统的倒排索引的框架下 ,对XML的标记建立索引 ,使得一个全文数据库能够以Native的方式存储、索引、检索和输出XML文档 ,成为一个真正意义上的native XML全文数据库 ,既有传统全文数据库的优越性能 ,又能满足基于na tive XML的应用需求  相似文献   

13.
彭哲 《图书情报工作》2008,52(6):110-110
全文检索系统由三大功能模块组成:索引模块、检索模块和存储模块。本文着重分析系统组成和XML数据库的设计、建立倒排索引文件、中文分词等技术难点。同时在此基础之上建立基于Lucene/XML的期刊文献全文检索系统。  相似文献   

14.
基于长度递减与串频统计的文本切分算法   总被引:5,自引:4,他引:5  
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。  相似文献   

15.
基于语义联想的中文图像搜索引擎——构想与实验*   总被引:5,自引:1,他引:4  
在分析了目前主流中文图像搜索引擎研究和开发的优点和缺点基础上,结合实际开发经验,提出一个基于语义联想的中文图像搜索引擎的构想。在图像内容信息表示上充分利用相关的文本信息。系统通过分析用户的检索行为记录,自动发现词间关系,并用知识库的方式来组织和存储图像信息,达到语义联想的功能。  相似文献   

16.
全二分快速自动分词算法构建   总被引:1,自引:0,他引:1  
分析现有分词算法存在的不足,在此基础上提出一种新的分词词典,通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词,其时间复杂度实现了大的改善。  相似文献   

17.
针对传统的like通配符检索存在的问题,提出基于二元中文分词的高效率检索算法的思路、流程,给出核心算法代码;在消除重复词语、查全率、查准率、多字词检索等方面,与传统检索进行比较,各方面评测结果都优于传统检索;基于二元中文分词的高效率检索算法,简单、高效、容易实现,以期在信息系统的检索模块中得以利用,提高信息检索效率,减小信息搜索成本。  相似文献   

18.
本文采用BORLANDIDAPI关系数据库集成技术,集成多种关系数据库系统,并用信息存储与检索软件QUICKIMS进行管理,实现对关系数据库的全文检索。对基于PC和基于SQL的关系数据库数据结构、数据访问方式、数据类型进行集成;对基本表和单库或多库查询的结果进行转移,生成QUICKIMS的必要文件和索引;对关系数据库提供布尔检索、前方一致检索、字段限定检索、相邻检索和位置检索等检索方式。采用动态转换关系数据库数据,减少了空间的浪费  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号