共查询到18条相似文献,搜索用时 343 毫秒
1.
基于Lucene的中文字典分词模块的设计与实现 总被引:8,自引:1,他引:8
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。 相似文献
2.
Ftp服务器是因特网最主要的服务器之一,其搜索引擎为人们使用Ftp服务提供了很大的方便.基于Lucene而设计的Ftp搜索引擎将会为用户提供更多更好的服务。本文主要论述了设计基于Lucene的Ftp搜索引擎的详细流程。 相似文献
3.
分析Lucene的语言分析器结构,针对其只能进行中文单字、双字切分的不足,采用基于词典的正向最大匹配分词算法,设计并实现基于Lucene的中英文语言分析器ZH_CNAnalyzer,实验结果表明其能够对中英文文档进行高效索引,满足实际应用的需要。 相似文献
4.
基于Lucene的Web站点站内全文检索系统的设计与实现 总被引:1,自引:0,他引:1
设计一个基于开源检索工具包Lucene的Web站点站内全文检索系统,详述系统的设计思路与体系架构,并对中英文分词和添加文档索引等关键技术给出具体代码和实现步骤;最后对该系统进行简单的性能测试并与通用搜索引擎的检索结果进行查全率和查准率方面的比较。 相似文献
5.
基于XML的全文检索原型系统的设计与实现* 总被引:1,自引:0,他引:1
针对当前单位网站搜索引擎存在的索引速度慢、更新不及时、检索效率低等问题,在深入分析和研究Lucene和XML等技术在建立搜索引擎方面优越性能的基础上,构建一个基于XML的全文检索原型系统。该系统以XML作为通用数据接口,以Lucene作为实现平台,能够实现快速及时索引和提高检索效率的目的。 相似文献
6.
张锦炘 《图书馆研究与工作》2009,(1)
Nutch是一个开放源代码的web搜索引擎,是以Lucene为基础实现的搜索引擎应用程序,由于不夹杂商业利益,它对搜索结果的排序算法较为透明公平。文章重点讨论Nutch的工作原理及其中文分词技术,并尝试构建基于nutch的中文搜索引擎。 相似文献
7.
Lucene全文检索的应用及检索效率测试研究 总被引:1,自引:0,他引:1
使用Lucene设计一个全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块.第二部分着重分析PDF数据转换,XML文档设计,索引的分词、建立及效率等技术难点,并对中文分词分析器、索引文件膨胀率、索引影响因子及检索系统并对检索响应时间进行测试.应关注XML数据库的安全性. 相似文献
8.
9.
10.
针对DSpace开源系统基于Lucene的全文索引和关键词检索技术存在的问题,在特色库建设中引入了Solr搜索服务,替换了原有的Lucene分析器,强化了分面搜索、分面浏览、访问统计的发现功能,探索了词汇控制规范检索、分类法强化学科属性、自由词检索方式。 相似文献
11.
传统搜索引擎通常靠抓取全文关键词进行分析,由此带来三大缺陷:缺乏语义描述导致查准率低;检索结果冗余模糊导致检索效率低;检索途径不足。基于DC元数据描述网络资源的优越性,课题组设计了一个基于DC元数据的网络搜索引擎系统DCSE,力图克服传统搜索引擎的上述缺陷。DCSE系统自动抓取含DC描述的Web网页,把DC描述信息存入到数据库,排序索引后提供用户检索。检索界面设计成以15个DC元素为检索项的多项逻辑组合检索,检索结果以各DC元素的描述内容来显示,如标题、创建者、描述、日期等。用户通过多项组合检索提高查准率,并通过清晰的结果显示对所需信息做出快速判断、选择,从而达到提高检索效率的目的。 相似文献
12.
一种基于Native XML的全文检索引擎 总被引:5,自引:0,他引:5
随着XML的日益流行 ,基于XML的全文检索应用需求也迅速扩大。在这些应用中 ,native XML数据库是发展方向。虽然商业化的native XML数据库已经出现 ,但其全文检索的性能还不尽人意。本文提出一种方法 :在传统的倒排索引的框架下 ,对XML的标记建立索引 ,使得一个全文数据库能够以Native的方式存储、索引、检索和输出XML文档 ,成为一个真正意义上的native XML全文数据库 ,既有传统全文数据库的优越性能 ,又能满足基于na tive XML的应用需求 相似文献
13.
全文检索系统由三大功能模块组成:索引模块、检索模块和存储模块。本文着重分析系统组成和XML数据库的设计、建立倒排索引文件、中文分词等技术难点。同时在此基础之上建立基于Lucene/XML的期刊文献全文检索系统。 相似文献
14.
基于长度递减与串频统计的文本切分算法 总被引:5,自引:4,他引:5
提出了一种基于汉字串频度及串长度递减的中文文本自动切分算法。采用长串优先匹配法,不需要词典,不需要事先估计字之间的搭配概率,不需要建立字索引,利用串频信息可以自动切分出文本中有意义的汉字串。该算法能够有效地切分出文本中新涌现的通用词、专业术语及专有名词,并且能够有效避免具有包含关系的长、短汉字串中的短汉字串的错误统计。实验表明,在无需语料库学习的情况下,该算法能够快速、准确地切分出中文文档中出现频率大于等于支持度阈值的汉字串。 相似文献
15.
基于语义联想的中文图像搜索引擎——构想与实验* 总被引:5,自引:1,他引:4
在分析了目前主流中文图像搜索引擎研究和开发的优点和缺点基础上,结合实际开发经验,提出一个基于语义联想的中文图像搜索引擎的构想。在图像内容信息表示上充分利用相关的文本信息。系统通过分析用户的检索行为记录,自动发现词间关系,并用知识库的方式来组织和存储图像信息,达到语义联想的功能。 相似文献
16.
全二分快速自动分词算法构建 总被引:1,自引:0,他引:1
张海营 《现代图书情报技术》2007,2(4):52-55
分析现有分词算法存在的不足,在此基础上提出一种新的分词词典,通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词,其时间复杂度实现了大的改善。 相似文献
17.
18.
本文采用BORLANDIDAPI关系数据库集成技术,集成多种关系数据库系统,并用信息存储与检索软件QUICKIMS进行管理,实现对关系数据库的全文检索。对基于PC和基于SQL的关系数据库数据结构、数据访问方式、数据类型进行集成;对基本表和单库或多库查询的结果进行转移,生成QUICKIMS的必要文件和索引;对关系数据库提供布尔检索、前方一致检索、字段限定检索、相邻检索和位置检索等检索方式。采用动态转换关系数据库数据,减少了空间的浪费 相似文献