共查询到18条相似文献,搜索用时 93 毫秒
1.
2.
全文检索系统由三大功能模块组成:索引模块、检索模块和存储模块。本文着重分析系统组成和XML数据库的设计、建立倒排索引文件、中文分词等技术难点。同时在此基础之上建立基于Lucene/XML的期刊文献全文检索系统。 相似文献
3.
Lucene全文检索的应用及检索效率测试研究 总被引:1,自引:0,他引:1
使用Lucene设计一个全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块.第二部分着重分析PDF数据转换,XML文档设计,索引的分词、建立及效率等技术难点,并对中文分词分析器、索引文件膨胀率、索引影响因子及检索系统并对检索响应时间进行测试.应关注XML数据库的安全性. 相似文献
4.
基于混合索引的中文全文检索系统研究 总被引:1,自引:0,他引:1
在中文全文检索系统中引入了混合索引,建立了混合索引之Hash索引,给出了Hash索引在内存中的存储结构,并给出了这种索引下的检索算法。这种索引既能保证索引的全面性,又能提高系统检索效率。通过实际构建系统,探讨了基于混合索引的中文全文检索系统的实现。 相似文献
5.
面向大规模语料库的全文检索系统研究 总被引:1,自引:0,他引:1
随着语料库规模的不断扩大和基于语料库的应用研究逐步拓展,对语料库的全文检索成为语料库系统中不可缺少的重要的组成部分。文章对面向大规模语料库的全文检索系统的索引模式、检索算法、检索表达式的构建、自动分词、系统组成等进行了研究,并基于大规模语料库的语言文字信息处理和应用研究的需要,开发了中文信息处理系统——“CIPP”。目前该系统具有全文检索、自动分词、语言统计等功能,在千万字数量级的语料库中,其全文平均检索时间小于1秒。 相似文献
6.
国内中文自动分词技术研究综述 总被引:22,自引:0,他引:22
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点. 相似文献
7.
8.
本文介绍了一个基于Brwser/Server的大容量中文全文检索系统,它涉及到Web服务器,CGI通用网关接口,中文索相技术等。通过我们在校园网上建立信息检索Web站点的实践,介绍了在CGI通过C语言程序访问索引文件和数据库的技术。 相似文献
9.
在分词技术、索引技术、结构化查询语言技术的基础上,提出了一个基于XML文档数据库的信息检索系统,这一系统模型主要由分词模块、索引模块及查询模块组成。 相似文献
10.
全文检索中的汉语自动分词及其歧义处理 总被引:3,自引:0,他引:3
歧义处理是汉语自动分词的核心问题,汉语自动分词是中文信息检索的基础性课题。目前有基于词典的分词方法、基于统计的分词方法、基于语义的分词方法和基于人工智能的分词方法。自动分词的歧义处理,目前主要有:利用“长词优先”排歧,利用特征词消歧,利用“互信息”和“t-信息差”消歧,利用专家系统分词消歧。参考文献15。 相似文献
11.
12.
13.
14.
This article provides a brief history of the development of the MEDLINE database and its huge impact within the UK, from its inception to the present time. The origins of MEDLINE can be traced back to a collection of books in the US Surgeon General's Office during the American Civil War and John Shaw Billings' decision, during 1867, to make this Library as complete as possible. From these beginnings, Index Medicus was developed in the early years of the 20th century, and electronic versions of the database began with the computerized on-demand search service MEDLARS in 1964 and then via CD-ROM and Internet Grateful Med to the web-based and free-to-all service, PubMed, in 1997. The response to PubMed was immediate and startling with usage increasing from 7 million searches per annum in 1996 to 400 million searches per annum in 2001 and the service continues to improve. MEDLINE providers are now offering mapping of natural language queries to the sophisticated indexing vocabulary (Medical Subject Headings, MeSH) and the provision of specific filters for different types of publication to improve searching efficiency, as well as links to full-text versions of the papers where available. The next steps are likely to involve an increased blurring of database and full-text boundaries, incorporating seamless access to the best available evidence within MEDLINE and a wide range of other information resources within a single search and to an increasing amount of full-text via various open-archive initiatives. As ever, the US National Library of Medicine is in the vanguard of research and further applications of its MEDLINE database for users within the UK will be awaited with great interest. 相似文献
15.
Dentistry &; Oral Sciences Source from EBSCO Information Services provides indexing and full-text access to an extensive selection of dental journal literature, as well some full-text dental monographs. As stated by EBSCO, titles are chosen from those commonly held in dental school libraries. The database aims to support practitioners, researchers, and advanced dental education. This column includes sample searches from Dentistry &; Oral Sciences Source as well as a discussion of its special content and features. 相似文献
16.
基于作者中文图书主题标引的工作实践,重点阐述了中文图书主题标引工作中的主题词的查找、在版编目数据的利用以及标引工具书的使用。同时,就标引人员如何提高中文图书主题标引质量谈了自己的看法。 相似文献
17.
汉字全文数据库索引机制的定量研究 总被引:11,自引:1,他引:10
杨沛 《现代图书情报技术》1996,12(2):15-19
本文从定量方面就汉字全文数据库的单汉字、词索引两种机制在空间、时间、检索效率等方面进行比较分析。通过试验结果, 可为数据库软件开发人员在改善索引效率和检索效率时提供参考依据, 为用户选择软件提供帮助。并探讨了两种机制的发展趋势。 相似文献