共查询到20条相似文献,搜索用时 593 毫秒
1.
在PAT数组的基础上,引入LCP数组记录文本后缀串的相同前缀长度,通过扫描LCP数组快速抽取文本高频词。该算法不依赖于分词词典,通过探测重复出现串来提取高频词,并能够抽取任意重复字符串,对新词、组合词抽取特别有效。实验结果表明,该算法抽取的高频词可以达到较高的可接受率,在与ICTCLAS系统关键词抽取的比较中也有较高的相同率,且在发现组合词方面更具优势。 相似文献
2.
通过对《(丰子恺年谱)主要人名索引》的评价,从款目选择、款目参照、款目校对以及提高款目的信息检索效率等四方面对改进年谱人名索引的编制工作提出了几点建议。 相似文献
3.
对于大型索引工作来说,需要有较多甚至众多的人员参加。即使是现在使用电脑进行索引编制,也往往也需要多层次人员相互配合,协同工作。这样就存在一个管理的问题。管理得好,就会提高效益;管理不善,就会降低效率,甚至使索引工作归于失败。这个道理是显而易见的。在实际工作中人们会注意到如何改进管理,提高成效,但是往往忽略了从理论上去探讨,去提高。 相似文献
4.
介绍一种生物序列数据库的搜索算法--QUASAR,即采用索引的后缀数组,通过筛选q-gram进行局部比对的方式来搜索查询序列在数据库中的近似匹配,并运用窗口推移和分块查找的方法来加快搜索和节省搜索空间。同时,将QUASAR和最流行的BLAST搜索工具进行简单比较。 相似文献
5.
宁艳梅 《大学图书情报学刊》2002,20(4):92-94,41
对《中国大百科全书》与《Britannica》的索引进行了比较,分析了两个索引中款目结构、编排方式、检索功能的优点及不足之处,并指出了索引中需改进之处,以促进百科全书索引的理论研究和今后的编制工作。 相似文献
6.
《全国报刊索引》50周年纪念——回忆与期望 总被引:1,自引:0,他引:1
《全国报刊索引》创刊于1955年,是检索全国各学科报纸杂志资料的重要工具。文章回顾了《索引》的发展历程,介绍了其分类体系的演变轨迹,并对《索引》的改进提出了建议。 相似文献
7.
一种改进的余弦向量度量法文本检索模型 总被引:2,自引:1,他引:1
8.
本文对搜索引擎Google的网页级别(PageRank)技术进行了研究,整合各种技术和方法,总结出PageRank的计算方法。对搜索引擎建立索引的技术加以改进.将数据挖掘中的数据分类技术、自动化中的用户负反馈技术、后缀数组引入搜索引擎,大大提高了搜索引擎的查准率。 相似文献
9.
10.
图书索引的计算机制作吴立新图书索引是广大读者迅速查找所需信息的重要工具。然而采用手工制作索引工作量大,效率低,因此,利用计算机辅助制作索引已成为索引制作的发展方向。笔者曾在《材料大辞典》、《中国化工产品大全》以及《化工产品手册》有机分册、农化分册、染... 相似文献
11.
针对中文学术文献,提出一种新的自动标引方法,该方法基于文献之间的引用关系,利用被引文献的标引词,对遗传算法进行改进,实现自动标引,避免利用文献正文、标题等内部文本特征进行自动标引的局限性。通过在大规模真实测试集(中文学术文献)上进行实验,验证该方法的有效性。 相似文献
12.
后控规范的计算机处理 总被引:7,自引:1,他引:6
分析了建立情报检索系统时受控主题标引的不足之处:标引效率低、语义网得不到扩充、不一致的组配标引。提出了以后控规范为基础的标引体系。为使后控规范能方便地由计算机实现,研究了利用相似性匹配技术找出语义上有一定联系的术语,并由计算机半自动地建立用、代、属、分、参等语义关系的方法。 相似文献
13.
14.
文书类档案的分类标引研究 总被引:7,自引:0,他引:7
本文介绍了一种档案文献的计算机分类标引算法。该算法以主题词作为分类的依据,对不能直接映射归类的档案,统计文献主题词隶属于各个类的隶属度,利用模糊关系对档案进行分类标引,为了提高分类效率,使分类系统具有实用性,提出了几种措施。 相似文献
15.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。 相似文献
16.
文献信息自动标引研究 总被引:12,自引:0,他引:12
作者认为我国文献自动标引研究的重点应由分词研究向实际标引研究转移。由此, 作者从标引源的确立、标引词权值的定义和使用、标引词库的构造、自动标引算法的实现等方面阐述了他们在自动标引方面的研究成果, 同时介绍了利用标引词库进行的检索改造。 相似文献
17.
图书内容主题索引的自动编制实验 总被引:1,自引:1,他引:0
针对现有索引软件一般只能进行字面标引而不能实现概念标引的不足,提出了一个基于概念标引的图书内容主题索引自动编制方案,即将图书章节细化后,利用基于单篇文献的自动标引系统进行图书主题标引。通过三种标引系统对实验语料的标引结果统计来选择标引系统;其次通过对篇章结构分析,提出基于标题符号的标引源自动识别方案,同时给各标引源设定权重,提出主题词标引流程;最后还探讨了标引单元确定以及索引地址设计。实验表明,基于N-gram方法的图书内容主题索引的自动编制方法是可行的。 相似文献
18.
文书类档案的主题标引研究 总被引:4,自引:0,他引:4
本文介绍一种基于全文的主题词自动标引方法。该方法将切分关键词和标引主题词融为一体,合理地构造了词典。本文还给出一个确定标引主题词的加权函数,讨论了一些相关的技术问题 相似文献
19.
基于混合索引的中文全文检索系统研究 总被引:1,自引:0,他引:1
在中文全文检索系统中引入了混合索引,建立了混合索引之Hash索引,给出了Hash索引在内存中的存储结构,并给出了这种索引下的检索算法。这种索引既能保证索引的全面性,又能提高系统检索效率。通过实际构建系统,探讨了基于混合索引的中文全文检索系统的实现。 相似文献
20.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。 相似文献