首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
网络环境下,文献信息具有数量多、增长快、文献信息中的新词层出不穷等特点。标引是对信息资源进行组织的有效手段和重要环节,标引的质量和效率直接影响信息组织的质量和速度。为了比较受控标引、自由标引和自动标引三种标引方式的标引性能,本文从定量的角度对三种标引方式的相符度、专指度、标引深度及通用词数进行了测试对比,并分析了它们的综合性能。最后,分析讨论了网络环境下文本信息标引方式的选择和发展趋势。表5。图1。参考文献9。  相似文献   

2.
针对国内外著名数据库受控标引的标引方式、标引字段的现状和发展趋势进行深入分析,指出目前虽然受控标引以机器辅助标引为主,但自动标引也有成功案例。标引字段除标引文献主题内容外已扩至对文献中的图表、重要数值、化学分子式等进行标引,并采用与分类标引、非受控语言标引相结合的多维度标引模式。最后,基于目前国内外受控标引发展水平的差异,提出国内应从三个方面予以改进。  相似文献   

3.
受控标引和受控词表的应用   总被引:1,自引:0,他引:1  
本文介绍了受控标引的定义、特点,并对当前关于受控标引和受控语言已经过时的论点进行了反驳,认为受控标引和受控语言具有自然语言所不能代替的优点。文章还论述了受控词表在数据库、搜索引擎、DC元数据中的应用,进一步证明受控语言在当前网络环境下具有一定的地位,认为当前文献信息的组织和利用应该把受控语言和自然语言结合起来。  相似文献   

4.
通过采用单汉字索引技术在FOXPRO环境下自行设计的实验系统,以《新华日报》为例,实验比较了在自动标引方式和自由标引方式下新闻信息数据库的检索效率,并分析了两种标引方式对检索效率的影响关系,从而探讨用机器自动标引替代手工自由标引的可能性。文章还提出了改进的建议及实验需要的原则。  相似文献   

5.
张琪玉 《中国索引》2006,4(1):55-56
19 自由标引中标引副标题概念词的问题 1 本文用词说明 本文所用“自由标引”一词是指不依据词表的人工标引,属于自然语言标引的范畴。期刊论文的在版标引一般都是自由标引。自由词补充标引是受控标引与自由标引的结合,不包括在本文讨论的范围内。  相似文献   

6.
基于集成学习的自动标引方法研究   总被引:1,自引:0,他引:1  
目前大多数自动标引方法不能有效利用文本中包含的多个特征.而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取.同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量.为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引.实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率.另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果.  相似文献   

7.
章成志 《中国索引》2009,7(2):16-23
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明,基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。  相似文献   

8.
自动标引研究的回顾与展望*   总被引:3,自引:0,他引:3  
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。  相似文献   

9.
基于知识库的网页自动标引和自动分类系统的设计   总被引:15,自引:0,他引:15  
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。  相似文献   

10.
新中国成立以来,我国的文献标引经历了从分类标引、主题标引到多元化标引的过程,标引方法愈加丰富,标引技术不断进步,逐步由人工标引、机器辅助标引过渡到自动标引,进一步向智能标引方向发展。虽然国内针对文献标引及相关技术的研究较为丰富,但是对文献标引的综述性研究却相对薄弱,无法有效地呈现在现代信息技术驱动下,文献标引领域的发展态势和应用前景。本文在已有研究的基础上,对我国文献标引研究趋势进行分析,提出我国文献标引研究主要呈现两个阶段的发展态势:一是21世纪之前的以传统标引为主体的发展阶段;二是21世纪之后的以自动标引为主体的发展阶段。人工及机器辅助等以传统标引为主体的研究,为自动标引的发展奠定了良好基础,促使自动标引在标引技术、标引系统和标引方法等方面都取得了较为显著的发展,文献标引的应用领域得到更为深入的拓展。但是,文献标引研究更多是在人工智能领域和语言学领域,势必需要图情领域充分发挥自身在文献标引领域研究的理论和实践的优势,再结合其他学科的研究成果,从而使图书馆学传统的文献标引技术符合时代的发展,并产生溢出效应,和其他学科共同发展。  相似文献   

11.
标引人员的智慧与文献标引的质量密切相关。提高标引人员的素养很重要。标引人员需要在标引实践中磨练。自动标引研究已有半个世纪,其标引质量至今未能超过人工标引而取代人工标引,究其原因在于计算机不具备优秀标引人员的智慧,不适应近乎艺术创造的标引作业。可以揣测,没有标引人员介入的、高度自动化的文献标引处理的实现,至少还要等待一个相当长的时间。人工标引研究的成果将有助于自动标引研究中一些难题的解决。不可轻视人工标引的研究。  相似文献   

12.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。  相似文献   

13.
统计分析法自动标引的改进研究   总被引:2,自引:0,他引:2  
统计分析法自动标引是自动标引的一种重要方法。本文从标引词应反映文献主题内容这一原则出发,对统计分析法自动标引从标引源的确定、权值的设计、词频的调整及检索后控词表的设计与维护等方面提出了一些改进设想。通过这些方法使标引词更好地反映文献主题的同时提高检索效率。  相似文献   

14.
近五年来自动标引研究在关键词抽取、标引系统设计、自动分类标引、网络信息自动标引、数字图像标引、音频信息标引、视频信息标引、自动标引结果评价等方面取得很大进展,但尚存弱点与不足之处,还不能达到人工标引的效果。今后的研究将朝着探索更优越的语言分析技术、更高端的多媒体信息自动标引方法、高效的知识库智能自学习机制、多种标引方法或模型的互补的集成学习等方向发展。  相似文献   

15.
为缓解海量文献关键词标引的巨大压力,文章构建了用于海量文献关键词标引的计算机辅助加工系统,对标引数据预处理规范、自动标引核心工作区和人工标引校对平台进行了具体阐述。文章采用数据测试方法确定了自动标引软件,在单一软件不能满足标引要求后探索了多种机标结果后处理方式提升机标质量,最终由人工标引校对平台保证海量文献关键词标引质量的同时,将机标出现的问题和改进意见反馈给软件设计和词表维护,保证了计算机辅助加工系统的持续改进。  相似文献   

16.
论自动标引的实际应用   总被引:2,自引:0,他引:2  
探讨电子环境下自动标引的特点、标引观念的转变以及影响自动标引的因素等问题。  相似文献   

17.
讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引,运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析,重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。  相似文献   

18.
针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。  相似文献   

19.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号