共查询到19条相似文献,搜索用时 294 毫秒
1.
图书内容主题索引的自动编制实验 总被引:1,自引:1,他引:0
针对现有索引软件一般只能进行字面标引而不能实现概念标引的不足,提出了一个基于概念标引的图书内容主题索引自动编制方案,即将图书章节细化后,利用基于单篇文献的自动标引系统进行图书主题标引。通过三种标引系统对实验语料的标引结果统计来选择标引系统;其次通过对篇章结构分析,提出基于标题符号的标引源自动识别方案,同时给各标引源设定权重,提出主题词标引流程;最后还探讨了标引单元确定以及索引地址设计。实验表明,基于N-gram方法的图书内容主题索引的自动编制方法是可行的。 相似文献
2.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
3.
书后主题索引的自动编制初探 总被引:1,自引:0,他引:1
针对现有索引软件一般只能进行字面标引而不能实现概念标引的不足,提出了一个基于概念标引的书后主题索引自动编制方案,即将图书章节细化后利用基于单篇文献的自动标引系统进行图书主题标引。通过三种标引系统对实验语料的标引结果统计来选择标引系统;其次通过对篇章结构分析,提出基于标题符号的标引源自动识别方案,同时给各标引源设定权重,提出主题词标引流程;最后还探讨了标引单元确定以及索引地址设计。实验表明,基于N—gram方法的书后主题索引的自动编制方法是可行的。 相似文献
4.
针对中文学术文献,提出一种新的自动标引方法,该方法基于文献之间的引用关系,利用被引文献的标引词,对遗传算法进行改进,实现自动标引,避免利用文献正文、标题等内部文本特征进行自动标引的局限性。通过在大规模真实测试集(中文学术文献)上进行实验,验证该方法的有效性。 相似文献
5.
6.
为了解决中文学术期刊电子化过程中出现的自动分类问题,提出了一种基于中文学术期刊人工标引的自动分类算法。这种算法主要利用自动分词得到各文献的特征词向量空间,并考虑到人工标引在分类中的关键作用,得到综合了特征词IF和IDF权重的分类准则。通过适当训练建立分类库,计算待分类样本与已知分类的相似性,判别各分类。实验表明,该分类算法可以获得85%以上的分类识别率。 相似文献
7.
8.
9.
用于中文信息自动分类的《中图法》知识库的构建 总被引:4,自引:0,他引:4
中文文献数据库中存在着大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些数据的加工整理,以《中图法》类目体系为主干,组织各学科领域的语词,从而构建出反映分类号与语词概念对应关系的《中图法》知识库,用以实现信息的自动标引和自动分类。构建《中图法》知识库面临着一些难题:异构数据的整合;原始数据中分类号与主题词或词串之间一对多、多对多关系的筛选;标引词串与知识库中的词串的相符性比较等。图2。参考文献8。 相似文献
10.
为了提高海量新闻信息分类的效率,本文探索研究基于Transformer(转换器)模型和《中文新闻信息分类与代码》标准的自动分类标引,包括自动归类、聚类、检索标志的智能抽取,以及人工标引和自动标引的互相结合。Transformer模型训练数据特征效率更高,适应能力更强。基于标准的自动分类表更灵活,更高效,自动标引具有广泛的应用前景。 相似文献
11.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。 相似文献
12.
数字信息资源的自动分类和主题识别--OCLC"蝎子计划"研究 总被引:2,自引:0,他引:2
“蝎子计划(Scorpion Project)”是美国 OCLC 利用《杜威十进分类法》电子编辑支持系统(ESS)对数字信息资源进行自动分类和主题识别的一个研究项目。本文简要介绍了该项目的进展情况、实施原理,描述了 Scorpion 对数字信息资源进行自动分类和主题识别的具体流程,并将其与我们自行研发的基于《中图法》知识库的中文信息自动标引和自动分类系统进行对比分析,以探讨 Scorpion 对中文信息自动分类和主题识别的借鉴意义。 相似文献
13.
关于MBA类图书在《中国图书馆分类法》(第五版)中合理归类的探讨 总被引:1,自引:0,他引:1
分析MBA类图书分类标引现状;并对总论“MBA”类图书归入不同类目是否妥当,作深入的探讨;并依据MBA类图书学科属性、《中图法》(第五版)F2经济管理类目体系、文献分类学知识,明确此类文献在《中图法》(第五版)中的合理归类. 相似文献
14.
自动标引研究的回顾与展望* 总被引:3,自引:0,他引:3
章成志 《现代图书情报技术》2007,2(11):33-39
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。 相似文献
15.
16.
《中国分类主题词表》的结构及功能评介张强Abstract:The"ChineseClassifiedsubjectThesaurus"withitsintegrationofclassificationandsubjectindexingisChin... 相似文献
17.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。 相似文献
18.
高明 《大学图书情报学刊》2004,22(2):44-45,88
文章论述构建军队院校重点学科信息导航系统的必要性和导航系统的信息采集范围,提出了应解决的有关问题及相应解决办法,如搜索引擎、中文信息自动标引和分类、数据并发处理、导航系统相关服务等. 相似文献