共查询到19条相似文献,搜索用时 140 毫秒
1.
自动标引研究的回顾与展望* 总被引:3,自引:0,他引:3
章成志 《现代图书情报技术》2007,2(11):33-39
对自动标引的研究进行总结与回顾。对标引对象进行界定;分析自动标引研究的3个阶段,并列出50年研究历程中的代表性方法;详细描述自动标引研究路线图、并对抽词标引与赋词标引方法进行详细分类;最后指出自动标引中存在的问题,并对今后的自动标引研究和应用方向进行展望。 相似文献
2.
分类法主题法一体化自动标引系统的基本原理和方法 总被引:7,自引:0,他引:7
本文阐述基于文献题名的自动标引系统的原理和方法,该系统是分类法主题法一体化的。文中说明了依据文献题名对文献进行分类和主题标引的可行性、从题名中自动轴词、以体系分类法为基础的自动分类用分类词表、自动分类规则及以分面分类法为基础的文献自动分类、自由体系自动分类、半自动抽词、检索系统的分类法主题法一体化检索功能保证检索系统质量的关键因素等问题。 相似文献
3.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
4.
基于条件随机场的自动标引模型研究 总被引:3,自引:1,他引:2
条件随机场(Conditional Random Fields,CRF)模型是一种概率图模型.为了有效利用标引对象的特征,并考虑到抽词标引可以转换为序列标注问题,本文提出基于条件随机场的自动抽词标引模型.实验结果表明,该模型在改善抽词标引的性能方面,要优于支持向量机、多元线性回归模型等其他机器学习方法,是到目前为止解决序列标注问题的最好方法.但是,该模型本身还不能解决由于样本中存在同义词和相近词带来的问题,需要进一步对训练集和标引过程中存在的词汇语义情况进行考虑,提高标引的质量. 相似文献
5.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。 相似文献
6.
7.
引文主题与源文献主题具有相关性.基于这一事实,本文提出了一种基于汉语科技文献引文的自动标引法.具体过程是以词典为依据对源文献与引文题名进行抽词处理,并为不同类型引文赋予不同的权重,在此基础上确定用于标引源文献的关键词.本文还对此法的可行性进行了测试,并提出了改进方法. 相似文献
8.
9.
微机辅助文献标引系统的设计与研究 3. 自动标引研究 总被引:2,自引:0,他引:2
在微机辅助文献标引系统中引入了自动标引方法, 进一步提高了标引的速度和质量。自动标引的基本思想是: 以机内主题词典为依据, 采用遍历扫描和相似性匹配两种方法, 从标题和文摘中抽词, 本文介绍了这一自动标引技术, 并对自动标引的结果进行了分析和讨论。 相似文献
10.
文章在对自动标引技术的原理、方法及划分、国内外研究发展现状和自动标引技术的优势简单介绍的基础上,提出了基于《中国分类主题词表》的文本自动标引系统的设计方案并对文本数据自动标引系统的流程及标引工作自动化处理过程进行了详细阐述. 相似文献
11.
一种使用自动聚类思想的自动文摘方法 总被引:5,自引:0,他引:5
本文提出了一种使用自动聚类思想的自动文摘方法 ,这种方法是进行自动文摘研究的一种新的有益的尝试。该方法首先利用词频统计方法得到文献的关键词向量、每个段落的关键词向量 ,然后利用自动聚类的方法将文献分为若干个段落类 ,从中选出与文献主题相关的段落类作为候选的用来挑出文摘句的段落类 ,最后从候选段落类中选出文摘句构成文摘 相似文献
12.
适用于隐含主题抽取的K最近邻关键词自动抽取 总被引:1,自引:0,他引:1
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题. 相似文献
13.
[目的/意义]传统的关键词自动抽取将摘要看成一个整体,常以候选词的出现频次等非语义信息构建特征,并未考虑学术文献摘要中目的、方法、结论等各个结构功能语义蕴含的差异性。本文以中文文献为研究对象,探讨候选词所在的结构功能域对关键词抽取的影响和作用。[方法/过程]本文将文献标题和摘要文本共分为4个结构功能域,在传统的词频、词长、词跨度等基准特征上,融合了基于BERT的语义特征和结构功能特征,并以不同的特征组合方式,使用图书情报领域的中文学术文献,基于分类模型进行关键词自动抽取实验。[结果/结论]实验结果表明,融合结构功能特征后,关键词抽取效果整体提升了6.82%,证明了学术文献摘要结构功能的识别形成的结构功能特征对关键词抽取效果的提升有良好作用。 相似文献
14.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。 相似文献
15.
句子相似度计算是自动问答系统的重要理论基础和关键实现技术.目前,用于中文自动问答系统的句子相似度计算方法很多,由于缺乏系统的分析,给研究人员带来了较大的不便.依据所利用的特征信息,可以将这些方法分为四类,即基于关键词信息、基于语义信息、基于句法结构信息以及基于多重信息.通过对各类方法实验结果的比较,指出各自的优势和不足.同时指出,基于多重信息的方法是当前的主流方法,实现不同特征信息的最佳权重分配是该类方法今后的研究重点.另外,还提出一个有关相似度概念认识上的看法,即对于中文自动问答系统,实质上依据的是句子的相关度,而不是句子的相似度.通过本文的研究,旨在为中文自动问答领域的句子相似度计算研究提供一定的参考. 相似文献
16.
17.
18.
自动文摘的四种主要方法 总被引:17,自引:0,他引:17
本文将现有的自动文摘方法概括为四种:自动摘录、基于理解的自动文摘、信息抽取和基于结构的自动文摘,并详细介绍了这四种方法的基本原理,剖析了它们的优点和不足。最后,概述了中文自动文摘的研究状况。 相似文献