首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
用于中文信息自动分类的《中图法》知识库的构建   总被引:1,自引:0,他引:1  
分类号、主题词、关键词是三种主题概念标识,三者之间存在着概念对应关系,即兼容关系。中文文献数据库中存在着大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些数据的加工整理,以《中图法》类目体系为主干组织各学科领域的语词,从而构建出反映分类号与语词概念对应关系的《中图法》知识库,用以实现信息的自动标引和自动分类。本文详细讨论了该知识库的构建原理、结构、编制使用的关键技术以及主要应用等。  相似文献   

2.
用于中文信息自动分类的《中图法》知识库的构建   总被引:4,自引:0,他引:4  
中文文献数据库中存在着大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些数据的加工整理,以《中图法》类目体系为主干,组织各学科领域的语词,从而构建出反映分类号与语词概念对应关系的《中图法》知识库,用以实现信息的自动标引和自动分类。构建《中图法》知识库面临着一些难题:异构数据的整合;原始数据中分类号与主题词或词串之间一对多、多对多关系的筛选;标引词串与知识库中的词串的相符性比较等。图2。参考文献8。  相似文献   

3.
顾颖  何琳 《图书情报工作》2012,(19):109-113
认为中文文献数据库中存在大量的分类号与关键词(或主题词)对应的人工标引记录。通过对这些标引记录信息进行聚合处理,可以实现计算机自动编制分类主题词表。比较两种分类主题词表的编制模式,讨论机编分类主题词表的优势,针对机编分类主题词表已有的成果——知识库的不足之处提出改进方案。改进方案在小规模测试集中取得了良好的效果。最后分析将机编分类主题词表技术应用于新一代《中国分类主题词表》升级改造的良好前景。  相似文献   

4.
使用基于《中图法》知识库的中文信息自动标引和自动分类系统,对中文图书进行自动标引与自动分类的实验,以测试该系统对图书的适用性。实验通过对中文图书进行计算机自动标引与自动分类、人工打分测评、测试结果统计分析,得出中文图书的各标引源主题表达能力依次为:书名、内容提要、两级目次、参考文献、一级目次,在此基础上对标引源进行加权设计,权值设为5:3:2:2。实验证明该系统用于中文图书的自动标引与自动分类是可行的。表6。参考文献9。  相似文献   

5.
查贵庭  侯汉清 《情报学报》2002,21(3):273-277
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。  相似文献   

6.
中文信息自动分类用知识库的设计与构建   总被引:11,自引:2,他引:9  
侯汉清  薛鹏军 《情报学报》2003,22(6):681-686
在计算机智能处理技术远未成熟的情况下 ,基于概念语义网络的自动分类采用知识库技术 ,仍将是一种实用的选择。本项研究根据分类语言、主题语言、自然语言三者兼容互换的原理 ,以众多标引员的主题标引和分类标引的经验 ,即文献数据库实体中大量存在的文献分类号和主题词双重标引数据为基础 ,建立一个以《中图法》为基础的的分类知识库———分类法与主题词表对照数据库。论文对构建分类知识库的思路、步骤及主要技术 ,包括关联度测度方案、标引词模式匹配、新词增补等进行了讨论  相似文献   

7.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

8.
中文网页标引源主题表达能力的调查统计   总被引:22,自引:1,他引:21  
通过对随机采集的300篇中文经济类网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值,以便为自动标引及人工智能搜索引擎的研制提供数据。  相似文献   

9.
基于语料和基于标引经验的自动分类模式比较   总被引:1,自引:0,他引:1  
以传统文献分类体系为框架,构建知识库或分类器来实现信息的自动分类是信息加工自动化的一个发展方向。这种自动分类系统一般有两种模式:基于训练语料和基于人工标引经验。我实验室分别在这两种模式的基础上设计开发了两个不同的自动分类系统。本文将详细介绍这两个自动分类系统的结构、设计及其构建,然后分别从原理、知识库构建、分类算法等方面对这两者进行比较分析。  相似文献   

10.
近五年来自动标引研究在关键词抽取、标引系统设计、自动分类标引、网络信息自动标引、数字图像标引、音频信息标引、视频信息标引、自动标引结果评价等方面取得很大进展,但尚存弱点与不足之处,还不能达到人工标引的效果。今后的研究将朝着探索更优越的语言分析技术、更高端的多媒体信息自动标引方法、高效的知识库智能自学习机制、多种标引方法或模型的互补的集成学习等方向发展。  相似文献   

11.
汉语分词对中文搜索引擎检索性能的影响   总被引:3,自引:0,他引:3  
金澎  刘毅  王树梅 《情报学报》2006,25(1):21-24
针对中文网页的特点,研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用网页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。  相似文献   

12.
The abbreviation of Chinese sentence-mode subject indexing is the "sentence-mode method" -a new method for Chinese scientific and technical document subject indexing retrieval. The Chinese sentence-mode being a form of the retrieval language, is compatible with some characteristics of subject indexing and classification. The article also makes an approach to a new may for the standardization of mark unit. In each particular subject, there exists objectively a kind of "concept unit" which one may follow to use.The 'concept unit'is not like the unit word of the basic word method,nor is it like the subject word derived from a thesaurus artificially standardized.It is an objective,intrinsic concept unit separated out from a particular subject,i.e.a kind of standard subject word of a special form without a thesaurus.The method has already been retrieved and tested by a computer.1 table.  相似文献   

13.
本文介绍了用.数据库管理系统FOXBASE编写的自动标引系统,其中主要介绍的基本思想、实现过程及其特点。文中着重介绍了词标引、主题标引、赋词标引和抽调标引的方法,和在Compaq386机上建立的试验系统。  相似文献   

14.
《中国分类主题词表》Web版人物主题词在注释、分类、中国人名英文拼写等方面存在着一系列问题。有鉴于此,本文依据相关文献,就自己的理解,谈了一点看法和改进建议。  相似文献   

15.
组织专家的检索系统设计与实现   总被引:3,自引:0,他引:3  
组织专家的检索是当前垂直信息检索研究的热门领域,也是组织信息检索研究的重要内容。本文总结了目前国内外组织专家的检索研究现状,分析了构建组织专家的检索系统的需求和挑战,采用基于相关文档集的归并排序法,利用组织内外的网页和期刊数据库等信息智能识别专家的专长,并基于此设计了从数据资源采集、规整、索引、检索到可视化等整个过程的组织专家的检索系统模型及以武汉大学为例的检索系统平台。  相似文献   

16.
我国第一部语词索引《老解老》研究   总被引:4,自引:0,他引:4       下载免费PDF全文
《老解老》是中国人最早编纂的汉文古籍语词索引,运用了新兴的汉字逐字索引技术并加以创新,对古籍研究方法和索引技术产生了较大影响,在中国索引学史上占有一席之地。它已经具有完整的现代索引结构。其创新主要表现在:应用词语中词索引技术,引进索引文句结束标识符号,索引排序和词频统计。表3。图2。参考文献12。  相似文献   

17.
基于分类标注语料库的关键词标引知识自动获取   总被引:1,自引:0,他引:1  
基于大规模层级分类语料库,抽取网页上专家已经标引的关键词形成关键词表;针对关键词的领域不均匀性和邻界域两个特征,提出并模拟计算了关键词表征文本主题特征程度的主题度。以关键词及其主题度为领域知识,结合统计方法,完成了一个知识与统计相结合的关键词自动标引系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号