首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于标引经验和机器学习相结合的多层自动分类
引用本文:何琳,侯汉清,白振田,张雪英.基于标引经验和机器学习相结合的多层自动分类[J].情报学报,2006,25(6):725-729.
作者姓名:何琳  侯汉清  白振田  张雪英
作者单位:南京农业大学信息管理系,南京,210095
基金项目:国家社会科学基金;南京农业大学校科研和教改项目
摘    要:由于《中国图书馆分类法》类目数目庞大且各类目上文献分布不均衡,导致基于机器统计学习的自动分类技术在这种多层分类体系上力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词串对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过将两种分类技术相结合的方法对信息资源进行分类,提出了用相关度来测定关键词和类目概念之间的关联,构建关键词、分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。

关 键 词:中国图书馆分类法  分类矩阵  自动分类  自动标引  语料库
修稿时间:2005年12月6日

Automatic Multi-layer Classification Method Based on Integration of Machine Learning and Indexing Experience
He Lin,Hou Hanqing,Bai Zhentian,Zhang Xueying.Automatic Multi-layer Classification Method Based on Integration of Machine Learning and Indexing Experience[J].Journal of the China Society for Scientific andTechnical Information,2006,25(6):725-729.
Authors:He Lin  Hou Hanqing  Bai Zhentian  Zhang Xueying
Abstract:It is unsuitable to use machine learning methodto automatically classify document due tothe reason of charactersof CLC,which has a great deal of classes and document distributed un-balanced.Method based onindexing experience tryto useinteroperability betweeninformationretrieval languagesto automatic classify documents,butthis method also causedsome problemsactually.This paper wants to combine the advance of two methods,build a matrix composed by keywords,class number andvalues as the base of classification mapping.This method was proved useful by some tests.
Keywords:Chinese Library Classification  classification matrix  automatic classification  automatic indexing  corpus  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号