首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于知识库的网页自动标引和自动分类系统的设计
引用本文:侯汉清,薛鹏军.基于知识库的网页自动标引和自动分类系统的设计[J].大学图书馆学报,2004,22(1):50-55,64.
作者姓名:侯汉清  薛鹏军
作者单位:南京农业大学信息管理系,南京,210095
基金项目:国家社科基金项目“基于知识库的中文信息自动分类和自动标引”(02BTQ012)的研究成果之一。
摘    要:针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。

关 键 词:网页  自动标引  自动分类  概念语义网络  智能信息处理

DESIGN OF WEB PAGE AUTO-INDEXING & AUTO-CLASSIFICATION SYSTEM BASED ON THE KNOWLEDGE DATABASE
Hou Hanqing and Xue Pengjun.DESIGN OF WEB PAGE AUTO-INDEXING & AUTO-CLASSIFICATION SYSTEM BASED ON THE KNOWLEDGE DATABASE[J].Journal of Academic Libraries,2004,22(1):50-55,64.
Authors:Hou Hanqing and Xue Pengjun
Abstract:Based on the data analysis of web pages, the authors present the indexing scheme of Chinese web pages and outline an experimental web page auto-indexing and classification system based on an expert knowledge database which consists the Chinese Library Classification and several thesaurus and keywords lists. The system adopts method of word frequency weighting and measure of word similarity to fulfill the indexing and classification of Chinese web pages. Finally the paper also discusses the technology of new words identification.
Keywords:Web Pages  Internet Retrieval  Intelligent Search Engine  Knowledge Database  Auto-indexing  Auto-classification
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《大学图书馆学报》浏览原始摘要信息
点击此处可从《大学图书馆学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号