首页 | 本学科首页   官方微博 | 高级检索  
     检索      

超大规模分类语料库构建
引用本文:刘华.超大规模分类语料库构建[J].现代图书情报技术,2006(1):71-73,70.
作者姓名:刘华
作者单位:暨南大学华文学院,广州,510610
摘    要:针对文本分类中训练(测试)集获得较难、分类系统不合理的问题,我们构建了一个超大规模层级网页分类语料库。该语料库字段信息丰富,分类系统科学,存储格式可扩展性强、语义结构化。适合构建文本分类、话题识别和信息检索的大型训练(测试)集。

关 键 词:内容解析  字段信息  分类体系
收稿时间:2005-10-24
修稿时间:2005-10-24

Construction of a Super Classed and Denoted Corpus
Liu Hua.Construction of a Super Classed and Denoted Corpus[J].New Technology of Library and Information Service,2006(1):71-73,70.
Authors:Liu Hua
Institution:College of Chinese Language and Culture of Jinan University, Guangzhou 510610, China
Abstract:Aimming at the problem of training and test eorpus in text classing, we have built a super classed and denoted corpus, which has abundant field information, scientific class system, extensible storage format and structured semantic denotations. It adapts to the construction of training and test corpus for text classing,topic identify and IR.
Keywords:XML
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号