首页 | 本学科首页   官方微博 | 高级检索  
     检索      

DICV文本分类研究框架
引用本文:李纲,夏晨曦.DICV文本分类研究框架[J].情报学报,2007,26(6):803-807.
作者姓名:李纲  夏晨曦
作者单位:武汉大学信息资源研究中心,武汉,430072
摘    要:文本分类实验包括实验文本集准备、文本索引、特征降维、分类以及性能评估等多个步骤,每个步骤都有很多方法可供选择,而每个不同的选择都会对最终的实验结果产生影响.比较同一步骤中适用的不同算法的性能时,需要保证其他步骤使用相同的方法,使它们在相同的条件下运行.本文提出了文本分类的DICV研究框架,该框架包括核心数据(core data)、文本索引(text indexing)、分类算法(classification algorithm)和可视化界面(visualization interface)4个模块.该框架设计的重点在于①提炼一个统一的文本分类模型,为每个步骤的算法提供一个接口,实现了这个接口的算法就可以通过简单的配置应用于框架中,这使得研究者可以方便地选择各种文本索引、特征降维和分类算法,或添加新的文本集和算法,来完成其需要的文本分类实验.②自动记录文本分类实验各个步骤使用的算法、参数和结果,这使得系统能够将研究者的选择和实验步骤的中间结果记录下来,供研究者在后续研究中使用,可避免不必要的重复性工作,提高文本分类研究的效率.

关 键 词:文本分类  文本索引  特征降维
修稿时间:2007年7月13日

DICV: A Study Framework of Text Categorization
Li Gang,Xia Chenxi.DICV: A Study Framework of Text Categorization[J].Journal of the China Society for Scientific andTechnical Information,2007,26(6):803-807.
Authors:Li Gang  Xia Chenxi
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号