首页 | 本学科首页   官方微博 | 高级检索  
     检索      

文本自动分类技术研究综述
引用本文:庞观松,蒋盛益.文本自动分类技术研究综述[J].情报理论与实践,2012,35(2):123-128.
作者姓名:庞观松  蒋盛益
作者单位:1. 广东外语外贸大学国际工商管理学院,广东广州,510006
2. 广东外语外贸大学信息学院,广东广州,510006
基金项目:国家自然科学基金,广东省自然科学基金,广东省高层次人才项目,广州市社会科学规划课题项目
摘    要:文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。

关 键 词:自动分类  文本分类  文本处理  综述

A Summary of Research on Automatic Text Classification Technologies
Institution:Pang Guansong et al.
Abstract:Research results in automatic text classification in resent years are summarized and discussed from the perspective of text representation,feature selection,classification algorithm,commonly-used benchmark corpuses and evaluation indices.It’s believed that short-text classification and multilingual text organization are the newly-emerging important and urgent problems.This paper focuses on discussing these two problems as well as several other key problems such as class imbalance,hierarchical classification and labeled corpus bottleneck.Finally,the paper summarizes and forecasts these researches.
Keywords:automatic classification  text classification  text processing  summary
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号