首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于机器学习的自动文摘研究综述
引用本文:曹洋,成颖,裴雷.基于机器学习的自动文摘研究综述[J].图书情报工作,2014,58(18):122-130.
作者姓名:曹洋  成颖  裴雷
作者单位:南京大学信息管理学院
基金项目:本文系国家社会科学基金重大招标项目“面向学科领域的网络信息资源深度聚合与服务研究”(项目编号:12&ZD221)和国家自然科学基金项目“融合范式视角下的链接分析理论集成框架及其实证研究”(项目编号:71273125)研究成果之一。
摘    要:探讨基于机器学习的自动文摘研究中的特征选取、算法选择、模型训练、文摘提取和模型评测等主要过程;重点分析3种主要的机器学习算法:朴素贝叶斯、隐马尔科夫和条件随机场,阐释3种算法的基本思想,在对相关研究进行系统梳理的基础上,给出作者的思考;对3种机器学习算法在训练方法、协同训练与主动学习、类别平衡以及词汇分布等方面存在的共性问题进行深入讨论并提出未来的主要研究方向。

关 键 词:自动文摘  机器学习  NB  HMM  CRF  
收稿时间:2014-07-24

A Review on Machine Learning Oriented Automatic Summarization
Cao Yang,Cheng Ying,Pei Lei.A Review on Machine Learning Oriented Automatic Summarization[J].Library and Information Service,2014,58(18):122-130.
Authors:Cao Yang  Cheng Ying  Pei Lei
Institution:School of Information Management, Nanjing University, Nanjing 210093
Abstract:This paper probes into the process of automatic summarization based on machine learning, including features selection, algorithm selection, model training, abstracts extraction, model evaluation. The Review focuses on three main machine learning algorithms: Naive Bayes, Hidden Markov Model and Conditional Random Fields, mainly elaborating the idea of these algorithms, summarizing related research, and giving reflections. Then it discusses the common problems with three machine learning algorithms, including training methods, collaborative training and active learning, category balance, terms distribution. In the end, future research directions are explored.
Keywords:automatic summarization  machine learning  NB  HMM  CRF  
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号