首页 | 本学科首页   官方微博 | 高级检索  
     检索      

海量数据集上基于特征组合的关键词自动抽取
引用本文:张庆国,薛德军,张振海,张君玉.海量数据集上基于特征组合的关键词自动抽取[J].情报学报,2006,25(5):587-593.
作者姓名:张庆国  薛德军  张振海  张君玉
作者单位:1. 中国学术期刊(光盘版)电子杂志社,清华同方光盘股份有限公司,北京,100084
2. 中国科学院研究生院数学系,北京,100049
摘    要:关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受.

关 键 词:关键词自动抽取  特征组合  海量数据集  TF×IDF
修稿时间:2005年9月9日

Automatic Keyword Extraction from Massive Data Sets Based on Feature Combination
Zhang Qingguo,Xue Dejun,Zhang Zhenhai,Zhang Junyu.Automatic Keyword Extraction from Massive Data Sets Based on Feature Combination[J].Journal of the China Society for Scientific andTechnical Information,2006,25(5):587-593.
Authors:Zhang Qingguo  Xue Dejun  Zhang Zhenhai  Zhang Junyu
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号