首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例
引用本文:钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6).
作者姓名:钱爱兵  江岚
作者单位:1. 南京中医药大学,经贸管理学院,江苏,南京,210046
2. 南京大学,信息管理系,江苏,南京,210093
摘    要:结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将切碎的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。

关 键 词:词频  逆文档频率  新闻网页  关键词抽取  

Improved TF-IDF-based Keyword Extraction for Chinese Web Page: A Case Study of Web News
Qian Aibing et al.Improved TF-IDF-based Keyword Extraction for Chinese Web Page: A Case Study of Web News[J].Information Studies:Theory & Application,2008,31(6).
Authors:Qian Aibing
Abstract:
Keywords:term frequency  inverse document frequency  Web news  keyword extraction  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号