首页 | 本学科首页   官方微博 | 高级检索  
     检索      

改进的TF-IDF中文本特征词加权算法研究
引用本文:申剑博.改进的TF-IDF中文本特征词加权算法研究[J].教育技术导刊,2015,14(4):67-69.
作者姓名:申剑博
作者单位:西安工程大学 计算机与信息学院,陕西 西安 710000
摘    要:在自动文本分类中,TF IDF算法是最为常用的特征权重计算方法。该算法运用广泛,但是存在不足:只考虑了特征词的频率和包含特征词的文档数量,没有考虑到特征词在类内和类间对权重的影响。对特征词权重计算方法进行了改进。为了解决特征词在类内均匀分布以及在类间的比重问题,提出了修正函数TF DFI DFO。实验比较发现,新的特征词权重算法能够更加精确地反映出特征词的分布情况,该算法与传统的TF IDF算法相比,在召回率、查准率和宏平均值上都有较大的提升。

关 键 词:文本分类  TF  IDF算法  特征词权重  特征词分布  宏平均值  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号