首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于N元语法的英文学术文献聚类标签抽取算法
引用本文:吴夙慧,成颖,郑彦宁,潘云涛.基于N元语法的英文学术文献聚类标签抽取算法[J].现代图书情报技术,2011(Z1):68-75.
作者姓名:吴夙慧  成颖  郑彦宁  潘云涛
作者单位:南京大学信息管理系;中国科学技术信息研究所;
基金项目:国家社会科学基金项目“中文学术信息检索系统相关性集成研究”(项目编号:10CTQ027); 教育部人文社会科学研究规划基金项目“面向用户的相关性标准及其应用研究”(项目编号:07JA870006); 中国科学技术信息研究所合作研究项目的研究成果之一
摘    要:提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-means算法进行聚类,从聚簇中抽取N元语法项计算TFIDF值,对出现在词表中的特征项赋以更高的权值,以得分最高的特征项作为聚类标签。实验结果表明,该算法能获得更好的实验效果。同时,在抽取聚类标签时提出一种改进的TFIDF权重计算,在评价标签质量时提出一种新的标签评价方法R@N方法。

关 键 词:聚类标签  N元语法  学术文献聚类

N-gram Based on Cluster Label Extracting Algorithm for English Paper
Wu Suhui Cheng Ying Zheng Yanning Pan Yuntao.N-gram Based on Cluster Label Extracting Algorithm for English Paper[J].New Technology of Library and Information Service,2011(Z1):68-75.
Authors:Wu Suhui Cheng Ying Zheng Yanning Pan Yuntao
Institution:Wu Suhui1 Cheng Ying1 Zheng Yanning2 Pan Yuntao2 1(Department of Information Management,Nanjing University,Nanjing 210093,China) 2(Institute of Scientific & Technical Information of China,Beijing 100038,China)
Abstract:In this paper,a novel cluster label extracting algorithm for English paper based on N-gram is proposed.Before the clustering,this algorithm first uses N-gram to generate the field phrases list by prior learning in the large-scale corpus,then clusters the English paper using K-means algorithm.Finally,the highest score N-gram terms from the cluster is extracted as the label.In the score calculation,if the term exists in the field phrases list,it is set double weight.Experimental results show that the quality ...
Keywords:Cluster label N-gram Paper clustering  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号