首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   3篇
  免费   0篇
  国内免费   3篇
科学研究   1篇
信息传播   5篇
  2013年   1篇
  2012年   3篇
  2011年   2篇
排序方式: 共有6条查询结果,搜索用时 15 毫秒
1
1.
提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-means算法进行聚类,从聚簇中抽取N元语法项计算TFIDF值,对出现在词表中的特征项赋以更高的权值,以得分最高的特征项作为聚类标签。实验结果表明,该算法能获得更好的实验效果。同时,在抽取聚类标签时提出一种改进的TFIDF权重计算,在评价标签质量时提出一种新的标签评价方法R@N方法。  相似文献   
2.
围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。  相似文献   
3.
K-means算法研究综述   总被引:4,自引:0,他引:4  
对聚类分析中的基本算法K-means算法中的K值确定、初始聚类中心选择以及分类属性数据处理等主要问题进行综述,理清K-means算法的整个发展脉络及算法研究中的热点和难点,提出改进K-means聚类算法的思路。  相似文献   
4.
相关反馈是一种根据用户或系统的相关性判断重构初始检索提问的方法,已被证明可以有效地改进检索效果.具体到学术文献,其引用关系表征了文献内容上的相关性,因而可以为相关反馈提供有价值的辅助信息.本文提出了一种基于引用上下文、文献同被引和文献耦合的相关反馈改进算法.该算法的基本思想包括:利用学术文献的引用上下文信息扩充词包模型(bags of words)进行文本表示;在相关文献判断阶段利用相关文献在引文网络中与其他文献的同被引强度和耦合强度扩充相关文献集合;结合基于聚类的相关反馈思想抽取查询扩展项.实验证明该算法提高了相关反馈效果.此外,相关分析的结果表明文献同被引以及文献耦合强度与文献内容相似度具有显著的相关性.  相似文献   
5.
简述中文未登录词识别研究现状,结合中文生物医学领域词长分布和构词特点,提出以N-gram为基础,综合利用领域词典、语料和规则的中文生物医学领域未登录词识别方案,并以中国生物医学文献数据库中药学期刊数据作为样本集进行实验,效果表现良好。  相似文献   
6.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果.  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号