首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
K-means算法研究综述   总被引:4,自引:0,他引:4  
对聚类分析中的基本算法K-means算法中的K值确定、初始聚类中心选择以及分类属性数据处理等主要问题进行综述,理清K-means算法的整个发展脉络及算法研究中的热点和难点,提出改进K-means聚类算法的思路。  相似文献   

2.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

3.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果.  相似文献   

4.
肖强  钱晓东 《图书情报工作》2011,55(16):136-139
针对传统关联规则算法中事务扫描的重复性以及最小支持度设定的不确定性,导致关联规则挖掘算法扫描事务数据库运行效率低下的问题,提出一种基于K-means的Web访问用户关联规则挖掘算法,该算法利用K-means算法聚类的效果,将Web访问用户数据集聚类为不同的小数据集,采用不同的最小支持度,分别对Web访问用户聚类小数据集进行关联规则挖掘。分析和实验结果证明,该算法可有效提高传统关联规则挖掘算法的效率,同时也可有效避免传统关联算法中扫描中的重复性。  相似文献   

5.
通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务。经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足。针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法。这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索。实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的。  相似文献   

6.
冯珺  孙济庆 《情报学报》2007,26(3):356-360
本文通过引入知网的概念,对传统的K-means聚类算法进行了分析,初始聚类中心的选择对聚类结果有较大的影响,初始值选择的不好,可能无法得到有效的聚类结果,这也成为K-means算法的一个主要问题。采用聚类中心的搜索算法来进行聚类中心的选取,对其初始聚类中心确定一个初始划分,运用“射靶”的原理进行了改进,找到“靶心”得到一个最终选定的初始聚类中心,从而提高算法的稳定性,得到较稳定的聚类结果。实验结果表明,采用改进后的K-means作为簇心生成算法,随着待聚类文档数目的增加,效率提升更为突出。  相似文献   

7.
一种基于改进K-means的文档聚类算法的实现研究   总被引:1,自引:1,他引:0  
在对文档聚类的含义、作用和一般过程的阐述基础上,分析一种基于“最小最大”原则初始质心优选的改进K-means聚类的基本思想,并重点设计相关的聚类算法,实现聚类系统,基于系统对300篇学术文档及其相关特征词语进行聚类实验。实验结果表明,本文所设计和实现的改进K-means的聚类算法表现出较好的性能。  相似文献   

8.
对BWP方法进行研究,从嵌入式NSTL个性化推荐的文本聚类需求入手,分析BWP方法的不足,提出一种改进的K-means算法最佳聚类数确定方法。对单一样本类的类内距离计算方法进行优化,扩展BWP方法适用的聚类数范围,使原有局部最优的聚类数优化为全局最优。实验结果可以验证该方法具有良好性能。  相似文献   

9.
Web内容挖掘在数字图书馆中的应用   总被引:3,自引:1,他引:3  
黎琳  赵英 《图书馆学研究》2006,(2):19-21,24
Web信息是数字图书馆数字资源的重要来源,文章详细阐述了对Web内容中的文本信息的挖掘,包括:文本自动摘要、文本分类和文本聚类。在挖掘过程中基于用户需求和用户特征,针对文本分类,重点分析了分类过程和在数字图书馆中的应用;针对文本聚类,介绍两种基本聚类原理以及与文本分类的不同之处,重点论述其在数字图书馆中如何应用。最后提出内容挖掘与用户挖掘的结合更有助于服务用户。  相似文献   

10.
在线评论不仅可以作为消费者了解和购买图书的参考依据,还能成为编辑选题策划重要的信息来源,本文基于当当网文学类图书评论,通过Word2vec技术和K-means聚类方法构建了文学类图书特征词库,利用该词库对图书评论进行挖掘,分析不同销量排名的文学类图书在内容表现上的差异,为选题策划提供参考。  相似文献   

11.
科技创新人才是实现创新驱动发展的核心关键因素。在利用关键数据指标分析新疆科技创新人才队伍建设 现状的基础上,指出新疆科技创新人才队伍建设面临总量偏少、高层次人才匮乏、结构不合理、成长环境不够完善等 问题,并从科技人才培养、激励机制、人才引进和保障措施等方面提出相应的对策建议,为新疆制定科技人才资源开 发相关政策提供参考和依据。  相似文献   

12.
科技创新后备人才价值定位和培养需求的转变殷切呼唤新型科学教育实践载体和教学方式的支撑,在此背景下探索依托科技馆平台开展科技创新后备人才培养的实践路径势在必行。国际科学场馆教育在科技创新后备人才培养方面提供了诸多经验,其主要实践特征表现为:注重树立特色化的教育品牌、着力建设系统化的教学组织生态、全面推进科学普及和科技创新教育的协同发展、专注打造分层次模块化的创新课程体系。借鉴国际场馆创新教育的先进经验,我们可从科技馆教育的政策理念、学习资源、教师发展、课程教学、社会互联和技术支持维度入手映射科技创新后备人才培养的选才、育才和评价环节,构建依托科技馆平台开展科技创新后备人才培养的行动路径。  相似文献   

13.
技术机会识别对于研发组织的创新管理具有重要意义,本文以人工智能领域2013—2015年的专利数据为例,提出了一种识别领域内技术机会的新方法。借鉴RFM(recency,frequency,monetary)模型的思路,使用K均值聚类法基于平均出现时间长度、出现频率和组合能力三个指标对知识元素进行聚类,进而发现了能够反映领域内技术发展方向的四个趋势性知识元素。使用随机行动者导向模型对知识网络的演化进行分析,在此基础上提出了发现知识元素的新技术机会的公式,并使用该公式识别出了趋势性知识元素潜在的技术机会。本研究利用人工智能领域2016—2018年的专利数据验证了所提出的方法的有效性,应用3D打印领域2014—2018年的专利数据验证了所提方法的稳健性。  相似文献   

14.
文章在对DBSCN与K-means两种经典聚类算法分析研究基础上,结合中文文本数据的特点,对这两种方法进行结合与改进,提出了一种中文文本聚类方法:DKTC。该算法能自动产生簇的个数,且对“噪声”或异常数据不敏感,对数据的输入顺序不敏感,另外,与DBSCAN相比,该算法有更高的处理效率。实验表明,DKTC算法不仅能对中文文本进行聚类,且与传统DBSCN与K-means法相比,聚类效果都有一定程度的改善。  相似文献   

15.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

16.
[目的/意义]在日益激烈的国际竞争背景下,探索具有国际合作优势的关键小国,分析其科技人才的分布及特征对我国开拓国际合作伙伴具有重要意义。[方法/过程]通过构建关键小国优势领域科技人才分析框架,以新加坡人工智能领域为实例,从科技人才分布、国际合作态势两个方面对科技人才进行分析。[结果/结论]结果显示,新加坡人工智能领域科技人才主要分布在南洋理工大学与新加坡国立大学,代表性学者有Huang Guang-Bin、Cambria Erik、Lin Zhiping等。新加坡国际合作对象分布广泛,通过与新加坡开展合作可以间接促成中国与他国产生联系。  相似文献   

17.
为了促进科技人才信息资源的描述规范化、科技人才信息共享、交换和利用,需要研制科技人才元数据标准。文章阐述了科技人才元数据标准研制的目的和意义,对科技人才元数据描述的实体进行定义,研究了科技人才元数据的特点,进而确立了科技人才元数据标准的三层框架,设计了科技人才元数据的核心元素和扩展元素,以及扩展规则。期望通过科技人才元数据标准的研制与推广,使当前结构各异的科技人才元数据更加规范,为科技人才的信息利用和数据共享提供标准化的支撑。  相似文献   

18.
[目的/意义]人工智能技术在图书馆中的应用不仅是应用信息技术发展的产物,同时也是图书馆服务智能化、多元化和专业化的要求。但图书馆技术与图书馆服务并不是天然融合,弥合其差距需要从人文视角进行思考。[方法/过程]在文献回顾的基础上,厘清人工智能技术在图书馆应用的理论逻辑、了解现实困境与展望发展路径。[结果/结论]人工智能技术及其支持技术的革新是人工智能技术在图书馆领域应用的基本前提,在技术革新基础上进行理念和制度的创新最终实现图书馆服务的优质化提升是人工智能技术在图书馆领域应用的基本条件与目标归属。同时,目前AI应用仍然存在体验断代、伦理困境和数据泄露风险。最后,提出文化使命和道德嵌入、技术迭代与智能延展、制度优化与人机共存三大建议。  相似文献   

19.
通过对知识、知识管理、大学生知识管理相关涵义的阐述,提出了实施大学生知识管理的必要性。从知识的获取、知识的分类与存储、知识的交流和共享、知识的更新与创新4个方面分析了大学生知识管理的过程。针对在知识管理过程中产生的问题,提出了相应的解决途径,即重视知识管理,挖掘、利用和共享隐性知识,提高知识的获取能力,促进知识创新和再利用,为知识经济社会培养创新型人才。  相似文献   

20.
通过对技术创新领域1950年到2013年的期刊论文数据从领域、期刊、国家和关键词等角度进行文献计量分析以及利用CiteSpaceⅢ生成的文献共引时区图谱对技术创新理论的演化开展深入研究,分析得出技术创新理论研究的五大领域--创新经济学、技术创新政策、创新系统、企业技术创新和技术创新与创新转移,并提出演化路径的四大阶段论--重拾熊彼特创新经济学、解构技术创新领域、整合技术创新系统和开放创新,为技术创新理论未来的发展提供坚实的历史性解读视角。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号