首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
信息检索的模糊聚类分析模型   总被引:8,自引:0,他引:8  
曾玉 《情报学报》2004,23(4):433-436
本文在对信息检索的模糊性进行论证的基础上 ,采用基于模糊等价关系的动态聚类方法对信息检索结果进行聚类分析 ,建立了信息检索的动态聚类分析模型 ,并给出了算例 ,使情报用户可以更加充分合理的利用各种信息资源。  相似文献   

2.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

3.
基于聚类分析的学科交叉研究   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘中的一项重要技术,通过聚类可以发现隐藏在海量数据背后的知识.本文提出了一种通过文献数据聚类分析来研究学科交叉的方法.首先提出了一种基于摘要词与关键词加权的相似度模型,使得文献之间的相似度更加精确.利用FCM 算法对2005年CSSCI文献数据库中图书情报学的文献数据进行聚类,通过建立学科原子特征词的学科交叉表统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点,以及图书情报学新的学科增长点,并对分析结果进行了检验,结果表明本文所提出的方法是科学的、切实可行的.  相似文献   

4.
聚类有效性指标用于评价聚类质量和确定最佳聚类数,针对包含大小和密度差异性较大数据类的数据集,在分析了传统模糊聚类有效性指标不足的基础上,提出了一个同时考虑紧致性、重叠度和分离性的聚类有效性指标COS.类内紧致性用一定阈值内的隶属度之和与最大类内距离之比表示,一定阈值内各样本同属于两个类的隶属度差异反映了这两个类的重叠度,类间分离性的度量为最小类间距离,使COS指标值最大的聚类数即为最佳聚类数.在四个人工数据集和iris真实数据集上利用模糊C均值算法进行聚类实验的结果表明,COS指标可以有效发现小类和低密度类.  相似文献   

5.
针对某政府网站某一时间段的服务器日志中抽取出的搜索引擎查询信息,提出了一系列规则来遴选出有代表性的核心查询词,并分别针对每个核心查询词进行共现与可视化聚类分析,创建基于共现频率的相似矩阵,采用非计量MDS算法导出三维可视化聚类图,并且采用基于瓦兹算法(Wards method)的层次聚类法验证了MDS算法三维可视化聚类结果的正确性、有效性与优越性.同时,我们针对日志的特点开发了适合本研究的一系列分析工具,从而能够帮助我们对同类网站、不同结构的日志信息进行挖掘、提取、选择和加工,并利用统计分析工具对加工结果进行可视化聚类分析和比较研究.实验结果表明,本分析方法充分发挥了MDS分析方法与各种向量空间聚类计算优点,能更好地观察对象间的聚类样式、形状以及距离,能够为构建基于主题图的政府电子政务平台优化研究提供理论方法和实证依据.  相似文献   

6.
在对海量数据信息进行处理的过程中,往往存在高重复率的数据信息。针对如何处理这些重复信息,提出一种利用随机扰动技术结合聚类分析技术的方法将数据信息划分不同的聚类群组。最后利用平行坐标系对处理后的聚类群组进行多维可视化显示。  相似文献   

7.
模糊聚类在数字图书馆中的用途   总被引:2,自引:0,他引:2  
目前,互联网上的信息浩如烟海,面对海量的资料,首要的任务是将它合理的归类。所以,聚类分析是数据挖掘的核心技术,而采用模糊聚类分析的方法处理web信息具有很强的针对性。文章介绍了模糊聚类的一般方法以及在数字图书馆中的应用。  相似文献   

8.
[目的/意义]探究我国为实现促进大数据发展的政策目标而构建的政策工具选择体系结构,揭示大数据政策工具选择中存在的问题,为优化我国促进大数据发展政策工具选择提供建议。[方法/过程]构建由63项聚焦大数据发展的政策文本构成的政策样本集,运用内容分析法,对样本集中包含的政策工具进行编码。建立包含基础资源维度、技术维度和领域维度的政策工具选择三维分析框架,通过编码映射,建立其与政策工具编码的关联。从领域维度,使用层次聚类分析法,对样本政策文本进行聚类分析。[结果/结论]政策工具编码分析结果显示,我国大数据政策工具选择中存在缺乏长期规划,政策及政策工具协同不足,政策工具选择欠丰富;政策工具选择结构失衡;需求表达模糊,难以定位关键政策及政策工具等问题。应加强战略规划和发展理念指引,重视政策及政策工具协同,规避公共风险,构建需求驱动和问题导向的政策工具选择体系结构,创新设计与应用关键政策工具。  相似文献   

9.
一种协同过滤方法及其在信息推荐系统中的实现   总被引:8,自引:0,他引:8  
本文提出了一种基于模糊聚类技术的协同过滤方法,应用模糊聚类技术从项目的属性特征上对项目进行聚类,用隶属度的值来表示项目属于每个模糊簇的程度,由用户-项评分矩阵和模糊簇的隶属度值,构造用户-模糊簇的偏好矩阵,进而利用用户-模糊簇偏好矩阵获得用户相似群体,为用户实现基于协同过滤的文档推荐。最后,利用过滤技术实现了一个科技文献推荐系统,对多种推荐策略进行了验证。  相似文献   

10.
本文从信息论的角度考虑了聚类问题,将聚类看成是有损信息压缩的过程.首先运用率失真理论建立了模糊聚类的优化模型,与经典的模糊聚类模型相比,模型的目标函数中多了一个描述聚类过程复杂度的指标.同时为了估计聚类数目,还提出了一个新的聚类有效性指标.其次通过求解优化模型得到基于率失真理论的模糊聚类算法.最后将基于率失真理论的模糊聚类算法与经典模糊C均值算法进行了数值实验比较.数值实验结果表明基于率失真理论的模糊聚类算法能够自动确定聚类数目,在运行时间上比模糊C均值算法有一定减少,且最终的模糊划分矩阵与模糊C均值算法相比有较少的模糊性,因而聚类结果更加明确可靠.  相似文献   

11.
采用模糊聚类分析方法对科技期刊综合学术影响力的分类进行研究。选取总被引频次、影响因子、即年指标、他引总引比、引用刊数、扩散因子和被引半衰期等7个期刊引证指标作为特征指标,以20种核科技期刊为分类对象,采用相关系数法建立模糊相似矩阵,进而对样本的聚类状态进行动态分析。分析结果显示,在λ=0.912水平下,20种核科技期刊聚为综合学术影响力明显不同的5类。同时,利用这一聚类结果,对某一核科技期刊的综合学术影响力作出了预报。  相似文献   

12.
随着Internet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显.Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的.对于处理大规模的数据集,近邻传播算法是一种快速、有效的聚类方法.但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类.本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类.根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类.实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能.  相似文献   

13.
本文在过程/数据类矩阵的基础上,应用模糊聚类分析方法来分析MIS信息结构,从而得到合理划分的子系统。  相似文献   

14.
耿新青  王正欧 《情报学报》2006,25(3):296-300
提出了一种新的模糊竞争神经网络聚类模型NFCNNC,并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,通过比较隶属度值得到获胜神经元。网络中仅两个神经元同时调节权值。隶属度值最大的神经元以较大的学习率调整权值,隶属度次大的神经元以较小的学习率调整权值,其他神经元权值不变。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。与传统模糊神经网络模型相比,本文的模糊神经网络模型具有结构简单、运行效率高、聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。通过对文本聚类的实验验证,本算法取得了良好的效果。  相似文献   

15.
在对国内政务信息资源组织相关文献进行分析后,针对现行研究的不足之处提出基于聚类技术进行政务信息资源整合的方法,具体步骤可以划分为:文本预处理、特征项选择、特征项权值计算、聚类实现。基于以上步骤,以我国省级政府网站为研究对象,选取包括香港、澳门、台湾在内的全国能够正常浏览的29个省级政府网站,对这些网站的主题词进行聚类分析,研究应用聚类技术进行政务信息资源整合的方法、步骤、工具等,为构建整合式、一站式政务信息资源组织体系提供参考。  相似文献   

16.
基于灰关系分析的模糊聚类   总被引:1,自引:0,他引:1  
灰关系分析(Grey relational analysis, GRA))能够度量参考样本和比较样本间的相似性而广泛应用于聚类算法中,但目前基于GRA的聚类方法对灰关系阈值的设定采用尝试法,难以刻画信息的完全度.为此,本文将灰关系分析所学习的相似性度量嵌入到流行的模糊聚类算法中,从而提出了基于灰关系分析的模糊聚类方法.分析了灰关系性质和核机理论相似性基础之上,由灰色理论中的灰关系衍生出一种新型核--灰关系核,同时,也由核机理论诱导出一种新的灰关系度量,从而构建了灰关系分析和核机理论间的一条联系纽带.UCI数据集上的模拟实验验证了基于灰关系分析的模糊聚类方法和所提灰关系度量的有效性.  相似文献   

17.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

18.
检索CNKI及万方数据库收录的关于图书馆精准学科服务的相关文献,利用书目共现分析系统BICOMB2.0生成词篇矩阵数据,并运用双向聚类方法,以图形聚类工具gCluto1.0软件进行分析。根据聚类分析结果,总结出4个研究类别,热点关键词主要有学科服务、高校图书馆、精准服务和精准营销。精准学科服务成为国内图书馆的一个热门话题,但目前主要集中在概念、理论、可行性等方面,如何实现精准化的学科服务及相应模型构建将是重点方向。  相似文献   

19.
国外专利分析工具的比较研究   总被引:8,自引:0,他引:8  
从“数据整理和概念分组”、“列表或直方图”、“比较矩阵”、“有结构数据聚类”、“无结构数据聚类”、“文档聚类地图”、“引文分析”以及“SAO”8个方面介绍当前国外主要的专利分析工具的功能及特色,并进行比较研究,为专利分析人员选取适当的工具以及软件公司改进专利分析工具提供参考。  相似文献   

20.
基于因子分析的学术期刊评价指标分类研究   总被引:1,自引:0,他引:1  
针对部分学术期刊评价指标分类的模糊问题,利用中国科学技术信息研究所的医学期刊数据,采用聚类分析和因子分析进行期刊评价指标分类.出聚类分析作为一种公认的分类方法,在期刊评价指标分类中并不适用.子分析由于解释力较强,为学术期刊评价指标分类提供了一种较好的方法.指标分类中完全根据数据说话是不完善的,可以根据具体情况在因子分析的基础上进一步进行整合.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号