首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 468 毫秒
1.
肖强  钱晓东 《图书情报工作》2011,55(16):136-139
针对传统关联规则算法中事务扫描的重复性以及最小支持度设定的不确定性,导致关联规则挖掘算法扫描事务数据库运行效率低下的问题,提出一种基于K-means的Web访问用户关联规则挖掘算法,该算法利用K-means算法聚类的效果,将Web访问用户数据集聚类为不同的小数据集,采用不同的最小支持度,分别对Web访问用户聚类小数据集进行关联规则挖掘。分析和实验结果证明,该算法可有效提高传统关联规则挖掘算法的效率,同时也可有效避免传统关联算法中扫描中的重复性。  相似文献   

2.
随着Internet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显.Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的.对于处理大规模的数据集,近邻传播算法是一种快速、有效的聚类方法.但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类.本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类.根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类.实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能.  相似文献   

3.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果.  相似文献   

4.
web用户聚类对于个性化服务、网站结构优化等具有重要意义。文章从用户的访问路径、项目评分等角度总结了用户聚类方法及算法,指出当前用户聚类研究存在的不足,提出了结合Web挖掘与社会网络分析方法的用户聚类的模型,分析了两者结合的必要性及结合策略,形成较为完善的用户聚类机制。  相似文献   

5.
阮光册 《图书情报工作》2011,55(11):121-124
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。  相似文献   

6.
一种基于后缀树的Web搜索结果聚类方法   总被引:3,自引:2,他引:1  
为同时满足Web搜索结果聚类的关联性、快速性以及类别描述的可浏览性等需求,本文提出了一种适合中文Web信息搜索结果的后缀树聚类算法,其中后缀树的构建以中文汉字为基本单位,一种有效的策略解决了基于二进制方法合并短语类后的类别描述问题,利用短语类语义层面的相似性合并同义短语类,有效地改善了聚类结果的质量.测试结果表明:与传统的文档聚类算法相比,基于后缀树的算法在Web文档聚类的精度和效率方面具有较强的优越性.  相似文献   

7.
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求.Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见.本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架.系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档.最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度.  相似文献   

8.
传统的基于UDDI的Web服务查询算法对于服务提供者与服务发现者之间术语不一致的问题无能为力,为了解决这个问题,本体被引入Web服务之中,目前已经有一些新的Web服务查询算法把本体考虑进来,但是这些算法虽然提高了查全率,却在一定程度上降低了查准率.本文主要从提高查准率和用户满意度的角度,讨论了一个基于查询弱化技术的Web服务查询算法,并把该算法和另外一个算法作了简单的比较分析,然后用一个实例验证了算法的有效性.  相似文献   

9.
K-means算法研究综述   总被引:4,自引:0,他引:4  
对聚类分析中的基本算法K-means算法中的K值确定、初始聚类中心选择以及分类属性数据处理等主要问题进行综述,理清K-means算法的整个发展脉络及算法研究中的热点和难点,提出改进K-means聚类算法的思路。  相似文献   

10.
Web挖掘技术在电子商务中的应用研究   总被引:16,自引:0,他引:16  
刘培刚 《情报学报》2002,21(6):680-685
本文基于国内外最新研究成果对电子商务中应用的Web挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题 ,给出了基于Web日志的客户群体聚类算法及Web页面聚类算法。利用这些Web挖掘技术可有效挖掘用户个性特征 ,从而指导电子商务网站资源的组织和分配。  相似文献   

11.
传统的搜索引擎所提供的搜索结果仅仅是按照Web与查询的相关性从高到低排成一个有序列表,不具备层次性,用户使用起来并不方便.文章通过采用覆盖聚类算法对搜索引擎的结果进行聚类来解决这个问题,并对其实现过程进行较为详细的描述.  相似文献   

12.
Web内容挖掘在数字图书馆中的应用   总被引:3,自引:1,他引:3  
黎琳  赵英 《图书馆学研究》2006,(2):19-21,24
Web信息是数字图书馆数字资源的重要来源,文章详细阐述了对Web内容中的文本信息的挖掘,包括:文本自动摘要、文本分类和文本聚类。在挖掘过程中基于用户需求和用户特征,针对文本分类,重点分析了分类过程和在数字图书馆中的应用;针对文本聚类,介绍两种基本聚类原理以及与文本分类的不同之处,重点论述其在数字图书馆中如何应用。最后提出内容挖掘与用户挖掘的结合更有助于服务用户。  相似文献   

13.
一个新的基于协作过滤的用户浏览预测模型   总被引:2,自引:0,他引:2  
本文提出了一个新的基于协作过滤的用户浏览协作预测模型———UNCPM ,它有效地解决了目前协作过滤预测方法的准确性和覆盖率低等问题。UNCPM从Web日志中获取用户浏览信息 ,系统分为两个部分 :离线构件和在线构件。离线构件用于用户浏览历史记录的K means聚类 ,并在聚类时充分考虑URL的相似分析来避免协作过滤的同义性和分散性等不足 ;在线构件用于活动用户预测。该模型可以应用在大型电子商务网站的用户浏览预测上。  相似文献   

14.
吴瑞  史文武 《情报学报》2006,25(5):629-633
基于用户访问网页的不同序列反映了用户特定的兴趣,提出了Web日志中用户存取模式的聚类算法。利用传统的Leader算法只扫描数据集一遍的优点,以及粗糙理论在处理含有不确定信息问题上的优势,给出了结合粗糙理论的改进Leader算法对用户存取模式进行聚类方法,使得同一类中的用户存取模式尽可能的相近或相似,不同类中的模式尽可能的相异。实验结果表明,该算法在可承受的计算时间内可对Web日志中的用户存取模式进行有效聚类。  相似文献   

15.
针对传统协同过滤算法依赖单一用户需求形态影响推荐效果的问题,提出一种基于用户多态聚类的数字图书馆个性化推荐方法。该方法以改进的海明距离计算候选邻居集,结合多态相似度进行二次聚类,预测用户的多态需求度并形成推荐。实验表明,使用多态聚类产生的推荐精确度上优于单一聚类产生的推荐。  相似文献   

16.
对一种基于动态可调自组织神经网络(the dynamic adaptive self-organizing map neural network,简称DASOM)的增量中文文本聚类方法进行研究,认为其只需处理更新数据,提高聚类速度,并能自动抽取SOM聚类结果;DASOM模型具有动态的结构,通过数值实验表明该方法对中文文本增量聚类具有有效性。  相似文献   

17.
面向主题的个人实时搜索引擎的设计与实现   总被引:2,自引:0,他引:2  
介绍一种专为个人用户量身订做的搜索引擎,它使用启发式实时搜索算法,为用户提供最新的主题相关信息。该系统能够结合用户需求,很好地解决综合性搜索引擎中普遍存在的主题固化、信息滞后等问题,同时为搜索引擎的个人化提供理论和实践依据。  相似文献   

18.
A scheme for solving the problem of binary clustering of semistructured information is proposed. Different methods for the representation of the raw data of the clustering problem are examined. Methods for the progressive reduction and successive merging of clusters, as well as the initial cluster arrangement model, are considered. Estimates of the number of clusters that are required to solve the clustering problem are given. A method of binary clustering of points on a circumference is proposed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号