共查询到20条相似文献,搜索用时 15 毫秒
1.
Web日志挖掘就是分析Web日志文件,从中发现用户的访问模式。数据预处理在Web日志挖掘中起着至关重要的作用,直接影响挖掘的质量和结果。详细介绍了数据预处理的主要过程,并给出了相应的对策。 相似文献
2.
Web日志挖掘数据预处理技术的研究 总被引:1,自引:0,他引:1
在Web数据挖掘研究领域中,数据预处理在Web日志挖掘过程中起着至关重要的作用,深入探讨了数据预处理环节的过程,并介绍一种由用户访问序列直接生成用户访问事务的算法. 相似文献
3.
本文以Web日志挖掘为着眼点,以用户访问日志记录为数据源,提出了一种即可获得用户频繁访问路径,又可对具有相似行为用户进行聚类的Web日志挖掘模型,并重点对其中的采样模块、预处理模块和挖掘模块给出了具体实现方法。最后将研究成果应用于某学院数字图书馆网站,实践证明取得了较明显效果,达到了预期收益,为同类研究提供了一种有益参考。 相似文献
4.
提出一种基于粗糙集和信息论的web日志挖掘方法,该方法利用web日志预处理后的数据集,建立描述用户访问模式特征属性的决策表,并利用粗糙集和信息论相关原理来解决因web日志自身缺陷而导致知识表达系统的不协调和属性决策表多种简化的问题,进而获取用户访问网站模式的最简化规则.通过实例分析和比较,表明该方法能从web日志预处理后的数据中获取简捷有效的用户访问模式规则. 相似文献
5.
介绍了当前Web数据挖掘所采用的三种数据收集方法:Web日志挖掘,packet sniffer技术以及如何从应用服务器端收集数据。在分析Web日志挖掘不足的基础上对后面两种数据收集方法进行了研究,最后结合从服务器端收集数据的方法构建了一种基于用户会话的数据挖掘模型,为企业更好地理解客户行为提供相对可靠的依据。 相似文献
6.
介绍了当前Web数据挖掘所采用的三种数据收集方法:Web日志挖掘,packet sniffer技术以及如何从应用服务器端收集数据.在分析Web日志挖掘不足的基础上对后面两种数据收集方法进行了研究,最后结合从服务器端收集数据的方法构建了一种基于用户会话的数据挖掘模型,为企业更好地理解客户行为提供相对可靠的依据. 相似文献
7.
Web挖掘一般可以分为3类:Web内容挖掘、Web结构挖掘和Web使用挖掘。WWW上信息资源的爆炸性增长,Web挖掘已经成为计算机科学的一个重要研究领域。使用模式挖掘是Web挖掘的一个分支,它利用Web服务器的日志中的大量数据及其他相关数据集进行分析挖掘,并从中获得有价值的有关网站访问使用情况的模式知识。对Web数据挖掘作了比较详细的介绍,并介绍了Web使用挖掘各阶段的主要工作以及相关技术。 相似文献
8.
9.
Web搜索引擎是主要基于关键词匹配的检索技术,面对WWW新的应用模式,已不能很好地满足用户的需求。而Web数据挖掘系统是对Web文档集合和用户需求集合的匹配与选择,它通过Web内容挖掘、Web结构挖掘、Web用户使用记录挖掘等数据挖掘方法,从与WWW相关的资源和检索行为中抽取用户感兴趣的、有用的模式和隐含的信息,以满足情报检索的相关性和准确性的要求。因此,可运用相关搜索引擎和相关网站的设计方法,建立军事情报Web挖掘应用系统。 相似文献
10.
论网络使用模式的挖掘 总被引:3,自引:0,他引:3
网络使用模式的挖掘是网络挖掘中的一个重要任务,它通过挖掘站点文件、访问日志、参考日志、代理日志和注册或远程代理数据等信息来发现用户访问网页的模式. 相似文献
11.
WEB日志挖掘技术及其应用研究 总被引:2,自引:0,他引:2
Web日志挖掘是Web数据挖掘的重要分支,已成为研究人员关注的焦点。本文对日志挖掘过程中的数据预处理和模式发现进行了深入的讨论,并总结了Web日志挖掘在网站建设和维护方面的应用。 相似文献
12.
数字图书馆个性化服务与Web日志挖掘数据预处理技术 总被引:2,自引:0,他引:2
通过对挖掘服务器日志文件的分析和研究,可以对网站的组织结构及其性能进行改进,增加个性化服务,发现潜在的读者群体,建立数字图书馆个性化服务的用户模式。数据预处理关系到Web日志挖掘的质量。数据预处理包括数据清理、识别用户、识别用户会话、格式化,目的是分割服务器日志为多个独一无二的用户的一次访问序列。 相似文献
13.
Web日志挖掘是Web数据挖掘的重要分支,已成为研究人员关注的焦点、本文对日志挖掘过程中的数据预处理和模式发现进行了深入的讨论.并总结了Web日志挖掘在网站建设和维护方面的应用, 相似文献
14.
通过用户访问事务的方式将用户访问Web站点行为进行形式化描述。进一步给出了兴趣度、相似度、聚类中心的定义。提出了基于ISODATA算法的路径聚类方法。并通过对某实际网站Web日志文件进行分析实验,结果表明该方法不但能够发现群体用户访问模式,而且还能得到较为合理的模式聚类个数。 相似文献
15.
Web日志中包含了大量的用户浏览信息,如何有效地从中挖掘出用户浏览模式就尤为重要了。本文在分析现有用户浏览模式挖掘算法存在问题的基础上,根据Web日志的特点,对关联规则挖掘算法进行改进,提出了基于滑动窗口的浏览模式挖掘算法TBPM。并在此算法基础上设计了增量更新算法,对实际数据的实验结果验证了本算法的有效性。 相似文献
16.
通过分析读者在图书馆数字资源系统的行为日志数据,可以准确的挖掘出读者的真实需求,更好的为读者提供个性化服务。文章先介绍了读者行为分析在图书馆行业的研究现状,以及对读者行为挖掘的研究意义,然后介绍了对读者在数字资源访问系统中的访问日志数据进行数据采集、数据挖掘的方法,构建了读者行为分析系统模型。 相似文献
17.
18.
基于Web挖掘的个性化服务研究 总被引:8,自引:0,他引:8
论述了基于Web挖掘的个性化服务研究,提出了利用Web挖掘方法的个性化服务研究中的用户聚类、Web页面聚类、用户频繁访问路径发现算法及用户访问路径优化算法。利用这些算法得到的个性化信息可以准确把握用户兴趣模式并对Web信息资源的组织方式进行有效更新,从而提高网络信息服务效率,为用户提供“一对一”的具备自适应性的智能个性化服务。 相似文献
19.
研究利用Web日志文件来进行CRM数据挖掘是很有实际应用价值的,本文从这种实际需求出发,提出在数据预处理过程中使用启发式规则来识别用户,并介绍了一种基于IIS本身配置进行数据采集的方法。 相似文献
20.
Web日志挖掘是Web数据挖掘的重要分支,已成为研究人员关注的焦点。本文首先分析了Web日志的格式,再对Web日志挖掘过程中的数据预处理进行了深入的讨论,最后阐述了Web日志挖掘在网站建设上的应用。 相似文献