首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求.Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见.本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架.系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档.最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度.  相似文献   

2.
Web日志挖掘数据预处理方法研究     总被引:1,自引:0,他引:1  
Web日志挖掘技术是Web数据挖掘中最重要的应用。通过对挖掘服务器日志文件的分析和研究,可以对网站的组织结构及其性能进行改进,增加个性化服务,发现潜在的读者群体。数据预处理关系到Web日志挖掘的质量。数据预处理包括数据清理、识别用户、识别用户会话、格式化,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。  相似文献   

3.
阮光册 《图书情报工作》2011,55(11):121-124
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。  相似文献   

4.
搜索引擎用户日志分析对信息检索学术研究和搜索引擎优化都有重要意义,文章对约20G的新浪爱问搜索引擎(http://iask.com/)日志进行了系统的分析.发现了很多中文搜索的特点,并针对这些现象提出了一些问题.这些内容对于掌握用户搜索行为,完善搜索引擎系统和中文信息检索研究都具有重要的意义.该文为2008年第七期本期话题<用户查询的理解>的文章之一.  相似文献   

5.
用户日志是记录用户信息行为的重要手段,笔者通过MetaLib异构学术检索系统及建设需求构建了一个基于异构检索模式的用户学术搜索信息行为日志系统,该日志系统能有效地记录用户整个学术搜索阶段的信息行为,对用户个性化服务、学术搜索引擎的优化与改进、数字资源的使用统计与采购分析等有非常特别的意义。  相似文献   

6.
网络用户信息查寻行为研究述评   总被引:11,自引:0,他引:11  
沙勇忠  任立肖 《图书情报工作》2005,49(1):128-132,111
从3个方面对国内外网络用户信息查询行为研究领域的主要进展和热点问题进行评介,包括:①网络用户信息查寻行为的相关概念;②主要研究内容,包括用户利用搜索引擎的信息查寻行为研究、特定用户群体信息查询行为研究、用户个体差异对网络信息查寻行为的影响、网络用户信息查寻行为模型的构建;③研究方法,包括查询日志分析法、问卷法、访谈法、观察法、出声思维法。  相似文献   

7.
Web挖掘技术在电子商务中的应用研究   总被引:16,自引:0,他引:16  
刘培刚 《情报学报》2002,21(6):680-685
本文基于国内外最新研究成果对电子商务中应用的Web挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题 ,给出了基于Web日志的客户群体聚类算法及Web页面聚类算法。利用这些Web挖掘技术可有效挖掘用户个性特征 ,从而指导电子商务网站资源的组织和分配。  相似文献   

8.
本文选取东南大学图书馆资源发现系统(EDS)为研究对象,利用Google Analytics跟踪、收集用户使用日志数据,并对此数据进行深度挖掘、分析,构建用户画像信息,据此从整体上分析图书馆资源发现系统及其用户在使用过程中存在的问题。最后,针对用户行为分析,提出改善图书馆资源发现系统功能界面、提升资源发现系统检索适用性以及加强信息素养教育三方面建议。  相似文献   

9.
数字图书馆个性化信息检索模型研究*   总被引:3,自引:0,他引:3  
结合向量空间技术、Agent技术、Web日志挖掘等技术提出了一个基于概念的数字图书馆个性化信息检索模型。该模型根据用户主动提供的初始信息建立基于概念的用户兴趣模型,利用用户对文档的主动评价和用户的访问行为更新用户兴趣模型,并将用户兴趣模型用于检索结果的相关度排序和最新信息的推荐以及合作推荐。最后给出系统的实现方法。  相似文献   

10.
作为社交化内容平台的代表网站,豆瓣在Web 2.0时代有着良好的表现以及较高的用户黏性,逐步形成了以兴趣为中心的圈子社交、寻求身份认同的文化属性、弱关系下的商业特征以及以用户生成内容为主的信息属性,这也是Web 2.0时代社交化内容平台的一般性特点。然而步入以大数据和移动终端为代表的Web 3.0时代,对用户生成数据与用户行为轨迹进行挖掘,从而基于用户兴趣建立个性化的Web服务;注重线上线下的交互,重视下游供应链以避免微笑曲线的怪圈;发力移动终端,契合媒介接触时间和空间的变化,这些都是豆瓣等社交化内容平台需要探索的方向。  相似文献   

11.
It is known that users of internet search engines often enter queries with misspellings in one or more search terms. Several web search engines make suggestions for correcting misspelled words, but the methods used are proprietary and unpublished to our knowledge. Here we describe the methodology we have developed to perform spelling correction for the PubMed search engine. Our approach is based on the noisy channel model for spelling correction and makes use of statistics harvested from user logs to estimate the probabilities of different types of edits that lead to misspellings. The unique problems encountered in correcting search engine queries are discussed and our solutions are outlined.  相似文献   

12.
王若佳  李培 《图书情报工作》2015,59(11):111-118
[目的/意义] 针对当前我国网络用户的健康信息检索行为, 探索利用中文搜索引擎的健康信息检索规律, 为完善健康搜索引擎和网站建设提供参考。[方法/过程] 基于搜狗搜索引擎的大规模查询日志, 采用日志挖掘的方法, 从查询行为和点击行为两个角度对网络用户的健康信息检索行为进行研究。查询行为的研究指标包括会话层(会话长度、用户重复查询), 查询串层(查询串长度、重复查询)和词项层(高频词汇, 主题分类);点击行为的研究指标为点击位置和点击内容。[结果/结论] 健康相关查询的重复率较高, 提示相关网站可缓存高重复率查询串的返回结果;大众关注的热点领域为疾病、保健、母婴、医疗机构与美容整形, 提示网站的导航设计注意导航方向;用户更偏爱使用问答型平台, 提示网站设计者应更加关注与用户间问答型的互动模式。  相似文献   

13.
Searches with learning intent typically require the users to interact with the searching environment and perform knowledge acquisition features such as scan, read, and process the online content to fulfill their information needs. To capture indicators from searching behaviors that could account for the knowledge gained during a Web search, a qualitative study was performed using the Concurrent Think-Aloud protocol to observe the mechanisms of transfer and map knowledge flows during 78 search sessions. Findings indicate evidence of transfer of learning in the form of sixteen online information searching strategy indicators. This research aids the understanding of how knowledge is gained during search sessions and how to identify behaviors that could indicate that learning has occurred, which could be used to represent knowledge gain on Web search engines. In this way, it can aid search engines to become not only better tools of searching, but also tools of learning.  相似文献   

14.
基于P2P的适应性信息检索系统的设计   总被引:3,自引:1,他引:3  
针对现有搜索引擎的不足,提出了一个基于P2P的适应性信息检索系统设计方案,详细介绍了系统的各主要模块的功能和技术方法,进而分析了该模型的优势。  相似文献   

15.
利用流行病学中无金标准的筛检理论构建搜索引擎的评价指标,将用户体验得分和用户判断作为贝叶斯估计的先验信息,通过MCMC技术估算出Google简体中文和百度的灵敏度、特异度和检出率。  相似文献   

16.
搜索引擎在网络链接分析中的应用研究   总被引:7,自引:0,他引:7  
比较主要用于收集链接分析数据的搜索引擎在国内研究实践中的应用、使用后的评价、检索式构造,并结合检索实践对搜索引擎存在的各种问题进行探讨,得到结论:①在进行网络链接分析研究的数据收集中,搜索引擎存在很大的不确定性,研究者必须考虑这一缺陷所带来的后果;②Alltheweb是目前用于中文网络链接分析研究相对较好的搜索引擎;③需要进一步开发针对网络链接分析研究的专门搜索引擎。  相似文献   

17.
以需求为导向的的数字信息资源开发   总被引:8,自引:2,他引:8       下载免费PDF全文
数字信息资源开发要以用户需求为导向。网络环境下数字信息用户需求,在获取方式、内容、检索和成本方面都呈现出许多新特点。针对这些特点,数字信息资源开发应在数据库建设、资源整合、信息集成服务,以及与大众搜索引擎合作等方面体现以用户需求为导向。联盟合作和知识网络应成为以需求为导向的数字信息服务平台。参考文献29。  相似文献   

18.
本文分析了垂直搜索引擎的产生,与水平搜索引擎的区别所在,数据来源,盈利模式以及发展方向。  相似文献   

19.
大学生信息检索能力调查分析   总被引:11,自引:0,他引:11  
以大学本科生为研究对象,通过对他们在信息检索过程中使用工具和检索结果判断依据的调查探寻现今本科生信息素养的状态及其改善手段。通过实地问卷调查的方法,最终在北京大学回收了259份有效问卷。经过严格的数据清洗,使用描述统计和拟合优度分析的结果显示:本科生检索方法手段单一;使用搜索引擎查找生活、娱乐类信息,对搜索引擎的易用性的判断高于OPAC和数据库;无论是检索字段的使用还是对检索结果的判定,其所凭借和依据的字段或内容均很少。针对信息检索教育培训的力度不足的现状,提出从搜索引擎的使用入手,在日常的教学中引导学生养成良好的信息获取习惯并辅以一定的教育和训练是改善这种现状的可能手段。为了解大学生信息素养的现状提供了一手分析结果,同时为改善大学生信息素养现状提出了建设性的意见。  相似文献   

20.
搜索引擎的最新进展述要   总被引:1,自引:0,他引:1  
搜索引擎已成为人们利用网络的最重要工具.目前,网络上出现了一些具有新颖性、创新性的搜索引擎或挖掘出搜索引擎的新功能,其中有些研究成果直接代表着搜索引擎的发展方向.文章通过跟踪、试用、分析等环节,对新的搜索引擎或具有新功能的搜索引擎进行了归纳,便于人们更好地了解当前世界搜索引擎的现状.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号