首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于数据挖掘的图书数据预处理   总被引:2,自引:0,他引:2  
为了更好地从数据类型复杂、冗余空缺值多的海量图书数据中挖掘出切实有用的信息,就必须对数据源进行预处理。基于此目的,文章详细介绍了图书数据的预处理方法,并通过安徽省图书馆图书数据实例验证其有效性和可行性,从而为读者服务提供可靠保障。  相似文献   

2.
Web日志挖掘数据预处理方法研究     总被引:1,自引:0,他引:1  
Web日志挖掘技术是Web数据挖掘中最重要的应用。通过对挖掘服务器日志文件的分析和研究,可以对网站的组织结构及其性能进行改进,增加个性化服务,发现潜在的读者群体。数据预处理关系到Web日志挖掘的质量。数据预处理包括数据清理、识别用户、识别用户会话、格式化,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。  相似文献   

3.
档案信息化已经成为档案信息服务社会的最佳技术手段和实现途径.如何高效地利用爆炸性增长的数字化资源,从错综复杂的海量信息中提取出有价值的信息,已成为档案工作者的重要任务,数据挖掘正是解决这一问题的有力工具.各级财政和统计部门多年来积累了大量的财经类档案数据,对其进行数据采集和预处理是进一步数据挖掘和利用的基础.由于财经类数据不同于一般档案数据,因此,在数据采集、预处理工作中必须充分注意其特性,采用相关技术才能形成高质量的数据,使数据的利用(统计、数学建模、数据挖掘)等更加有效.  相似文献   

4.
通过属性规约、空缺值处理及异常值检测,对中国科技论文在线2003-2009年37 898篇首发论文数据进行数据预处理。对数据预处理后的37 348篇首发论文,构建下载次数的回归树模型,通过模型结果分析,得出下载次数的影响因素依次为首发论文的发表时间、所属学科以及首发论文的星级评定结果,并分析下载次数在这三个方面的典型特征。  相似文献   

5.
数据预处理是Web日志挖掘的基础,而路径补充是数据预处理中一个关键环节。本文运用Petri网来描述Web站点结构,利用Petri网的可达性与关联矩阵等性质完成路径补充。提出了一种基于Petri网模型的路径补充算法,该方法不但可以高效地获得用户的访问路径,而且能够动态的反映用户的浏览行为。  相似文献   

6.
用VBA实现文献计量分析研究中的数据预处理技术   总被引:12,自引:0,他引:12  
简单分析网页数据的特点,并针对网页数据的特点设计统计分析的预处理流程,对每一步处理过程都用几种不同的算法进行实验,以期得到最优的解决方案。实验证明,通过减少IO操作、提高处理粒度、适当使用词表等方法可以提高程序运行速度与准确率。  相似文献   

7.
知识图谱工具比较研究   总被引:4,自引:0,他引:4  
介绍知识图谱分析一般工作流程,分析12种有代表性的知识图谱工具,从数据格式、数据预处理、构建关系矩阵、数据标准化处理以及所支持的知识图谱分析方法5个方面对比12种软件的差异,总结各种软件的优势和劣势,使用户能根据自身研究的需求,选择相应功能的知识图谱软件工具。  相似文献   

8.
基于高校图书馆Web日志挖掘的分析与研究   总被引:1,自引:0,他引:1  
以长江大学图书馆主页服务器Web日志文件为例,介绍了Web日志分析流程、Web日志格式,分析了Web日志挖掘的数据预处理过程,最后给出了应用实例。  相似文献   

9.
基于可视化数据挖掘的知识发现模型研究   总被引:1,自引:0,他引:1  
基于可视化数据挖掘的知识发现模型,过程有4个步骤:数据的收集和存储;数据预处理,把数据转化成可以理解的形式;使用硬件和相关软件,产生一个可视化的数据表示;通过与数据的可视化表示进行交互,用户从中感知和挖掘知识。图5。参考文献14。  相似文献   

10.
Web使用挖掘是利用数据挖掘技术从Web数据中发现用户使用模式的过程。以Web使用挖掘技术为基础,提出了一种个性化服务推荐模型。分析了Web使用挖掘的数据收集、数据预处理、模式发现及分析、个性化服务引擎等过程,并对各过程的个性化服务的实现进行了阐述,还对个性化服务的发展进行了展望。  相似文献   

11.
针对高校图书馆机构知识库构建中普遍存在的数据来源与组织难题,通过文献数据预处理和数据模型的设计,将高校科研成果的文献数据原貌保存到机构知识库中,并实现文献实体与高校实体间的精准关联。基于模型继续探索文献数据规律,发现题录实体分布中普遍存在的“二八”定律现象对于拥有海量、动态科研成果数据的机构知识库的管理和运营具有主要参考价值。  相似文献   

12.
互联网搜索数据与社会经济行为的相关性已被多篇文献所证实,然而对于这项研究的基础工作--数据预处理,目前尚缺乏系统的方法.本文提出一套完整的搜索数据预处理流程,包括搜索关键词的选择、时差关系判定、关键词指数合成等步骤,并对各关键步骤给出了处理方法及标准.通过该方法可以得到稳定且高拟合度的先行关键词指数.本文以股票市场中上证指数为研究对象,实证检验得出,合成后的先行关键词指数与上证指数的拟合优度高达0 979.Granger检验证实了对上证指数具有显著的预测能力,回归结果显示关键词指数每变动1个百分点,后一期的上证指数将同方向变动0 518个百分点.  相似文献   

13.
提出一种多粒度的用户行为数据收集方法,该方法以可配置的插件形式嵌入服务器端收集数据。实验证明,该方法能提高Web使用挖掘的数据质量,简化Web使用挖掘预处理工作,并为后续挖掘工作提供多种粒度的信息,从而为分析Web用户的行为提供优质数据源。  相似文献   

14.
点击流信息资源研究   总被引:1,自引:0,他引:1  
点击流信息资源,这里特指通过间接方式获取的反映站点用户点击活动的各种网络信息资源。点击流信息源主要有站点服务器、代理服务器和客户机。开发方法有:站点数据预处理、站点点击流数据挖掘。参考文献8。  相似文献   

15.
科学计量可视化软件的对比与数据预处理研究   总被引:2,自引:0,他引:2  
从软件运行平台、数据来源、数据文件格式要求、数据导入规模与处理规模等角度对10款科学计量软件(Bibexcel、Bicomb、CiteSpace、HistCite、NetDraw、Pajek、SATI、SPSS、Ucinet、VOSviewer)的数据预处理要求进行比较,发现:CNKI、万方、CSSCI和WoS数据库的数据可由不同的软件处理;不同的软件仅能处理相应格式的Text、Excel、Html和其他文件格式的文件;软件不同,所能处理的数据量也有所差别。  相似文献   

16.
针对目前用于专利分析的数据存在来源单一、预处理操作不够、可挖掘程度浅等问题,设计并实现异构专利数据源集成方案,即从七国两组织的专利数据库获取数据到本地专利数据库;以本地数据库为基础数据源,利用SSIS工具通过ETL(数据抽取-数据转换-数据装载)操作,生成规范的、集成的高质量数据;进而将其加载到事先围绕KPI(关键性能指标)分析构建好的专利数据仓库中,从而为专利多维分析以及数据挖掘提供有效的数据支持。  相似文献   

17.
文章通过对个性化推荐和数据建模理论研究,分析了普通的Web日志格式采集到的数据无法满足个性化用户分析、预测和推荐精度需要的局限性。提出定制Web日志数据建模的过程及方法,建立了定制Web日志模型原型。通过应用数据挖掘技术的关联分析、分类和聚类实验,实验结果表明,通过定制Web日志的方式采集的数据质量能够很好地满足发现关联规则、内容分类和用户聚类的需求,从而提高个性化推荐的精度。同时,定制的Web日志数据还具有简化数据预处理、多用途的优点。  相似文献   

18.
吕艳丽 《图书馆学刊》2006,28(4):135-137
Web使用挖掘过程包括数据预处理、模式发现和模式分析;利用Webalizer和Webtrends等Web使用分析工具可以对用户模式进行分析,为建立个性化系统提供依据;国内外典型的个性化系统平台为图书馆的个性化系统提供较好的范例。  相似文献   

19.
大数据时代,档案信息服务在与大数据技术结合发展时存在数据处理能力不足以及对用户研究粗粒度等问题,与档案用户信息需求的细粒度、精准化要求存在一定距离。小数据以其独特的数据特点给档案信息精准服务带来新的思路。以小数据为切入点,分析档案小数据的构成以及基于档案小数据开展精准化档案信息服务的可行性,构建基于小数据的档案信息精准化服务模式,从档案用户层出发,在采集档案用户小数据的基础上进行数据预处理、存储和分析,通过一系列档案信息精准化服务相关措施实现档案信息内容的精准推送与有效预测。  相似文献   

20.
基于深度标引的专利文本挖掘框架研究   总被引:1,自引:1,他引:0  
专利文献中的文摘、权利要求项、全文等文本信息蕴涵了重要技术细节和技术保护等内容,从这些专利文本内容中挖掘具有技术价值、商业价值的潜在信息是当前专利信息应用领域的研究热点.文章研究将面向分析目标的专利文本深度标引应用到专利文本挖掘中,在数据预处理阶段就将分析目标作为知识抽取的基础,专利分析人员可依据分析需求,在文本挖掘时只提取标引结果的某一部分进行分析和处理,这不仅可提高专利文本挖掘的数据预处理质量,也可提高后期文本分析的效率.该文为<数字图书馆论坛>2008年第11期本期话题"科技创新中的专利应用研究"的文章之一.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号