共查询到20条相似文献,搜索用时 62 毫秒
1.
基于数据挖掘的图书数据预处理 总被引:2,自引:0,他引:2
为了更好地从数据类型复杂、冗余空缺值多的海量图书数据中挖掘出切实有用的信息,就必须对数据源进行预处理。基于此目的,文章详细介绍了图书数据的预处理方法,并通过安徽省图书馆图书数据实例验证其有效性和可行性,从而为读者服务提供可靠保障。 相似文献
2.
Web日志挖掘数据预处理方法研究
总被引:1,自引:0,他引:1
柳胜国 《现代图书情报技术》2004,20(12):55-57
Web日志挖掘技术是Web数据挖掘中最重要的应用。通过对挖掘服务器日志文件的分析和研究,可以对网站的组织结构及其性能进行改进,增加个性化服务,发现潜在的读者群体。数据预处理关系到Web日志挖掘的质量。数据预处理包括数据清理、识别用户、识别用户会话、格式化,目的是分割服务器日志为多个独一无二的用户的一次访问序列,并给予了算法实现。 相似文献
3.
档案信息化已经成为档案信息服务社会的最佳技术手段和实现途径.如何高效地利用爆炸性增长的数字化资源,从错综复杂的海量信息中提取出有价值的信息,已成为档案工作者的重要任务,数据挖掘正是解决这一问题的有力工具.各级财政和统计部门多年来积累了大量的财经类档案数据,对其进行数据采集和预处理是进一步数据挖掘和利用的基础.由于财经类数据不同于一般档案数据,因此,在数据采集、预处理工作中必须充分注意其特性,采用相关技术才能形成高质量的数据,使数据的利用(统计、数学建模、数据挖掘)等更加有效. 相似文献
4.
5.
6.
用VBA实现文献计量分析研究中的数据预处理技术 总被引:12,自引:0,他引:12
化柏林 《现代图书情报技术》2007,2(3):69-72
简单分析网页数据的特点,并针对网页数据的特点设计统计分析的预处理流程,对每一步处理过程都用几种不同的算法进行实验,以期得到最优的解决方案。实验证明,通过减少IO操作、提高处理粒度、适当使用词表等方法可以提高程序运行速度与准确率。 相似文献
7.
8.
基于高校图书馆Web日志挖掘的分析与研究 总被引:1,自引:0,他引:1
以长江大学图书馆主页服务器Web日志文件为例,介绍了Web日志分析流程、Web日志格式,分析了Web日志挖掘的数据预处理过程,最后给出了应用实例。 相似文献
9.
10.
Web使用挖掘是利用数据挖掘技术从Web数据中发现用户使用模式的过程。以Web使用挖掘技术为基础,提出了一种个性化服务推荐模型。分析了Web使用挖掘的数据收集、数据预处理、模式发现及分析、个性化服务引擎等过程,并对各过程的个性化服务的实现进行了阐述,还对个性化服务的发展进行了展望。 相似文献
11.
12.
互联网搜索数据与社会经济行为的相关性已被多篇文献所证实,然而对于这项研究的基础工作--数据预处理,目前尚缺乏系统的方法.本文提出一套完整的搜索数据预处理流程,包括搜索关键词的选择、时差关系判定、关键词指数合成等步骤,并对各关键步骤给出了处理方法及标准.通过该方法可以得到稳定且高拟合度的先行关键词指数.本文以股票市场中上证指数为研究对象,实证检验得出,合成后的先行关键词指数与上证指数的拟合优度高达0 979.Granger检验证实了对上证指数具有显著的预测能力,回归结果显示关键词指数每变动1个百分点,后一期的上证指数将同方向变动0 518个百分点. 相似文献
13.
提出一种多粒度的用户行为数据收集方法,该方法以可配置的插件形式嵌入服务器端收集数据。实验证明,该方法能提高Web使用挖掘的数据质量,简化Web使用挖掘预处理工作,并为后续挖掘工作提供多种粒度的信息,从而为分析Web用户的行为提供优质数据源。 相似文献
14.
15.
科学计量可视化软件的对比与数据预处理研究 总被引:2,自引:0,他引:2
从软件运行平台、数据来源、数据文件格式要求、数据导入规模与处理规模等角度对10款科学计量软件(Bibexcel、Bicomb、CiteSpace、HistCite、NetDraw、Pajek、SATI、SPSS、Ucinet、VOSviewer)的数据预处理要求进行比较,发现:CNKI、万方、CSSCI和WoS数据库的数据可由不同的软件处理;不同的软件仅能处理相应格式的Text、Excel、Html和其他文件格式的文件;软件不同,所能处理的数据量也有所差别。 相似文献
16.
针对目前用于专利分析的数据存在来源单一、预处理操作不够、可挖掘程度浅等问题,设计并实现异构专利数据源集成方案,即从七国两组织的专利数据库获取数据到本地专利数据库;以本地数据库为基础数据源,利用SSIS工具通过ETL(数据抽取-数据转换-数据装载)操作,生成规范的、集成的高质量数据;进而将其加载到事先围绕KPI(关键性能指标)分析构建好的专利数据仓库中,从而为专利多维分析以及数据挖掘提供有效的数据支持。 相似文献
17.
18.
Web使用挖掘过程包括数据预处理、模式发现和模式分析;利用Webalizer和Webtrends等Web使用分析工具可以对用户模式进行分析,为建立个性化系统提供依据;国内外典型的个性化系统平台为图书馆的个性化系统提供较好的范例。 相似文献
19.
20.
基于深度标引的专利文本挖掘框架研究 总被引:1,自引:1,他引:0
专利文献中的文摘、权利要求项、全文等文本信息蕴涵了重要技术细节和技术保护等内容,从这些专利文本内容中挖掘具有技术价值、商业价值的潜在信息是当前专利信息应用领域的研究热点.文章研究将面向分析目标的专利文本深度标引应用到专利文本挖掘中,在数据预处理阶段就将分析目标作为知识抽取的基础,专利分析人员可依据分析需求,在文本挖掘时只提取标引结果的某一部分进行分析和处理,这不仅可提高专利文本挖掘的数据预处理质量,也可提高后期文本分析的效率.该文为<数字图书馆论坛>2008年第11期本期话题"科技创新中的专利应用研究"的文章之一. 相似文献