期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

赵华茗《现代图书情报技术》2015,(1):82-88

【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。相似文献

2.

Ajax技术在地质文献库质量控制中的应用

赵华茗史静周峰《现代图书情报技术》2009,(Z1)

介绍Ajax技术特点,以JavaSeript技术作为Ajax引擎,实现数据异步调用和格式处理,以IFrame框架作为数据容器,实现数据的"所见即所得"在线编辑处理等方法,将文献数据内容及格式编辑、验证提示等质量控制要素整合到一个页面中完成,减少数据加工工序,提高系统数据质量控制能力,增强用户使用的方便性和可靠性以及改善用户体验.最后,以中国地质文献数据库质量控制应用为例,阐述其实现过程. 相似文献

3.

依存句法特征的科研命名实体识别算法

赵华茗钱力余丽《图书情报工作》2020,64(11):108-115

[目的/意义] 探索科研命名实体及其关系的识别与抽取，提升其在长句等复杂情况下的识别效果，为进一步的应用提供参考与借鉴。[方法/过程] 以依存句法特征分析为基础，提出一种科研命名实体关系抽取方法，过程包括：①使用Standford Tagger工具对目标文本进行词性标注；②基于标注结果，围绕核心谓词和SAO结构，将目标文本分割为结构规范的语义片段；③通过依存句法分析，找出与核心谓词语义相关的主语和宾语，构成（实体，关系，实体）三元组。[结果/结论] 与Ollie、Reverb等主流算法进行的对比测试表明，该方法可以有效提升科研命名实体识别的准确性。相似文献

4.

分布式环境下的文档相似度研究与实现

赵华茗《现代图书情报技术》2011,(Z1)

针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,以非结构化文档为研究对象,提出一种基于Hadoop分布式环境,结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法,并给出关键技术思路、具体实现步骤和实证研究,通过研究证明Hive SQL语言可有效简化分布式数据处理的复杂性,但实时性有待改进。相似文献

5.

国内外开放学术资源整合研究现状述评与比较

赵华茗钱力谢靖《图书情报工作》2017,61(6):122-133

[目的/意义] 为开展开放学术资源整合服务建设提供参考与借鉴。[方法/过程] 分别对国内外开放学术资源整合方面的研究现状进行了梳理和总结,认为国内的研究成果主要集中在开放学术资源整合构建的理论、技术方法与工具、资源再利用和版权政策研究等方面,国外则对开放学术资源整合的概念认识、框架和结构、开放学术资源整合中运用的技术方法以及在不同领域的应用等方面进行了深入的研究。[结果/结论] 通过对国内外研究成果的比较分析,得出国内外开放学术资源整合研究的共同点在于研究关注点、研究方法以及实践应用的研究,区别在于研究主体、研究视角和研究深度。相似文献

6.

云计算及其应用的开源实现研究 总被引：2，自引：0，他引：2

赵华茗李春旺李宇周强《现代图书情报技术》2009,(9)

对比分析当前有代表性的云计算参与企业所采用的云计算实现方案和技术特点,总结云计算是一种能够提供动态资源池、虚拟化和高可用性的计算平台,包含两个方面的含义:底层的基础设施平台和构建在这个平台之上的应用程序.通过集成整合Eucalyptus开源云计算平台系统和Liferay开源内容管理系统,剖析具有特定应用的云计算平台构建过程,并着重介绍在基于虚拟技术的云计算平台中,使用Xen虚拟技术制作基于Linux系统的可定制服务的实例映像文件,使用AMI工具运行制作的实例(虚拟服务器)和部署应用服务等技术要点,使读者能够明确掌握云计算平台的搭建过程及云计算实例应用的快速部署与迁移. 相似文献