首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
[目的/意义] 旨在解决中文名称规范联合数据库检索系统CNASS的检索结果集记录量大且杂散的问题,实现其检索服务的关联聚簇功能。[方法/过程] 基于FRBR-LRM框架将个人名称规范记录转换为实体-属性-关系的RDF表示,利用记录内嵌的外部LC记录号重定向到VIAF记录,对原记录的作品关系等属性进行扩展。设计中文同名个人规范记录识别与聚簇算法,充分利用扩展后的作品关系,提高记录识别和聚簇的效率。[结果/结论] 选取300个人名,在CNASS中进行检索,对检索结果集运行算法,统计分析每个检索结果集的聚簇数和最大聚簇内记录数,综合计算聚簇效率指标,验证了本文聚簇算法的有效性。  相似文献   

2.
基于主题模型的科技报告文档聚类方法研究   总被引:1,自引:0,他引:1  
[目的/意义]探索实践以科技报告为文献载体形式的融合主题模型的文本聚类方法,拓展基于科技文献进行技术监测服务的新领域,提出基于科技报告进行语义分析的新方法。[方法/过程]以国家科技报告服务系统中的科技报告为数据源,首先基于LDA主题模型对经过文本预处理的科技报告进行主题挖掘,再基于Ward与K-means相结合的聚类算法对包含主题分布信息的文本向量进行聚类分析,尝试提出一种适合科技报告文档聚类的文本挖掘新方法。[结果/结论]实验结果表明,LDA主题模型能有效准确挖掘科技报告中的主题信息,所提出的Ward与K-means相结合的聚类算法对科技报告的聚类效果也优于其它传统聚类算法。  相似文献   

3.
[目的/意义]国家政府、大中型企业以及研究机构面对技术难题,如何找到合适的专家是迫切需要解决的问题。面对需要运用多学科知识来解决的综合性复杂难题,寻找到多专长专家显得尤为重要,寻找合适的方法识别出多专长专家是本研究的目的。[方法/过程]利用专家所发表的学术论文数据,通过抽取专家有代表性的研究专长特征,基于TFIDF加权的重叠K-means聚类算法对专家进行重叠聚类划分,挖掘出专家的多个研究专长,进而识别出多专长专家。[结果/结论]研究结果表明TFIDF加权的重叠K-means聚类算法在查准率、召回率和F值上有良好的表现,可以识别多专长专家。  相似文献   

4.
K-means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题.本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K-means改进算法.该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类.算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K-means算法的初始聚类中心.第二步聚类则依据文献内容实现K-means算法.实验通过与经典K-means算法和基于凝聚层次聚类算法的改进K-means算法的对比,证明了本文提出的改进的K-means算法具备更优的聚类效果.  相似文献   

5.
[目的/意义] 基于高维矩阵稀疏降维的思想,提出一种利用惩罚性矩阵分解(Penalized Matrix Decomposition,PMD)实现共词分析的新方法。[方法/过程] 以"学科服务"为研究主题,根据PMD算法原理,在Matlab环境下分别实现特征词的提取、特征词的软聚类以及聚类效果的可视化。[结果/结论] 与传统的共词分析方法对比,PMD算法在共词分析中具有独特的优势:提取的特征词比较全面,聚类数目便于确定,聚类结果易于理解。  相似文献   

6.
杨艳萍  董瑜  韩涛 《图书情报工作》2016,60(19):143-148
[目的/意义]基于专利共被引聚类和专利组合分析构建关键技术识别分析框架,可为产业、企业决策和规划提供参考依据。[方法/过程]首先通过专利共被引聚类获得若干个聚类簇;再通过领域专家对聚类簇进行判读和命名;最后从专利活动和专利质量两个维度对聚类簇进行专利组合分析,其中专利申请数量和被引频次均较高的专利簇即为关键技术。[结果/结论]与已有方法比较研究表明,本方法不仅可以有效识别产业关键技术,还能在中观的产业层面揭示出切合实际需求的技术方向,也可为企业根据自身需求制定不同的技术发展战略提供指导。  相似文献   

7.
肖强  钱晓东 《图书情报工作》2011,55(16):136-139
针对传统关联规则算法中事务扫描的重复性以及最小支持度设定的不确定性,导致关联规则挖掘算法扫描事务数据库运行效率低下的问题,提出一种基于K-means的Web访问用户关联规则挖掘算法,该算法利用K-means算法聚类的效果,将Web访问用户数据集聚类为不同的小数据集,采用不同的最小支持度,分别对Web访问用户聚类小数据集进行关联规则挖掘。分析和实验结果证明,该算法可有效提高传统关联规则挖掘算法的效率,同时也可有效避免传统关联算法中扫描中的重复性。  相似文献   

8.
本文尝试解决国内个人名称规范联合数据库检索结果集基于实体匹配的聚簇问题,分析国内名称规范联合库CCCNA的检索服务和数据库记录特点,提出对结果集记录合并聚簇的思路:首先预处理去除重复和明显的名称语义不匹配记录,再根据提取出的个人实体属性名称、出生年、个人关联的书目题名及关联的外部记录,基于个人实体的语义进行个人名称规范记录聚簇.实证统计结果显示,处理后结果集内的簇数都显著低于处理前的记录条数,与VIAF的关联聚簇结果也验证了本文方法的有效性.但本文书目匹配采取题名匹配,这会丢失一些有用的聚簇信息,后续研究将进一步集成图书机构的书目数据库,抽取更多的书目信息进行聚簇.  相似文献   

9.
贾君枝  冯婕 《图书情报工作》2017,61(12):122-128
[目的/意义] 挖掘不同名称数据之间的关联关系,将关于某一实体或主题的领域知识表现出来,这对实现不同层次、不同粒度的知识体系的解构和重构、提供满足多种需求的知识服务工作具有重要的研究意义。[方法/过程] 提出一种基于人物实体数据运行关联规则挖掘实验的研究框架,通过对人物实体条目的抽取、预处理及属性识别与分类等处理方法,利用R语言得到人物实体集的关联规则,实现多种名称数据的关联,最后从Wikidata知识库提取113位诺贝尔文学奖得主的实体条目进行实证分析。[结果/结论] 分析右部为地点名称、机构名称、时间名称和主题名称等4种不同类型规则的关联特征,实现不同名称数据类型的关系挖掘问题。本研究可为知识的揭示、聚合和关联提供新的视角,探索了数据挖掘技术在名称数据中的应用。  相似文献   

10.
杨昭  任娟 《图书情报工作》2020,64(4):95-102
[目的/意义] 大数据时代,机构名称数据呈现海量性、动态性、多样性等新特征,机构名称归一化可改善大数据环境下科研管理、学科评价、学科服务中的数据可靠性,提升基于机构名称的数据检索质量和应用效果。[方法/过程] 从语言学角度和模型构建层面研究机构名称归一化,构建基于共现关系和相似度的机构名称归一化框架模型,提出机构名称实体边界识别方法,编制机构多层级词表,提出机构名称归一化方法,最后选取2008-2018年中文文献题录数据进行实验。[结果/结论] 实验结果验证了模型的有效性,对其他类型机构名称归一化有一定的启发。  相似文献   

11.
��[Purpose/significance] In the era of big data, institution name data presents new features such as mass, dynamic and diversity. Normalization of institution name can improve the reliability of data in scientific research management, subject evaluation and subject service under big data environment, and improve the quality and application effect of data retrieval based on institution name.[Method/process] From the perspective of linguistics and model construction, this paper studied name normalization. This paper constructs a Framework Model for Normalization of Institutional Names Based on Co-occurrence Relations and Similarity. Firstly, it proposed a method of identifying the entity boundary of names. Secondly, it compiled a multi-level vocabulary and proposes a normalized method of names. Finally, the Chinese bibliographic data from 2008 to 2018 were selected for experiment.[Result/conclusion] Experiments verify the validity of the model, which has some enlightening significance for the normalization of the names of other types of institutions.  相似文献   

12.
[目的/意义]研究利用维基百科条目的丰富信息来补充完善当前中文名称规范档附加信息不足、名称难以准确区分的问题。[方法/过程]探讨网络环境下个人名称规范档的部分缺陷和维基百科相应的优势,重点阐述维基百科的接口Media Wiki API,并从两个方面探讨实现个人名称规范档与维基百科的链接应用:一是实现从名称规范档到维基百科的链接,二是动态生成个人简介,为名称规范档提供必要的信息来源。[结果/结论]集成维基百科的资源实现中文名称规范档信息的自我完善,有效地建立中文人名名称规范档与维基百科的链接,有助于个人名称的识别与检索。  相似文献   

13.
[目的/意义] 在数字人文研究这一大趋势下,基于先秦古汉语语料库和条件随机场模型,构建古汉语地名自动识别模型。[方法/过程] 对《春秋左氏传》中的地名的内部和外部特征进行统计分析,构建模型的特征模板。在规模为187, 901个词汇的训练和测试语料上,对比条件随机场模型和最大熵模型的地名识别效果,把调和平均数为90.94%的条件随机场训练模型确定为最佳,作为本文所要构建的模型,并在《国语》语料上进行验证。[结果/结论] 在古汉语地名自动识别中,条件随机场模型优于最大熵模型,基于人工标注过的语料构建条件随机场自动识别模型能取得较好的识别效果。  相似文献   

14.
王燕鹏  韩涛  陈芳 《图书情报工作》2020,64(16):105-113
[目的/意义] 立足情报研究视角,提出一套科学有效且可复用推广的关键技术识别方法,以期为国家、地区、企业和创新机构发现、部署、推动关键技术研发前瞻性布局提供情报支撑。[方法/过程] 在关键技术类型及概念界定的基础上,利用文献知识聚类识别热点技术,以各项热点技术为节点构建复杂网络,通过节点二次聚类和可视化方法展现技术结构网络,采用结构洞理论分析网络和节点特性,以此遴选共性技术;利用链路预测方法,预测技术结构网络中的缺失边产生连接的可能性,分析热点技术交叉融合促进创新技术形成的现象,以此识别潜在新兴技术。[结果/结论] 以智能制造领域为例开展关键技术识别的实证研究,通过国家权威规划文件对比和文献资料调研,初步验证方法的可操作性和有效性。  相似文献   

15.
[目的/意义]系统梳理论文合著者贡献分配算法,比较各种贡献分配算法的适应性,总结使用方式及注意事项。[方法/过程]介绍若干种合著者贡献分配算法,收集数据并对它们的拟合性进行验证,比较分配算法的优劣。[结果/结论]基于合著者署名顺序的分配算法中网络贡献分配算法拟合性最好,其次是调和贡献分配算法。基于学科领域的贡献分配算法更适用于有一定学术声望的学者的评价,基于合著者署名顺序的贡献分配算法如网络、调和分配算法适用于普通的科研人员评价。  相似文献   

16.
[目的/意义] 探究不同学科分类方案对于学科标准化方法效果的影响,并比较不同学科标准化方法的效果。[方法/过程] 在Web of Science学科分类方案下就比均值法、比中位数法、Z-score法这三种常用的标准化方法的效果进行比较研究;变更不同粒度的学科分类方案,对这三种标准化方法在Essential Science Indicators (ESI)、经济合作与发展组织(OECD)学科分类方案下的敏感性进行实证检验。[结果/结论] 结果显示,使用不同学科分类方案并未对各标准化方法的效果产生较大影响,各标准化方法的效果基本保持不变。从CCDF引文分布曲线的图形上来看,使用三种标准化方法处理后的CCDF曲线形状较原始引文的CCDF曲线形状明显更加聚拢,并且三种标准化方法在更换不同粒度的学科分类方案后引文分布情况仍大致相同。结合top z%法从定量数值的角度再次进行检验,可以发现,三种标准化方法的效果在变更不同粒度的学科分类方案后基本保持不变,并呈现出如下规律:在截取全局top30%以下论文时,比均值法、Z-score法的标准化效果虽然略有不同,但是都优于比中位数法;截取top30%-40%阶段论文时,Z-score法的优势较为突出;截取top40%以上论文时,比中位数法则呈现出明显优于其他两者的效果。  相似文献   

17.
[目的/意义]作为一类面向学科领域科技情报需求、针对全文本关键语义计量分析、旨在实现情报自动化到知识自动化实践应用的探索研究,本文基于语义标注和机器学习等技术,在前期研究从知识元共现视角探测研究前沿演进机理基础上,进一步提出一种基于知识元变异的研究前沿知识演进分析方法。[方法/过程]利用Word2vec词嵌入模型将知识元表示为词向量,通过计算知识元向量的欧几里得距离,利用K-means聚类方法识别具有相似语义语用关联的知识元簇集,计算历时簇集内各知识元TF-IDF值,对变异后知识元重要程度的突发变化结果进行定量测度,进而挖掘ESI研究前沿演进中的知识元变异特征和规律。[结果/结论]通过探测结果的对比检验发现,基于知识元变异的科学计量方法,不仅是对前期研究方法的补充和拓展,使得针对研究前沿内部知识运动规律的挖掘更加具体详实,更是在时间序列范畴内,能够尽早、及时探测研究前沿未来发展动向和关键情报信号的有力证据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号