首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
科研实体名称规范的关联数据模型构建   总被引:1,自引:0,他引:1  
[目的/意义] 旨在研究将国家科技图书文献中心(National Science and Technology Library,NSTL)的科研实体名称规范数据发布为关联数据的难点——关联数据的数据模型。科研实体名称规范数据的数据模型研究,有助于NSTL科研实体数据的共享、互联、质量提升,融入到互联网中,同时也为其他机构使用、发布关联数据提供模型参考。[方法/过程] 首先,分析比较国内外关联数据发布项目中所采用的数据模型,发现关联数据发布项目中的数据模型主要分为以Schema.org为核心和多种标准词表组合两类;结合NSTL名称规范数据的特点,设计两种形式的关联数据模型,并从关联数据模型对名称规范数据的表达程度、模型复杂度等角度进行比较,选择较优方案;最后以D2RQ为工具进行实验,将NSTL名称规范的样例数据发布为关联数据。[结果/结论] 分析发现两种方案中以Schema.org为核心标准词表的方案相对于多种标准词表组合的方案有较优的表达完整度、较低的模型复杂度,更易于融入互联网,因此更适合作为NSTL名称规范数据的关联数据模型。  相似文献   

2.
[目的 /意义]提出一种潜在学科交叉主题识别方法,主要开展学科交叉主题识别与知识融合测度两方面的研究,以识别处于知识融合潜伏期和萌芽期的潜在学科交叉主题。[方法 /过程]首先,设计并提出学科关联实体抽取规则,构建基于学科关联实体的学科交叉潜力计算方法,以实现学科交叉主题识别,解决潜在交叉点识别的问题;其次,构建以融合强度、融合广度、融合深度为中心的学科交叉主题知识融合阶段特征测度指标与方法,以揭示知识融合过程;最后,基于交叉主题知识融合阶段特征与判断规则,识别处于潜伏期与萌芽期的潜在学科交叉主题。[结果 /结论 ]以合成生物学和水稻遗传改良领域为例,开展潜在学科交叉主题识别研究,以验证方法的可行性。结果表明,提出的方法能够识别学科领域之间的潜在交叉主题,为高效探测有潜力的学科交叉研究领域,发掘未来的研究发展动向和机会提供可能。  相似文献   

3.
[目的/意义]利用关联数据名称唯一性特点,对书目数据进行语义化关联组织,使不同图书馆资源通过文献版本关系发现实现语义聚集。[方法/过程]分析书目关系类型及文献不同版本的特点,提出文献不同版本类型对应的版本关系,然后采用属性值顺序匹配方法,经过同种文献确定、版本关系发现两个步骤发现文献之间的版本关系,并利用美国国会图书馆、德国国家图书馆相关数据以及维基关联数据进行实证研究。[结果/结论]构建基于关联数据、书目数据的文献版本关系发现方法,实现同种文献不同版本的语义关联,发现实证数据间的版本关系,并指出其应用方向。通过该方法可以提供基于关联数据的知识检索服务,满足用户阅读、科研需求。  相似文献   

4.
[目的/意义] 对阿尔茨海默病(AD)进行基因-疾病关联挖掘,以捕捉潜力研究方向。[方法/过程] 基于LBD理论构建开放式知识发现架构,结合MeSH词表、DisGeNET等医学术语、组学数据对PubMed中AD文献进行知识挖掘,采用关联规则与算法排序等方法对部分基因重合的强关联主题共现疾病和优先候选基因进行筛选,结合时间切片和其他LBD工具对比加以验证。[结果/结论] 对88 334篇AD文献进行基因-疾病识别,并与2 120种AD基因进行匹配;以XYZ分析视角对识别出的992种主题共现疾病及11 899种候选基因进行关联排序;精炼10种强关联疾病与25种优选候选基因,结合文献报道加以论述。通过LBD挖掘目标疾病-共现疾病-基因之间潜在关联,可快速捕捉潜力研究方向,缩小基因测序范围,为新研究假设的生成提供重要指导依据。  相似文献   

5.
[目的/意义]以故事线梳理史实脉络,不仅对于描绘与把握历史发展方向具有一定的理论和现实指导意义,同时也为人文领域的知识发现提供新的技术实现方式和创新性研究视角。[方法/过程]提供一种基于文本数据的故事线构建及可视化、情感化、场景化的研究范式,通过爬梳《张学良口述历史》文本作为数据源进行实证探索。采用jieba分词对《张学良口述历史》初始数据源进行数据清洗获取实验数据源,应用LDA主题模型获取主题分布并进行t-SNE数据降维呈现主题模块,借助SnowNLP情感词典挖掘情感特征词,梳理张学良情感演化阶段,进行故事线构建。[结果/结论]通过构建张学良故事线,实现人物、地点、事件、时间、情感等多维要素的动态互促。  相似文献   

6.
[目的/意义]以主题短语识别为研究对象,提出基于PhraseLDA模型的主题短语挖掘方法,为快速理解文本内容、准确抽取文本主题提供借鉴思路。[方法/过程]对低频词进行量化定义,提出一种合理的短语重要度计算方法,最终利用PhraseLDA主题模型推理出主题短语。[结果/结论]实验结果表明该方法在多种数据集中挖掘出的主题短语质量较高,主题一致性较强。  相似文献   

7.
大规模中国历代存世典籍知识图谱构建研究   总被引:2,自引:1,他引:1  
[目的/意义]探索构建中国历代存世典籍知识图谱,以为研究者挖掘海量古籍书目数据背后隐藏的知识提供一站式平台,拓展古籍知识服务内涵,同时,大规模的典籍知识图谱也是机器智能的重要基础。[方法/过程]通过知识图谱技术对中国历代存世典籍进行知识组织,从需求层、模型层、应用层3部分构建一个典籍知识图谱框架模型,通过人机协作进行典籍数据抽取及多源数据融合,完成数据的整理,并对典籍知识图谱实体类型及属性、典籍知识图谱实体关系及类型进行分析与定义。[结果/结论]所构建的典籍知识图谱包含649549种古籍实体、221783位典籍责任者、1498383个古籍版本、13960个地名节点,形成了一个立体、多维、多用途的古籍知识关联网络,对全球目前存世的主要中国历代典籍书目信息进行了较全面描述。  相似文献   

8.
[目的/意义]挖掘和组织先秦典籍中的植物知识,构建先秦典籍植物知识图谱,对认识我国古代人民社会和生活状态等具有重要意义。[方法/过程]对先秦典籍中植物词进行详尽标注与计量分析;基于条件随机场(CRF)和多种深度学习模型构建古汉语植物命名实体识别模型,比较分析各模型性能以确定最优模型;设计面向知识图谱的古汉语植物知识组织模式。[结果/结论]基于古汉语预训练语言模型SikuRoBERTa构建的古汉语植物命名实体识别模型性能最优,调和平均值达85.44%,为基于实体的植物知识挖掘提供了有效方法;所构建的先秦典籍植物知识图谱可实现对先秦典籍中植物实体及其关联知识的聚合与可视化呈现。  相似文献   

9.
[目的/意义]提出基于引文耦合和概念格的学科交叉知识结构探测方法。[方法/过程]利用Sci2工具获取情报学与计算机科学的学科交叉耦合文献,利用ConExp1.0工具构建两学科交叉知识概念格;通过概念格关联规则挖掘和层次聚类,将两学科的学科交叉知识结构细分为8个研究主题,揭示各研究主题的关联特征和对应的核心作者。[结果/结论]与传统的聚类树相比,该方法结合人类的认知规律描述概念与主题之间的关系,不仅具有较好的层次性可视化效果,而且意义更易于理解,具有更好的解释性。  相似文献   

10.
考察特定领域文本中蕴含的细粒度知识实体的使用情况,对知识实体的评估和选择具有重要意义。学术文本中的细粒度知识实体通常具有多个类型、多种关联关系,挖掘知识实体的同质与异质关联关系,有助于深入了解特定领域知识实体的实际使用情况。目前相关研究大多针对学术文本中单一知识实体的抽取和评估,缺乏对知识实体间关系的关注,在一定程度上限制了基于实体抽取进行知识发现的能力。文章以自然语言处理领域为例,对学术论文全文中的细粒度知识实体关联数据进行挖掘,并通过可视化方式揭示关联数据中蕴含的信息。主要是选取全国计算语言学会议2009-2018年间收录的中文论文为原始语料,人工标注论文中使用的知识实体,并针对NLP特点将其细分为“指标实体”“工具实体”“资源实体”“方法实体”4种类型;结合关联规则挖掘算法Apriori和复杂网络分析软件构建知识实体关联网络,揭示该领域常用的知识实体,以及这些知识实体的使用相关性。  相似文献   

11.
��[Purpose/significance] In the era of big data, institution name data presents new features such as mass, dynamic and diversity. Normalization of institution name can improve the reliability of data in scientific research management, subject evaluation and subject service under big data environment, and improve the quality and application effect of data retrieval based on institution name.[Method/process] From the perspective of linguistics and model construction, this paper studied name normalization. This paper constructs a Framework Model for Normalization of Institutional Names Based on Co-occurrence Relations and Similarity. Firstly, it proposed a method of identifying the entity boundary of names. Secondly, it compiled a multi-level vocabulary and proposes a normalized method of names. Finally, the Chinese bibliographic data from 2008 to 2018 were selected for experiment.[Result/conclusion] Experiments verify the validity of the model, which has some enlightening significance for the normalization of the names of other types of institutions.  相似文献   

12.
宁子晨  魏来 《图书情报工作》2020,64(12):106-117
[目的/意义] 专利文献与学术论文分别表现了技术创新与科学研究的新进展,通过专利主体将二者结合进行技术主题演化分析,对进一步发现专利技术与科学研究间的关系有一定的参考意义。[方法/过程] 以数据挖掘领域的学术型发明人为纽带,从专利主体-关键词耦合、IPC耦合以及IPC-关键词共现3个角度,提出关联方法并构建研究框架,分析不同时间段下主体、技术及主题多维关联关系的演化,探究数据挖掘领域内专利文献与学术论文的主体、主题关联关系。[结果/结论] 学术型发明人在数据挖掘技术创新中的作用越来越重要,大多主体的技术主题是相近的,部分甚至呈现高度的统一,但是也存在少数技术与主题不直接相关,差异度较大,但不论技术与主题是否直接相关,数据挖掘相关技术发明与科学研究都已经实现了较为深入的相互渗透。  相似文献   

13.
杨昭  任娟 《图书情报工作》2020,64(4):95-102
[目的/意义] 大数据时代,机构名称数据呈现海量性、动态性、多样性等新特征,机构名称归一化可改善大数据环境下科研管理、学科评价、学科服务中的数据可靠性,提升基于机构名称的数据检索质量和应用效果。[方法/过程] 从语言学角度和模型构建层面研究机构名称归一化,构建基于共现关系和相似度的机构名称归一化框架模型,提出机构名称实体边界识别方法,编制机构多层级词表,提出机构名称归一化方法,最后选取2008-2018年中文文献题录数据进行实验。[结果/结论] 实验结果验证了模型的有效性,对其他类型机构名称归一化有一定的启发。  相似文献   

14.
[目的/意义]基于re3data元数据对科研数据仓储进行背景、政策、学科、内容、服务、访问、技术支持等分析,揭示科研数据仓储在学科间的差异,从多角度呈现科研数据仓储的全景。[方法/过程]从re3data元数据中遴选14个指标,对1 848个科研数据仓储的责任机构进行定量分析,并采用独立样本t检验分析数据内容、服务类型、数据访问与上传等在学科间的差异情况。[结果/结论]大部分科研数据仓储是非营利组织负责的,机构主要提供基金资助、技术支持和一般维护。目前登记的科研数据仓储主要来自欧美国家及国际组织。科研数据仓储的类型主要以学科为主,生命科学和自然科学的仓储数量最多。科研数据仓储的数据内容类型、服务类型、数据开放程度、应用编程接口在学科间存在显著差异。  相似文献   

15.
[目的/意义]科技文献中各种特征项及其之间的关联是构成多种多样共现现象的基本单元,通过挖掘共现特征项之间的关联,共现分析可以从不同角度探测科学与技术活动规律的方方面面,为科研管理者和研究者等提供一个全方位、多角度观察科学发展的新视角。[方法/过程]通过对多重共现的基础理论研究,构建一套独特的多重共现数据模型基础理论体系,该理论体系包括:多重共现的定义、多重共现的研究范畴、用于多重共现的变量符号、多重共现的矩阵定义、多重共现的数据组织形式以及多重共现的延展系数计算公式与应用范畴。此外,基于多重共现的交叉图可视化方式,构建可用于分析3个或以上特征项共现关系的知识发现方法,包括共现关联强度、被引关联强度以及共现突发强度的分析方法。[结果/结论]通过该基础理论体系的构建,拓展共现现象的研究范围,为共现分析走向多角度、多维度的多重共现分析提供基础理论的支持。并通过实证研究,选取不同的多重共现应用案例,证明该方法可应用于研究领域、研究机构、机构间对比、研究学者等方面的分析,同时具有较好的分析效果。由于该方法体系具有分析角度多维化和分析方法多样化的特点,通过该方法的分析,除能够实现一重、二重共现等的分析效果外,还能揭示出比一般共现更为广泛和深入的知识内容。  相似文献   

16.
基于知识元的数字图书馆多粒度集成知识服务研究   总被引:1,自引:0,他引:1  
[目的/意义] 为满足用户多粒度的知识需求,提出一种数字图书馆多粒度集成知识服务模式。[方法/过程] 首先对知识元的类型与描述规则以及不同类型知识元的实体对象结构加以定义;然后根据知识元抽取、标引和链接的方法,提出基于显性、隐性知识链接的多粒度知识集合集成方法;最后通过规范化分解用户提交的知识需求,构建"需求——知识——资源"三级映射,实现数字图书馆多粒度的集成知识服务模式。[结果/结论] 该方法将知识服务的控制单位从粗粒度的文献单元,深入到以知识元、知识元集合为单位的细粒度知识单元中,为用户提供不同粒度的知识资源。  相似文献   

17.
[目的/意义] 研究专利引文形成的路径是合理评估数据样本的重要基础,也是建立研究假设和研究模型的重要前提。[方法/过程] 以行为逻辑为视角,从专利引用行为的主体、动机、行为能力和外部的引用行为规则4个因素对专利引文的形成路径进行研究。[结果/结论] 行为主体经历心理阶段和实施阶段,在外部规则因素的作用下形成专利引文。专利申请主体的因素是导致引用动机和引用行为差异的主要原因,进而导致专利引用结果的差异,构建样本和模型时应对不同属性的主体的引文作出区分。  相似文献   

18.
[目的/意义]设计并实现科研关系构建与可视化系统ItgInsight,以弥补国内科技文本挖掘与可视化工具研发的不足。[方法/过程]应用C#+WPF技术组合设计实现ItgInsight,通过与数据源字段的关系映射实现对各类数据源的处理,基于同现矩阵和文本关联进行科研关系构建,采用网络图和热力图进行可视化结果展示。[结果/结论]该系统可实现对中英文科技论文、专利、报告等科技资源的数据清洗、主体识别、关系构建和可视化表示。系统运行稳定,具有自主知识产权,对国内科研院所免费开放,对于提升我国情报分析软件工具研发具有积极的参考意义。  相似文献   

19.
[目的/意义] 面对多学科领域、多类型用户的专题情报服务需求,建立专题情报数据管理与智能分析平台。实现专题情报分析的流程化和智能化,同时对融入专家智慧的专题情报分析过程数据进行管理,丰富服务模式,提升服务需求响应速度。[方法/过程] 在调研已有相关研究与实践分析基础上,提出平台设计思路、建设框架,对平台主要功能和关键技术进行剖析。[结果/结论] 专题情报数据管理与智能分析平台已建设完成。平台集成了多来源多类型数据,打通了从数据到分析的服务链条。嵌入了多种情报分析方法和深度学习算法,实现了多维多层次分析服务。能够对分析过程和情报分析人员历史积累数据进行管理,实现数据共享和重复利用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号