首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
贾君枝  冯婕 《图书情报工作》2017,61(12):122-128
[目的/意义] 挖掘不同名称数据之间的关联关系,将关于某一实体或主题的领域知识表现出来,这对实现不同层次、不同粒度的知识体系的解构和重构、提供满足多种需求的知识服务工作具有重要的研究意义。[方法/过程] 提出一种基于人物实体数据运行关联规则挖掘实验的研究框架,通过对人物实体条目的抽取、预处理及属性识别与分类等处理方法,利用R语言得到人物实体集的关联规则,实现多种名称数据的关联,最后从Wikidata知识库提取113位诺贝尔文学奖得主的实体条目进行实证分析。[结果/结论] 分析右部为地点名称、机构名称、时间名称和主题名称等4种不同类型规则的关联特征,实现不同名称数据类型的关系挖掘问题。本研究可为知识的揭示、聚合和关联提供新的视角,探索了数据挖掘技术在名称数据中的应用。  相似文献   

2.
通过科学-技术知识关联指标与测度方法研究,能够细粒度分析科学与技术的互动关系,为科技评价奠定基础。提出一种基于知识元的科学-技术知识关联指标与测度方法。以论文和专利为数据来源,在知识元抽取基础上,基于科技术语在不同类型知识元中的共现情况实现科学-技术知识关联指标测度。以糖尿病领域为例开展实证研究,结果验证提出的科学-技术知识关联指标与测度方法能够在高质量论文识别中有效发挥作用,所提指标和方法对于完善科技评价体系、促进创新驱动发展战略实施有参考意义。  相似文献   

3.
领域知识的生长演化问题一直是图书情报学界重点关注的主题。以网络科学思维探索知识生长过程中的关联关系涌现问题,能够对知识关联的生长模式与机制进行揭示。本研究提取知识关联关系累计44万余对,关联频度87万余次,共划分为11个时间窗口。在对时间序列领域知识网络结构属性初步判识的基础上,对关联频度分布进行时间序列分析。并从领域知识生长过程中的关联频度数量、关联频度占比、邻近窗口状态等方面,对知识关联关系及其频度进行跟踪与分析。研究结果表明,知识关联关系生长过程中,关联关系频度的分布符合幂律分布,且在领域知识发展的成熟期表现得更好。知识关联关系的生长过程具有频度层面的“富者更富”的属性,且主要遵循“择优强化”机制。尽管研究所使用的基于社会化标注系统的知识网络尚不足以囊括所有类型的知识网络,但是基于频度演化的知识关联关系涌现模式与机制,有助于促进知识网络、知识生长等领域的研究工作,对于社交网络、传播网络、交通网络等研究不无裨益。图5。表4。参考文献30。  相似文献   

4.
随着学术资源共享程度提高,越来越多的学术论文全文被大规模地开放获取,为基于全文本的微观实体扩散研究提供了便利的数据基础和广阔的应用前景。然而,前人研究在分析粒度上多以篇章、作者或主题等作为知识扩散的主要载体,较少关注来自文献全文本内容的微观实体。事实上,作为驱动知识扩散的主要内因,微观实体才是通过引用关系传播的实质内容。文章以分子生物学领域为例,选取该领域1,000篇XML全文本数据,人工标注了理论概念类、工具技术类、数据信息类和特定领域类微观实体,并借助BiLSTM-CRF构建了微观实体抽取模型,精确度、召回率和F1值分别为0.7618、0.7099和0.7349。在此基础上,构建微观实体扩散网络,通过可视化的方式展示了微观实体在宏观和微观层面的扩散模式。宏观层面上,特定领域类微观实体占比最高,说明学者在引用文献时更多倾向于引用所研究领域内的微观实体。微观层面上,能够清晰直观地揭示特定微观实体在文献之间的流动路径,从而方便把握微观实体兴起和发展的方向。  相似文献   

5.
在对可视化工具如:Isaviz、Progete、Prefuse、TouchGraph、RelFinder等梳理的基础上,选择使用RelFinder平台设计学术语义关系发现,结合采集并精炼CNKI平台的某领域的数据,设计出基于作者、基金、主题、机构、引文等五维视角的关联数据语义关系发现系统。研究发现"知识组织与知识管理"领域中的直接和间接语义关系,揭示该领域知识脉络,从更细粒度方向开展关系发现研究,对辅助学术领域知识发现具有较高的参考价值。  相似文献   

6.
随着书目资源中多源异构数据的增多,信息片段呈现出扩散分布的特征,这增加了用户获取目标资源的难度、降低了信息检索效率,而聚合细粒度信息资源、构建信息单元之间的关联关系对于知识服务效率的提升具有重要作用。本文通过对聚合单元进行细粒度划分,根据语篇单元、句群单元、节段单元的属性特征及DC、LOM元数据,构建了细粒度聚合单元元数据框架;从聚合单元知识组织体系出发,结合细粒度聚合环境下聚合单元之间的关联关系,构建了基于聚合单元元数据框架的细粒度信息语义组织模型,并基于该模型提出书目关系扩展及映射方案;通过分析聚合单元元数据框架下的书目数据聚合层次及其他书目框架实体之间的关联,实现了书目元数据细粒度与揭示内容的细化、扩展,为细粒度书目资源聚合及检索提供了理论基础。图7。表4。参考文献23。  相似文献   

7.
科研过程知识产出语义关联组织模型构建研究   总被引:1,自引:0,他引:1  
在数据驱动的科研环境下,为服务于科研机构研究过程中知识资产长期保存管理的数字仓储领域,构建科研知识产出语义化关联组织的模型。总结数据驱动科研的知识对象类型、数据活动、科研活动,形成数据驱动的科学研究生命周期模型,并依据该模型和科研知识产出识别原则,分析科研过程各阶段场景中的关键科研知识产出类型和科研关系,然后设计有效组织科研知识产出、情境实体及其关系的数字对象模型框架,通过本体标准的复用,规范化类型名称和科研关系,构建关联组织科研知识产出和科研情境类的本体模型,为科研数字仓储构建揭示科研过程知识产出关联关系的语义层提供依据。  相似文献   

8.
本文为解决领域科技文献与专题价值的割裂问题提出深度融合科技文献、科研活动等科研对象与领域专题数据资源的图谱构建方法。通过主题词关联设计,构建包含期刊论文、期刊、科研机构、科研人员及专题实体类型的科研本体,选取机器学习专题构建科研知识图谱,并基于图数据库Neo4J进行图谱管理与查询验证。该专题科研知识图谱可以支持单实体/属性、多实体事实性问题的复杂图谱查询,有效揭示专题、科技文献的关联关系,具有较强的应用价值,可以为面向文献数据的智能知识服务提供新的思路和方向。  相似文献   

9.
成全  许爽 《图书情报工作》2014,58(12):124-129
通过对《书目记录的功能需求》(FRBR)概念模型体系结构中实体、属性及关系这3个基本要素的分析,探寻由FRBR模型抽取出的馆藏资源元数据关联网络的构成要素,并对符合FRBR的馆藏资源元数据知识节点与关联关系所构成的关联网络结构进行层次划分,形成以元数据记录属性为支撑的微观层面关联网络及以元数据记录之间或规范数据集之间关联关系作为支撑的宏观层面关联网络。而词汇集的建立、术语复用机制、数据集链接桥机制成为构建馆藏资源元数据关联网络的基本要素。馆藏资源元数据关联网络的建立对于揭示馆藏资源内部的知识结构、扩展知识检索的范围、推荐关联知识、辅助知识发现等均具有重要的价值。  相似文献   

10.
目前,专利数量快速增长,单纯依靠人工进行专利查阅,很难及时获取专利中的创新资源。实体作为知识的一种,是目前最能直接体现专利的知识。实体识别除了专利独有的技术词、功效词抽取,还有在其他领域通用的命名实体等信息的提取。并且随着计算机技术的创新,大量学者将现代科学技术方法投入到专利文本知识挖掘中。因此,如何从海量专利文本中挖掘有价值的知识成为专利领域研究的新契机。旨在总结专利文本实体种类以及其抽取方法,并从研究对象、技术过程等角度来阐述现状,探索专利文本实体识别工作的新方向。  相似文献   

11.
[目的/意义]从全文本内容分析的角度对算法的学术影响力进行分析。[方法/过程]以自然语言处理领域十大数据挖掘算法使用为例,分析不同算法在特定领域的影响力。通过对1965年-2006年间发表的自然语言处理领域10 922篇学术论文的调研,从其全文内容中抽取6 001条包含十大数据挖掘算法的句子(简称算法句);针对算法句从提及论文数、总提及次数、提及位置等3个方面,对不同算法的影响力进行比较分析。[结果/结论]以不同特征作为影响力衡量标准,十大数据挖掘算法在自然语言处理领域学术论文中的影响力有明显区别,在基于论文数、提及数和提及位置的评估标准中,SVM算法表现出较高的影响力,Apriori算法的影响力则明显低于其他算法。本研究为量化评估算法的影响力提供了新思路。  相似文献   

12.
中外情报学论文创新性特征研究   总被引:1,自引:0,他引:1  
[目的/意义] 综合运用定性与定量相结合的方法对近年中外情报学论文的创新性进行分析和对比,揭示情报学领域研究的创新性特征,发现领域学术论文中创新句内部的知识关系,进行更细粒度的论文创新性分析,为研究领域创新点深层次利用提供条件,同时丰富科技论文创新性监测的途径,促进科学研究创新。[方法/过程] 从句子级创新性识别出发,选取中英文各两种情报学期刊作为样本,采用信息抽取和机器学习的方法,将创新句的抽取从现有的摘要扩展到全文,充分利用句子结构和句法特征识别领域创新内容,探讨近年中外情报学论文在创新对象、主题、类别等方面的特征,并做对比分析,最后通过对自动分类的论文集合进行定性的内容分析,总结归纳出中外情报学论文创新的表达范式。[结果/结论] 从创新的表达来看,中外情报学论文创新句的分布情况基本一致,英文期刊论文创新的表达更丰富。从创新性特征来看,英文情报学期刊论文创新主题较集中,而中文主题多样和分散;具体方法的创新是近年情报学领域的创新热点,而在研究方法上创新不足;中英文情报学期刊论文的创新性特点都反映了应用研究、实证研究的成果较多,而理论创新推动缓慢的趋势。  相似文献   

13.
基于NLP的知识抽取系统架构研究*   总被引:1,自引:0,他引:1  
在参考自然语言处理平台及知识抽取系统的系统结构的基础上,提出一个基于NLP的知识抽取系统的详细设计方案。自然语言处理过程包括分词、词性标注、句法分析、语义分析等8大模块;知识抽取过程包括论文类型分析、篇章结构分析、知识抽取、知识表示4大模块。通过对基于NLP的知识抽取系统架构的研究,明确自然语言处理与知识抽取的关系,分析出知识抽取的系统流程及关键技术。  相似文献   

14.
基于知识元的学术论文内容创新性智能化评价研究   总被引:1,自引:0,他引:1  
[目的/意义] 创新性是对学术论文质量最基本的要求,是学术论文的灵魂,是学术论文评价的核心。知识元是学术论文基本组成单元。基于知识元理论和机器学习相关理论与算法,从学术论文内容层面研究计算机如何智能化地进行创新性评价及其实现过程与方法。[方法/过程] 首先,构建学术论文的研究问题、理论、方法、结论4个知识元本体,接着提出基于知识元的学术论文创新性判断模型。其次,根据学术论文研究特点,构建理论与方法机器分类模型及知识元的抽取规则与抽取方法,建立规则库和知识语料库。最后,基于语义相似度计算方法,根据判断规则和相关权重对学术论文4个维度的创新性进行评分。[结果/结论] 基于知识元抽取的学术论文创新性评分系统的实证结果表明,该智能化评价方法具有一定的可行性,可为学术论文内容创新性智能化评价系统的最终实现提供方法借鉴。  相似文献   

15.
[目的/意义]基于网络招聘文本和学科数据,提出"行业-岗位-知识-学科"的人才需求及供给分析框架,以人工智能领域为例进行挖掘与分析,同时对其他领域的人才供需分析也具有借鉴意义。[方法/过程]采集招聘网站中与人工智能相关的职位招聘公告,综合对比CRF、BiLSTM-CRF、BERT-BiLSTM-CRF、BERT模型对招聘文本的实体抽取效果,并运用社会网络分析方法与学科数据进行关联分析。[结果/结论]BERT-BiLSTM-CRF实体抽取实验效果最佳,分别构建"行业-岗位""岗位-知识"以及"知识-学科"3种关系网络,得到与人工智能领域联系最紧密的行业、岗位、知识及学科。该框架能充分地挖掘人才需求现状,并能较精准地将需求定位到人才培养的学科,对于国家发展战略以及高等院校人才培养计划的制订具有现实意义。  相似文献   

16.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。  相似文献   

17.
为深入理解图书情报学学术论文中所使用的研究方法的语义功能,为用户提供基于知识单元的细粒度知识服务,文章首先基于体裁理论来分析引文分析法、田野研究法、共词分析法、实验法、比较分析法和问卷调查法的知识单元构成。其次采用文本分析法,检索CSSCI图书情报学领域的18种期刊中使用以上6种研究方法的论文,进行知识单元层次的深度标引,作为知识库构建的语料。再次采用系统设计法,开发具有4种功能的学术论文研究方法学习系统。最后采用实验法,招募30位研究生使用系统,并根据用户体验对其可用性进行评价。结果表明:研究方法的体裁分析能较好地表示使用该方法开展研究的论文的语义功能,解释研究方法使用过程各部分的语义特征,为深入到知识单元层面的标引提供了基础,也为用户提供了基于知识单元的细粒度的检索点,知识库具有很好的可用性。文章揭示了论文研究方法使用过程各部分的语义特征,基于知识单元构成而设计的学术论文研究方法知识库能有效帮助用户学习研究方法,为学术论文研究方法内容的深度语义标引和本体开发奠定了基础,也为用户提供细粒度、多维度的论文研究方法内容的检索服务,对面向知识发现的知识组织研究具有参考意义。  相似文献   

18.
基于文本挖掘机制的区域经济关系分析   总被引:1,自引:0,他引:1  
已有的经济关系研究大都采用实证的或单纯的计量学的方法来实现的.本文则针对非结构化的文本特点,采用信息抽取和文本挖掘方法挖掘用户感兴趣的区域经济关系是具有十分重大应用价值的研究课题.本文在探讨了基于实体关系的文本挖掘机制的基础上,对31个省、市、自治区的区域经济关系进行了分析.运用文本挖掘技术对经济关系的挖掘包括两种方式:一是基于属性的经济关系挖掘,利用信息抽取获取各个实体属性,采用聚类方法分析经济实体关系;二是基于相互引用的经济关系挖掘,首先构造经济实体关系分类词典,提出了实体关系标注算法,利用信息抽取获得实体之间的引用情况,然后构造关系有向图,从中挖掘区域经济之间的关系.研究表明,运用文本挖掘技术,既可以对各个区域经济发展状况进行分析和评价,也可以发现特定区域经济之间的内在关系.  相似文献   

19.
首先通过对期刊以及机构评价中的标准化指标进行较深入的比较,分析在学术期刊评价中不同类型指标对评价结果有效性的理解,探寻学术期刊影响力的主要属性特征及等效测度指标。其后按照普赖斯提出的知识累积金字塔式模式,构建基于非参数统计的评价指标-分布权秩得分(分布得分),该指标按照对数法则对不同引用量区间的文献赋予不同权重,并考虑研究领域引文网络的节点中心度,选择入度中心度(被引量)衡量文献在知识传播中的位置。最后,选择核心版SCI生物学领域的46种期刊作实证分析,并将本文所构建的分布得分指标与常用的期刊评价指标做对比分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号