首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
在大数据环境下,科研合作是提高科研水平、促进科研产出的重要途径。如何在浩如烟海的学者、机构、领域信息中准确地找到与自身研究方向相近的合作对象是近年来科研合作预测的研究重点。本文通过科学学领域科学文献的记录数据,构建作者-作者、机构-机构、作者-机构、作者-关键词、机构-关键词的共现网络,接着通过网络表示方法学习作者、机构、关键词在所处网络中的语境信息,将信息实体表示成相同空间的低维稠密向量,最后根据表示向量的相似度计算实现合作对象、合作领域挖掘。通过网络表示学习方法能实现多种异质信息融合,定量计算各信息实体间的关联强度,可以很好地捕捉科研网络中学者-学者、学者-机构、学者-关键词的关系,准确地为学者挖掘潜在合作者、合作机构和关键词。  相似文献   

2.
本文通过对国内外知识图谱标准化研究和发布情况的系统梳理与剖析,发现当前知识图谱标准化过程中缺乏对底层语义关系结构和表示的标准化。因此,本文首先在MDR (metadata registries)概念元模型的基础上,扩充了语义关系类型和关系表示,构建了一个标准的、可扩展的、通用的知识图谱语义关系元模型,为知识图谱中语义关系的构建提供了必备的语义要素,实现从传统数据语义结构向知识图谱语义结构的迁移。其次,为实现语义关系表示的标准化,以该标准化元模型为指导,构建知识图谱语义关系标准化本体栈,为知识图谱语义关系标准化提供了从语义关系结构到表示的标准构建体系。最后,以石油领域井下作业业务需求为背景,对其中涉及的语义关系进行注册,并据此实现了石油领域井下作业知识图谱中语义关系的标准化,验证了本文提出的知识图谱语义关系元模型的合理性和正确性,提出的知识图谱语义关系元模型具有创新性。  相似文献   

3.
林杰  苗润生 《情报学报》2020,39(1):68-80
专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒体中的文本训练Skip-Gram模型,利用该模型的隐藏层权重与模型输出的预测结果,分别获取词语间的语义相似度与上下文关联度。其次,基于该语义相似度与上下文关联度,对已有领域种子本体词汇进行扩充,将语义相似或上下文相邻近的词汇纳入本体词汇,为主题抽取提供高质量的领域词汇。然后,基于扩充的专业本体词汇,使用结合本体词汇的LDA主题模型从专业社交媒体文本中抽取主题与主题词。最后,利用语义相似度与上下文关联度,定义关联度权重,通过图模型与谱聚类,获取主题间与主题词的关联关系与层次结构。本文使用汽车论坛语料进行主题图谱生成实验。实验结果表明,本文方法获取的主题词纯净度相比单独使用LDA模型提升了20.2%,且能够清晰合理地展现主题之间的关系。  相似文献   

4.
[目的/意义]挖掘和组织先秦典籍中的植物知识,构建先秦典籍植物知识图谱,对认识我国古代人民社会和生活状态等具有重要意义。[方法/过程]对先秦典籍中植物词进行详尽标注与计量分析;基于条件随机场(CRF)和多种深度学习模型构建古汉语植物命名实体识别模型,比较分析各模型性能以确定最优模型;设计面向知识图谱的古汉语植物知识组织模式。[结果/结论]基于古汉语预训练语言模型SikuRoBERTa构建的古汉语植物命名实体识别模型性能最优,调和平均值达85.44%,为基于实体的植物知识挖掘提供了有效方法;所构建的先秦典籍植物知识图谱可实现对先秦典籍中植物实体及其关联知识的聚合与可视化呈现。  相似文献   

5.
[目的/意义]文章对科技政策隐性扩散路径自组织方法进行研究,挖掘科技政策文本包含深层语义信息,将隐性知识显性化,为科研人员拓展和丰富政策扩散路径研究提供参考。[方法/过程]本文结合科技政策篇章文本的形式语义和内容语义两个方面对政策文本结构化处理和深度挖掘,对政策文本资源全解析,抽取科技政策文本中包含的特征,其中包括概念和关系自动获取与标引技术、网络表示学习,挖掘科技政策文本中的隐含结构信息,利用BiLSTM-CRF模型的深度学习方法实现概念的自动获取和自动标引关系。将得到多篇科技政策文本的概念和关系组成概念关系对的形式,借助于表示学习的方法发现每个节点稠密的向量表示。[结果/结论]通过实验验证,证明了本文借助隐性路径特征的科技政策扩散隐性路径自组织方法的有效性,在一定程度上拓展了政策研究的方法,为科研人员在政策扩散研究上提供了参考。  相似文献   

6.
动态竞争情报是企业在复杂多变的竞争环境中取得成功的关键.针对传统的竞争情报分析模型无法有效地对信息资源进行深层次的多维分析,获取语义层面的动态竞争情报,本文构建了基于联机分析挖掘的动态竞争情报多维语义分析模型.该模型利用竞争情报领域本体指导目标信息的采集与监控和实体与关系的抽取,实现竞争情报的语义组织和存储;设计了一种基于语义的多维关联分析算法进行语义层面的数据挖掘、学习和推理,实现竞争情报多维语义挖掘和知识发现.实验结果表明,该模型取得了很好的预期效果,显著提高了情报分析的深度与广度和情报分析的准确率与效率.  相似文献   

7.
大规模中国历代存世典籍知识图谱构建研究   总被引:2,自引:1,他引:1  
[目的/意义]探索构建中国历代存世典籍知识图谱,以为研究者挖掘海量古籍书目数据背后隐藏的知识提供一站式平台,拓展古籍知识服务内涵,同时,大规模的典籍知识图谱也是机器智能的重要基础。[方法/过程]通过知识图谱技术对中国历代存世典籍进行知识组织,从需求层、模型层、应用层3部分构建一个典籍知识图谱框架模型,通过人机协作进行典籍数据抽取及多源数据融合,完成数据的整理,并对典籍知识图谱实体类型及属性、典籍知识图谱实体关系及类型进行分析与定义。[结果/结论]所构建的典籍知识图谱包含649549种古籍实体、221783位典籍责任者、1498383个古籍版本、13960个地名节点,形成了一个立体、多维、多用途的古籍知识关联网络,对全球目前存世的主要中国历代典籍书目信息进行了较全面描述。  相似文献   

8.
总论AELISC 2697-40-12(3)基于领域本体的语义文本挖掘研究/张玉峰,何超(武汉大学信息资源研究中心)//情报学报,2011,30(8):832-839.为了提高文本挖掘的深度和精度,作者研究并提出了一种基于领域本体的语义文本挖掘模型。该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据  相似文献   

9.
准确的科学主题预测能够明确学科未来的发展方向,为科研领域的发展规划和管理决策提供参考。本文着眼于新生科学主题的预测,基于知识单元重组视角,将主题-特征词的表征关系类比为科学概念-知识单元的表征关系,提出科学主题预测方法。首先,使用LDA (latent Dirichlet allocation)主题模型获取全局主题、特征词与概率矩阵,通过转置向量空间获得特征词向量;其次,运用ARIMA (autoregressive integrated moving average model)模型预测特征词的词频并计算向量调节系数,从而获得特征词预测向量,运用t-SNE (t-distributed stochastic neighbor embedding)算法将预测向量降维,并使用模糊C-均值算法将低维预测向量聚类生成预测主题,实现知识单元的重组;最后,筛选出由多个原始主题聚合而来、具有全新释义的预测主题,将其视为科学主题预测结果。本文以“知识管理-知识组织-知识服务”领域为例进行实证研究,预测出智库、数字人文等在已有领域研究中尚未出现的新词与相关主题,并通过特征词直接聚合与概念集成这两种主题...  相似文献   

10.
当前,针对知识网络的链路预测主要是基于网络拓扑结构的相似性,很少考虑作者的研究领域,导致信息利用不充分等问题,因此本文提出了双层知识网络的链路预测框架hypernet2vec。双层知识网络,即作者合著关系网络和学术领域关系网络,利用网络表示学习,分别将两层网络中的节点映射到低维的向量空间,再输入到专门设计的卷积神经网络中计算并进行链路预测。与经典的链路预测指标如RA指标、LP指标和LRW指标等相比,hypernet2vec模型预测的AUC(area under curve)值取得了显著的提升,平均提升幅度达11.17%。文章还从情报产生层面和复杂系统层面,对模型发生作用的深层机理进行了探讨。  相似文献   

11.
文章明晰技术功效间的多种语义联系,设计技术实现路径的自动化构建方法,实现其即时更新和可视化。结合专利数据特点,基于规则从专利标题中抽取技术词,利用BiLSTM-CRF深度学习模型从专利摘要中抽取专利功效短语,并设计规则从功效短语中自动识别出功效词以及表示技术功效间语义联系的关系词,构建“技术词-关系词-功效词”结构的技术功效语义关联,通过计算实体间语义相似度实现技术词对齐和功效词对齐,优化技术功效关联,依此构建技术实现路径,并以知识网络的形式对其进行可视化。在5G技术领域的实证结果表明,该方法能有效揭示技术功效间的多种语义联系和自动构建技术实现路径,并实现路径的即时更新和清晰展示。  相似文献   

12.
基于文本挖掘机制的区域经济关系分析   总被引:1,自引:0,他引:1  
已有的经济关系研究大都采用实证的或单纯的计量学的方法来实现的.本文则针对非结构化的文本特点,采用信息抽取和文本挖掘方法挖掘用户感兴趣的区域经济关系是具有十分重大应用价值的研究课题.本文在探讨了基于实体关系的文本挖掘机制的基础上,对31个省、市、自治区的区域经济关系进行了分析.运用文本挖掘技术对经济关系的挖掘包括两种方式:一是基于属性的经济关系挖掘,利用信息抽取获取各个实体属性,采用聚类方法分析经济实体关系;二是基于相互引用的经济关系挖掘,首先构造经济实体关系分类词典,提出了实体关系标注算法,利用信息抽取获得实体之间的引用情况,然后构造关系有向图,从中挖掘区域经济之间的关系.研究表明,运用文本挖掘技术,既可以对各个区域经济发展状况进行分析和评价,也可以发现特定区域经济之间的内在关系.  相似文献   

13.
整合并在语义层面上充分互连药物研发数据,将有利于从全局、系统化的视角开展药物研发工作,同时也有助于预测药物的不良副作用、加快药物研发流程、缩减药物开发成本等。文章试图探索语义技术如何支持药物研发数据的整合和挖掘,通过基于知识组织体系的语义标注,以及多类型实体互连策略构建充分互连的药物关联数据,支持药物研究人员对这些大量复杂实体及其关系的查找、探索和知识发现,从而帮助药物研发人员和,I盘床工作者更好地利用大规模药物数据,解决药物研发面临的实际问题。  相似文献   

14.
标签形式的社会性语义越来越占据主导地位,使元数据界在这种新形式的信息内容表达和检索方面面临机遇和挑战。其中,主要的挑战是与标签相关的语境信息的缺失。以Flickr标签为例,对如何利用社会性语义资源来丰富主题元数据进行了实验。实验过程包含4个步骤:收集Flickr标签样本;通过共有信息计算标签间的同现情况;通过Google检索结果来追踪标签对的语境信息;用自然语言处理和机器学习技术来抽取标签间的语义关系。本实验能够利用Google搜索结果构建语境库,并且以自然语言处理和机器学习算法对这些语句进行处理。这种新方法对于赋予标签对以一定语义关系有相当高的准确率。也探讨该方法在利用社会性语义丰富的主题元数据方面的意义。  相似文献   

15.
基于Web挖掘技术的用户兴趣本体学习研究   总被引:2,自引:1,他引:1  
目前针对基于关键词的用户模型不能从语义上表达用户需求真正内涵,基于领域本体的用户模型多数忽略研究概念间非分类关系和语义应用环境较分散等缺陷。本文提出一种循环式的基于Web挖掘技术的用户兴趣本体学习模型,即综合应用统计分析、关联规则和聚类分析等技术进行电子商务领域用户兴趣概念及概念间分类与非分类关系学习,面对用户兴趣的迅速变化,还提出一种传递激活方法来实时更新本体或重新进行本体学习,以不断提高该本体的质量。经验证,基于该本体的用户模型在文本过滤等应用中能较上述两种用户模型满足用户个性化服务需求。  相似文献   

16.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

17.
The collective feedback of the users of an Information Retrieval (IR) system has been shown to provide semantic information that, while hard to extract using standard IR techniques, can be useful in Web mining tasks. In the last few years, several approaches have been proposed to process the logs stored by Internet Service Providers (ISP), Intranet proxies or Web search engines. However, the solutions proposed in the literature only partially represent the information available in the Web logs. In this paper, we propose to use a richer data structure, which is able to preserve most of the information available in the Web logs. This data structure consists of three groups of entities: users, documents and queries, which are connected in a network of relations. Query refinements correspond to separate transitions between the corresponding query nodes in the graph, while users are linked to the queries they have issued and to the documents they have selected. The classical query/document transitions, which connect a query to the documents selected by the users’ in the returned result page, are also considered. The resulting data structure is a complete representation of the collective search activity performed by the users of a search engine or of an Intranet. The experimental results show that this more powerful representation can be successfully used in several Web mining tasks like discovering semantically relevant query suggestions and Web page categorization by topic.  相似文献   

18.
为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型.该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一种基于语义的模式挖掘算法挖掘文本深层的语义模式.实验结果表明,该模型能够挖掘文本数据库中的深层语义知识,获取的模式具有很强的潜在应用价值,设计的算法具有很强的适应性和可扩展性.  相似文献   

19.
��[Purpose/significance] There are many knowledge units in the network community, among which there are intricate relationships. It is necessary to carry out multiple knowledge relations mining uniformly and succinctly on the premise of retaining all the relations of knowledge units.[Method/process] This paper puts forward the solution of multi-knowledge relations mining in network community. Firstly, 3 typical knowledge units (users, texts and words) in the network community and their multiple relations in the knowledge communication were extracted into a supernetwork. Secondly, the network representation learning algorithm was used to uniformly represent the nodes in the supernetwork as low-dimensional dense vectors. Finally, multiple knowledge relations calculation was carried out based on nodal vector.[Result/conclusion] The effectiveness of the scheme was verified by taking cardiovascular BBS in dingxiang garden as an example. This scheme not only retains all the information of the knowledge unit, but also carries out the mining of the knowledge relation under the unified low-dimensional characteristics, and finally the knowledge relation meets the requirements of the diversity of the knowledge organization scene in the network community.  相似文献   

20.
A crucial challenge in measuring how text represents an entity is the need to associate each representative expression with a relevant entity to generate meaningful results. Common solutions to this problem are usually based on proximity methods that require a large corpus to reach reasonable levels of accuracy. We show how such methods for the association between an entity and a representation yield a high percentage of false positives at the expression level and low validity at the document level. We introduce a solution that combines syntactic parsing, semantic role labeling logic, and a machine learning approach—the role-based association method. To test our method, we compared it with prevalent methods of association on the news coverage of two entities of interest—the State of Israel and the Palestinian Authority. We found that the role-based association method is more accurate at the expression and the document levels.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号