首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
[目的/意义] 为提高引文网络的社团划分的准确性,提出一种基于加权的引文网络的社团划分方法。[方法/过程] 以Louvain社团划分方法为算法基础,将科学论文用向量空间模型表示,利用改进的余弦相似度方法计算相邻论文之间的相似度,并将其作为权重,综合考虑论文内容属性与结构属性,提出一种基于样本加权的引文网络社团划分方法。[结果/结论] 该算法将引文网络中论文的文本内容属性与拓扑结构属性结合起来,通过对Scientometrics期刊发表的论文以及主题为CRISPR的论文进行社团划分研究实验,结果表明该方法能改善引文网络社团的划分效果。  相似文献   

2.
如何利用具有本体标注的结构化文档中的语义信息组织P2P网络,提供对基于语义的信息共享与查询的P2P网络支持,是当前P2P网络的研究热点之一.本文提出采用Peer所存储文档中的加权本体概念向量作为Peer的特征向量,通过相似度计算将Peer聚成Peer组,从而构造基于语义的半结构化P2P网络.用户的查询请求由各Peer组内的组服务器负责路由转发,组服务器计算查询请求与各路由表项之间的相似度,将查询向最有可能包含查询目标的Peer组转发.文中较全面地阐述了本体概念局部和全局权重的计算方法.由于P2P网络拓扑的建立过程和查询路由过程均基于语义信息,使得网络的各项性能与基于关键字处理的P2P网络相比,得到了较大的提高.  相似文献   

3.
词汇相似度研究进展综述   总被引:1,自引:0,他引:1  
从有背景信息和没有背景信息两个角度对国内外词汇相似度研究现状进行深入分析和比较。没有背景的统计方法不能真正挖掘出词对间的语义关系,语义词典也存在覆盖词汇范围有限等局限性,而维基百科作为含有语义词典功能的大型语料库,成为新的词汇语义信息的重要来源。详细阐述维基游走法、内涵概念图法和时间语义分析法这三种最新的基于维基百科的词汇相似度算法,指出词汇相似度研究今后将有机融合维基百科和其他背景信息,使各种词汇语义信息来源优势互补。此外运用复杂网络的分析方法来挖掘词汇网络中词汇的相关性将是词汇相似度研究的又一发展方向。  相似文献   

4.
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式 的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义, 将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型 偏差问题。通过计算义项相似度,加权得到文档相似度。实验证明,该方法较好地描述了文档特征,能够达到良好的聚 类效果,是切实可行的。  相似文献   

5.
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义,将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型偏差问题.通过计算义项相似度,加权得到文档相似度.实验证明,该方法较好地描述了文档特征,能够达到良好的聚类效果,是切实可行的.  相似文献   

6.
林杰  苗润生 《情报学报》2020,39(1):68-80
专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒体中的文本训练Skip-Gram模型,利用该模型的隐藏层权重与模型输出的预测结果,分别获取词语间的语义相似度与上下文关联度。其次,基于该语义相似度与上下文关联度,对已有领域种子本体词汇进行扩充,将语义相似或上下文相邻近的词汇纳入本体词汇,为主题抽取提供高质量的领域词汇。然后,基于扩充的专业本体词汇,使用结合本体词汇的LDA主题模型从专业社交媒体文本中抽取主题与主题词。最后,利用语义相似度与上下文关联度,定义关联度权重,通过图模型与谱聚类,获取主题间与主题词的关联关系与层次结构。本文使用汽车论坛语料进行主题图谱生成实验。实验结果表明,本文方法获取的主题词纯净度相比单独使用LDA模型提升了20.2%,且能够清晰合理地展现主题之间的关系。  相似文献   

7.
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。  相似文献   

8.
基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词鄄文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题.本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法.新方法在整个话题范围内构造语义空间词鄄文档矩阵,采用奇异值分解对原始词鄄文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词鄄文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘.实验结果表明,该方法能够对语义空间词鄄文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果.  相似文献   

9.
传统基于引文网络的主路径分析方法没有考虑引文对施引文献的相对价值,认为一篇学术文献的所有引文对该文献具有同等程度的知识贡献。本文从引用行为的统计学层面和语义信息层面综合区分引文重要性,探讨引文对施引文献的重要性对构造主路径的影响。构建了引文重要度指标对主路径分析方法中的链接遍历计数进行调节,并通过实例验证了改进后的主路径分析方法在提取知识流方面的性能。实验结果显示,经过引文重要度加权调节后的关键主路径和全局主路径取得了实验中最高的精确值和F1值。研究结果表明,通过引文重要度加权调节可以增加主路径链接在时间上的连续性,提高节点间的相关性,提升主路径分析方法找到关键节点的能力和链接溯源能力。  相似文献   

10.
针对传统信息检索模型不能很好满足用户需求的问题,在分析现有相关研究的基础上,提出基于领域Ontology的知识检索模型。通过构建领域Ontology,对文档进行语义标注,对查询请求进行概念提取和语义扩展,从而得到语义索引项作为文档和用户请求的知识表达,进一步研究领域Ontology中词语间语义关系的计算模型。考虑到语义相似度与语义相关的内在关系,给出相关系数来衡量检索目标与候选者间符合程度。最后对提出的模型进行验证,结果表明检索性能有显著提高。  相似文献   

11.
基于谱聚类的虚拟健康社区知识聚合方法研究   总被引:1,自引:0,他引:1  
[目的/意义] 改善虚拟健康社区知识聚合质量,为虚拟健康社区服务提供技术方法支持。[方法/过程] 运用谱聚类方法对虚拟健康社区中的知识进行抽取,利用概念相似度计算得到知识主题相似度矩阵,根据该相似度矩阵进行谱聚类。[结果/结论] 利用好大夫在线健康咨询平台发布的信息作为数据来源进行方法验证。结果表明,当聚类个数为5时,本文提出的方法得分值最高。通过谱聚类的方法充分挖掘虚拟健康社区潜在信息,改善了知识聚合质量,为知识聚合和知识服务提供了一条新途径。  相似文献   

12.
[目的/意义]施引文献与被引文献往往存在着某种相似性,揭示这种现象背后的形成机制有助于深入理解引文的本质。[方法/过程]采用指数随机图模型,以图书馆与情报学领域为对象开展实证分析,旨在揭示文献相似性对引用关系的影响机制。[结果/结论]实证研究发现:在网络结构、机构、期刊层面存在显著的引用文献相似倾向。具体地,引用关系更倾向于嵌入三角传递结构;来源于相同机构和期刊的文献之间更容易产生引用关系;来源于学科优势地位国家的文献之间更容易产生引用。实证结果充分说明社会接近性是引用行为的重要形成机制,反映了引用偏好的社会属性。  相似文献   

13.
传统的Web文本分类方法将文本中关键词的相似度作为分类的依据,丢失了很多重要的语义信息,导致分类结果不够准确且计算量大。基于此,文章提出了一种基于语义相似度的Web文本分类方法,利用领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量集,定义Web文本相似度的计算公式,设计并实现基于语义相似度的KNN算法。实验结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少了计算量,提高了分类精确度。  相似文献   

14.
The growing popularity of digital libraries as a medium for communicating scientific discoveries has made a large variety of research articles easily accessible. However, this constitutes a putative issue of information overloading with recommendation engines providing a compelling solution to the problem. Scientific Recommender Systems alleviate this problem by suggesting potential papers of interest to a user. For any researcher seeking developments in their field, it is important that the recommended papers are of high quality, recent and related to the field of interest, which has been largely overlooked in prior approaches. This study thus proposes a graph-based hybrid recommendation technique, SPACE-R, that amalgamates quality, semantic similarity and community structure of nodes in a citation network. The creation of a popularity network, a derivative of a citation network, in combination with a two-stage candidate selection process involving community detection and neighbourhood network identification, contributes to an improvement in the accuracy and scalability of the proposed model. The incorporation of semantic similarity achieves the necessary diversity in recommendations. Experimental evaluations on four large datasets against five baselines reveal that SPACE-R achieves an improvement of up to 45.53%, 56.76%, 49.39%, 46.84% and 78.18% in recall, precision, MRR, mAP, and response time, respectively.  相似文献   

15.
Research on the evaluation of the quality of academic papers is attracting more attention from scholars in scientometrics. However, most previous researches have assessed paper quality based on external indicators, such as citations, which failed to account for the content of the research. To that end, this paper proposed a new method for measuring a paper's originality. The method was based on knowledge units in semantic networks, focusing on the relationship and semantic similarity of different knowledge units. Connectivity and path similarity between different content elements were used in particular networks as indicators of originality. This study used papers published between 2014 and 2018 in three categories (i.e. Library & Information Science, Educational Psychology, and Carbon Nanotubes) and divided their content into three parts (i.e. research topics, research methods and research results). It was found that the originality in all categories increase each year. Furthermore, a comparison of our new method with previous models of citation network analysis and knowledge combination analysis showed that our new method is better than those previous methods when used in measuring originality.  相似文献   

16.
文章明晰技术功效间的多种语义联系,设计技术实现路径的自动化构建方法,实现其即时更新和可视化。结合专利数据特点,基于规则从专利标题中抽取技术词,利用BiLSTM-CRF深度学习模型从专利摘要中抽取专利功效短语,并设计规则从功效短语中自动识别出功效词以及表示技术功效间语义联系的关系词,构建“技术词-关系词-功效词”结构的技术功效语义关联,通过计算实体间语义相似度实现技术词对齐和功效词对齐,优化技术功效关联,依此构建技术实现路径,并以知识网络的形式对其进行可视化。在5G技术领域的实证结果表明,该方法能有效揭示技术功效间的多种语义联系和自动构建技术实现路径,并实现路径的即时更新和清晰展示。  相似文献   

17.
Document clustering of scientific texts using citation contexts   总被引:3,自引:0,他引:3  
Document clustering has many important applications in the area of data mining and information retrieval. Many existing document clustering techniques use the “bag-of-words” model to represent the content of a document. However, this representation is only effective for grouping related documents when these documents share a large proportion of lexically equivalent terms. In other words, instances of synonymy between related documents are ignored, which can reduce the effectiveness of applications using a standard full-text document representation. To address this problem, we present a new approach for clustering scientific documents, based on the utilization of citation contexts. A citation context is essentially the text surrounding the reference markers used to refer to other scientific works. We hypothesize that citation contexts will provide relevant synonymous and related vocabulary which will help increase the effectiveness of the bag-of-words representation. In this paper, we investigate the power of these citation-specific word features, and compare them with the original document’s textual representation in a document clustering task on two collections of labeled scientific journal papers from two distinct domains: High Energy Physics and Genomics. We also compare these text-based clustering techniques with a link-based clustering algorithm which determines the similarity between documents based on the number of co-citations, that is in-links represented by citing documents and out-links represented by cited documents. Our experimental results indicate that the use of citation contexts, when combined with the vocabulary in the full-text of the document, is a promising alternative means of capturing critical topics covered by journal articles. More specifically, this document representation strategy when used by the clustering algorithm investigated in this paper, outperforms both the full-text clustering approach and the link-based clustering technique on both scientific journal datasets.  相似文献   

18.
孙国超  徐硕  乔晓东 《情报工程》2016,2(4):020-029
随着科研人员需要处理的文献集规模的日益庞大,以LDA 为代表的主题模型能够从语义层面挖掘大规模文献集中隐含的主题,因此,LDA 主题模型的应用越来越广泛。LDA 模型仅仅关注文献集的内容,而忽略了文献其他重要的外部信息,AToT 模型在LDA 主题模型的基础上引入了文献作者和文献发表时间两个属性,使AToT 模型不仅可以挖掘文献中隐含的信息,还可以分析文献作者的研究兴趣及文献主题随时间的变化。AToT 模型对文献集建模的结果是以概率矩阵的形式呈现,不能直观、全面、清晰的呈现挖掘出来的信息,特别是对数据挖掘不熟悉的科研人员,因此,本文开发了一个基于AToT 模型的可视化系统,该可视化系统清晰、美观地展现了AToT 模型中文献、主题、作者、时间、词项间的关系。如文档中的主题分布、主题的词项分布、作者的研究兴趣分布、主题的相似主题和主题的演化趋势等。  相似文献   

19.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号