首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 173 毫秒
1.
黎慧  唐友刚 《科技广场》2012,(11):10-13
本文分析了如何利用领域本体来改善实例与文档的相关度,提出了语法相关度、语义相关度计算方法,还提出了将基于关键字与语义的排序算法相结合的观点.  相似文献   

2.
PFIBF方法是一种基于Wikipedia链接关系建立关联词典的方法.该方法仅仅对Wikipedia中的概念进行分析,而忽略了出现在概念解释文档中的术语与概念间的关系.本文利用共现分析法提取在解释文档中出现的术语并将提取出的术语定义为PFIBF分析的对象,扩展了PFIBF法分析的范围,从而实现了对PFIBF法的改进.使用改进后的方法建立关联词典,与原PFIBF方法建立的词典比较,改进后的方法能在不改变准确率的情况下提高关联词典的术语数量和关联关系数量,完善关联词典.  相似文献   

3.
[目的/意义] 随着人们对检索文档之间关联关系的理解越来越多样化和细粒度化,检索文档内信息单元间关联关系的构建显得越来越重要。本研究旨在以学术文档内信息单元间关联关系为基础,构建文档的细粒度聚合与关联机制。[方法/过程] 本研究从跨体裁聚合单元知识体系所蕴涵的各类关联关系出发,从信息组在的角度阐述支持情景和语义关联的细粒度聚合理论框架、知识组织系统构建和聚合单元元数据标注等关键问题,并提出聚合机制。[结果/结论] 研究认为构建蕴含聚合单元语义关系、学科领域语义关系、任务和文本关系的本体,采用可反应聚合单元层级与关联关系的聚合单元元数据,是细粒度聚合机制发挥效用的关键。  相似文献   

4.
知识相关度的计量研究   总被引:1,自引:0,他引:1  
马费成  罗志成  曾杰 《情报科学》2008,26(5):641-646
本体是表示知识相关性的工具之一,但是本体的若干缺陷限制了其在相关性表示中的应用。对此,本文基于一个大型的领域本体—“国共合作”,开展知识相关度的计量实验。该实验计算了若干种计算语言学的相似度度量方法与真人判断结果的相关系数,进而比较了各种方法在知识相关度量方面的效果,结果表明此类度量方法能够弥补本体在表示相关性时的缺陷。  相似文献   

5.
利用本体关联度改进的TF-IDF特征词提取方法   总被引:3,自引:0,他引:3  
针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。  相似文献   

6.
通过对本体、形式概念分析等理论研究进行分析,提出一种以"文档——术语"为核心,形式概念分析为技术手段的气象灾害领域的本体构建方法。针对气象灾害领域知识库和主题词表的缺失,以中英文学术论文为数据源,对气象灾害领域术语的层次关系抽取和分析进行了详细阐述和论证,具体包括领域术语的抽取和筛选,文档术语矩阵的建立,主题概念格的生成,术语层次关系分析;本体OWL描述和可视化展示等过程,最后利用GATE Developer对构建本体的有效性进行了验证。  相似文献   

7.
现有的相似度计算方法大都依赖于作者间的直接关联,忽略了间接关联.文章提出一种新的基于SimRank的作者相似度计算方法,充分考虑作者关键词二分图网络的整体结构特性,利用图结构相似度算法挖掘出作者间以及词汇间的潜在关联关系.初步实验表明该方法能够有效地识别作者之间的相似度,相比于传统的关键词耦合,该方法可以明显提高作者相似度计算的准确性.  相似文献   

8.
本体是基于本体的信息检索性能优劣的关键。目前的本体学习没有专门针对信息检索的查询扩展和检索结果组织的特点,导致信息检索效果不佳。提出面向信息检索的本体学习框架,采用基于相容类的概念层次关系学习方法,各层领域概念从相容类对应的文档集合提取。然后量化表示领域概念,挖掘概念中的同义词,基于同义词重新建立文档集合的概念空间。将获取的本体应用到信息检索实验中,实验表明该框架获取的本体可提高检索的准确性和效率。  相似文献   

9.
利用本体和主题词表的集成查询元数据   总被引:5,自引:0,他引:5  
张哲 《情报杂志》2004,23(4):16-18
提出了通过集成现存的本体和主题词表构造元数据模式的一种新方法。这个集成基于主题词术语和本体概念之间的蕴含关系规范,并产生具体应用的元数据模式。同时给出了如何利用结果元数据模式进行元数据查询。在元数据查询中,利用术语关系的蕴含语义。提出了一种面向数据库的解决方法。  相似文献   

10.
一种基于本体的语义标引方法   总被引:4,自引:0,他引:4  
传统的采用主题词和关键词对文档进行标引的方法,由于不能提供语义推理而越来越不适合目前的网络环境。由于本体具有良好的概念层次结构和对逻辑推理的支持,在信息检索领域将有很大的应用价值。本文首先介绍本体的基本概念和领域本体的组成部分,然后提出了一种基于领域本体的语义标引方法,采用本体中的概念对文档进行语义层面的标引,为检索的智能推理提供基础。  相似文献   

11.
为了快速有效地自动处理中文Web文本,提出了一种基于领域本体的主题特征抽取方法.该方法针对Web文本特点,介绍了一种领域词典的半自动化构建方法.基于领域词典切分文本,通过对词条的主题映射,采用领域本体的概念表示文本向量,从而有效地降低文本特征向量的维数,提高主题抽取的质量.考虑文本信息的不同位置与频率,计算主题特征的权值,并且基于领域本体的结构,对主题概念的权值进行调整和排序.实例验证了该方法的有效性.  相似文献   

12.
姜华 《情报科学》2008,28(11):1685-1688,1698
基于本体基础提出相似度和相关度分析,以充分挖掘领域本体所提供的背景知识,通过语义推理将描述的隐含语义显式化,提供计算机被描述资源的可理解语义.设计了实现该方法的Web信息检索模型,实验表明该方法能提高查准率和查全率.  相似文献   

13.
In this paper, we describe a model of information retrieval system that is based on a document re-ranking method using document clusters. In the first step, we retrieve documents based on the inverted-file method. Next, we analyze the retrieved documents using document clusters, and re-rank them. In this step, we use static clusters and dynamic cluster view. Consequently, we can produce clusters that are tailored to characteristics of the query. We focus on the merits of the inverted-file method and cluster analysis. In other words, we retrieve documents based on the inverted-file method and analyze all terms in document based on the cluster analysis. By these two steps, we can get the retrieved results which are made by the consideration of the context of all terms in a document as well as query terms. We will show that our method achieves significant improvements over the method based on similarity search ranking alone.  相似文献   

14.
This paper presents a semantically rich document representation model for automatically classifying financial documents into predefined categories utilizing deep learning. The model architecture consists of two main modules including document representation and document classification. In the first module, a document is enriched with semantics using background knowledge provided by an ontology and through the acquisition of its relevant terminology. Acquisition of terminology integrated to the ontology extends the capabilities of semantically rich document representations with an in depth-coverage of concepts, thereby capturing the whole conceptualization involved in documents. Semantically rich representations obtained from the first module will serve as input to the document classification module which aims at finding the most appropriate category for that document through deep learning. Three different deep learning networks each belonging to a different category of machine learning techniques for ontological document classification using a real-life ontology are used.Multiple simulations are carried out with various deep neural networks configurations, and our findings reveal that a three hidden layer feedforward network with 1024 neurons obtain the highest document classification performance on the INFUSE dataset. The performance in terms of F1 score is further increased by almost five percentage points to 78.10% for the same network configuration when the relevant terminology integrated to the ontology is applied to enrich document representation. Furthermore, we conducted a comparative performance evaluation using various state-of-the-art document representation approaches and classification techniques including shallow and conventional machine learning classifiers.  相似文献   

15.
Lexical cohesion is a property of text, achieved through lexical-semantic relations between words in text. Most information retrieval systems make use of lexical relations in text only to a limited extent. In this paper we empirically investigate whether the degree of lexical cohesion between the contexts of query terms’ occurrences in a document is related to its relevance to the query. Lexical cohesion between distinct query terms in a document is estimated on the basis of the lexical-semantic relations (repetition, synonymy, hyponymy and sibling) that exist between there collocates – words that co-occur with them in the same windows of text. Experiments suggest significant differences between the lexical cohesion in relevant and non-relevant document sets exist. A document ranking method based on lexical cohesion shows some performance improvements.  相似文献   

16.
王煜  王正欧 《情报科学》2006,24(1):96-99,123
本文首先提出一种改进的X^2统计量,以此衡量词条对文本分类的贡献。然后根据模式聚合理论,将对各文本类分类贡献比例相近似的词条聚合为一个特征,建立出文本集的特征向量空间模型。此方法有效地降低了文本特征向量空间的维数。最后使用决策树进行分类,从而既保证了分类精度又获得了决策树易于抽取可理解的分类规则的优势。  相似文献   

17.
雷晓  常春  刘伟 《情报科学》2021,39(1):135-141
【目的/意义】为保证叙词表术语收录的完整性,需要及时将领域出现但未收录的新术语补充收录到叙词表 中,结合候选词的时间及文档词频特征,从时间序列角度探索新术语的分布情况以指导新术语遴选是值得研究的 问题。【方法/过程】文章主要对词汇文档词频对应的时间序列进行研究,将时间序列进行词频归一化及时间等长预 处理,引入k-means聚类算法,对候选词汇进行基于时间序列趋势变化的聚类,探索术语以及非术语趋势变化的规 律,进而总结新术语应该满足的趋势变化特征。【结果/结论】通过聚类研究,总结得出新术语普遍处于增长趋势。 实证将处于增长状态的候选词汇遴选出来,经过专家判断,该方法可以有效从候选词汇中遴选出其中能补充到叙 词表中的新术语,该方法有比较高的准确率。【创新/局限】创新之处表现为叙词表新术语的遴选中同时考虑了时间 变化和文档词频因素,局限于数据处理规模,实证中只统计了论文关键词的词频数据。  相似文献   

18.
[研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指数和词对突发概率,从文档层面和词语层面进行特征选择,解决数据稀疏和高维度的问题。其次,通过双向长短期记忆(BiLSTM)训练词语之间的关系,结合词语的逆文档频率作为词对的先验知识,考虑了词之间的关系,解决忽略词之间关系的问题。再次,利用基于密度的方法自适应选择BBTM的最优话题数目,解决了传统的主题模型需要人工指定话题数目的问题。最后,利用真实微博数据集在热点话题发现准确度、话题质量、一致性三个方面进行验证。[研究结论]实验表明,BiLSTM-HBBTM在多种评价指标上都优于对比模型,实验结果验证了所提模型的有效性及可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号