首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
本体模块的抽取是解决本体复用问题的关键技术.分析了本体模块抽取的相关研究现状,提出一种基于粒度抽取本体模块的算法.该算法利用WordNet和本体上下文来得到可表示本体结构中粒度特征的一组介于0和1之间的实数值,即本体中概念词和关系词的分面权值,使本体模块的边界得到合理的区分.实验表明,该算法能够有效地抽取出符合指定粒度参数的本体模块.  相似文献   

2.
本文将聚类分析引入竞争情报分析之中,构建了基于领域本体的竞争情报聚类分析模型。该模型利用竞争情报领域本体指导文本语义分析和标注,抽取特征概念和概念间关系,实现语义层面的文本表示;针对传统的聚类分析算法无法进行深层次的聚类分析,设计了一种基于语义核函数的聚类分析算法进行挖掘分析,实现深层次的聚类分析。实验结果表明,该模型取得了很好的预期效果,显著提高了竞争情报分析的准确率和效率。  相似文献   

3.
基于文本的本体学习方法研究   总被引:3,自引:1,他引:3  
梁健  王惠临 《情报理论与实践》2007,30(1):112-115,17
本文介绍了当前基于文本的本体学习主要方法,在种子概念的基础上,设计了一种基于文本的本体学习方法,同时分析了术语获取、概念分类、关系获取等基于文本的本体学习关键技术。实验表明,借助种子概念能够从纯文本中抽取概念,对概念进行分类,为本体开发提供基础。  相似文献   

4.
基于网上新闻语料的Web页面自动分类研究   总被引:1,自引:0,他引:1  
Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研究小组提出的混合分类算法进行分类,实验语料取自新华网财经新闻。实验结果表明:与不使用Web页面特征,仅用全文相比较,分类性能有所提高。  相似文献   

5.
Web网络中存在海量文本,需要进行合理高效的文本抽取,实现Web文本数据挖掘。由于Web文本数据的高维特性,文本抽取过程中自动分类配对困难。提出一种基于RBF神经网络隐节点共振致密配对的Web数据文本抽取算法,进行Web数据文本特征采样与关联主特征挖掘,在每次移动中形成RBF隐节点共振致密配对,得到最优文本特征选择的路径,建立RBF神经网络分类器,实现基于蚁群算法的特征抽取算法改进。实验结果表明,该算法能有效实现对隐节点的共振致密配对,特征挖掘跟踪性能较好,保障了挖掘性能,系统所提取的特征分量与其他模糊分量差距较小,文本正确抽取召回率高于传统方法,在Web网络数据文本抽取中具有优越可靠的应用价值。  相似文献   

6.
及时准确地对舆情信息进行主题分类,不仅能实时了解舆情动态变化,还能为预判舆情发展趋势、舆论引导建立基础。本文提出一种基于本体和加权朴素贝叶斯的网络舆情主题分类方法,通过使用本体将领域知识和领域文本特征融入分类过程中。将该方法应用到动物卫生领域舆情主题分类中,分类结果精确度为0.9402,Marco_F1达到0.9339。通过与朴素贝叶斯(NB)和THUCTC两种方法的对比实验,证明本文提出的基于本体和加权朴素贝叶斯的分类方法有效且具有可行性,但是领域本体的概念、关系的完备程度会影响分类的效率。  相似文献   

7.
为了提高用户对网站使用的效率,提高网站本体模型的搜索性能,研究一种高效的网页语义概念树构建方法,进行搜索覆盖度层状拓展。传统方法中,使用搜索引擎的词语相似度算法进行搜索拓展,利用规则、聚类等技术对形式背景进行约简,无法有效简历概念间的上下位关系,性能不好。提出一种基于语义主题树特征匹配的搜索覆盖度层状拓展方法,进行Web语义模型和主题树构建,构建特征空间互信息区域文档词频向量模型,对数据库中记录的属性字段进行归类抽象,形成概念汇聚点,实现语义主题树构建搜索覆盖度拓展设计,构建语义主题树特征匹配算法,优化搜索引擎对文本特征的搜索敏感度,提高搜索覆盖度,实现文本搜索覆盖度层状拓展。实验分析得出,该方法具有较好的文本特征分类结果,语义层次结构清晰,可以有效提高文本数据召回率和查准率,展示了较好的应用价值。  相似文献   

8.
张志武 《情报科学》2015,(4):121-124,131
针对传统的基于关键字Web图像检索中的语义缺失问题,结合Web图像的视觉特征和描述文本,利用本体描述Web图像的语义特征,构建了基于本体的Web图像语义检索模型。该模型以领域本体描述Web图像的语义特征,通过自动图像标注技术构建Web图像本体库,用户可以通过输入关键词或者提交示例图像进行图像检索。实验表明,该模型具有较高的图像检索准确率。  相似文献   

9.
参考已有电子商务领域本体,本文提出一种基于用户兴趣本体学习的文本过滤模型.其中利用web挖掘技术构建带有权重的概念及概念间分类与非分类关系,以此基础上进行文本过滤,经验证,基于该本体的文本过滤质量有明显提高.  相似文献   

10.
【目的/意义】使用人工或常用软件工具获取本体概念及概念间关系已无法满足自媒体环境下大数据的本 体构建及维护的要求,本文尝试用自动或半自动方式予以实现。【方法/过程】对电子商务领域原始语料进行分句、 分词等预处理,构建领域语料库;使用基于语言学以及统计学的方法提取电子商务领域本体概念,同时提出基于混 合策略的本体概念抽取方法;然后使用基于语言学、聚类的方法提取电商领域本体概念与概念之间存在的分类关 系,使用基于关联规则挖掘的方法抽取其本体概念与概念之间存在的非分类关系。【结果/结论】将文本挖掘与本体 构建结合起来,提出了领域本体概念及概念间关系自动抽取与本体构建方法,实验表明使用本体框架 Jena利用此方 法可以自动构建电子商务领域本体,并可将其应用到通用的语义检索系统中。  相似文献   

11.
一种基于本体的语义标引方法   总被引:4,自引:0,他引:4  
传统的采用主题词和关键词对文档进行标引的方法,由于不能提供语义推理而越来越不适合目前的网络环境。由于本体具有良好的概念层次结构和对逻辑推理的支持,在信息检索领域将有很大的应用价值。本文首先介绍本体的基本概念和领域本体的组成部分,然后提出了一种基于领域本体的语义标引方法,采用本体中的概念对文档进行语义层面的标引,为检索的智能推理提供基础。  相似文献   

12.
现阶段,绝大多数自动分词系统都是基于词典的方法,词典的完备性是决定分词系统性能的基础和关键,但词典的完备性一直都是很难完善的。本文介绍了机械分词法与无词典分词法,并利用两种分词法各自的优点将其整合,提出了具有自学习功能的智能词典这个概念,以弥补分词词典无法完备的缺陷。  相似文献   

13.
Traditional topic models are based on the bag-of-words assumption, which states that the topic assignment of each word is independent of the others. However, this assumption ignores the relationship between words, which may hinder the quality of extracted topics. To address this issue, some recent works formulate documents as graphs based on word co-occurrence patterns. It assumes that if two words co-occur frequently, they should have the same topic. Nevertheless, it introduces noise edges into the model and thus hinders topic quality since two words co-occur frequently do not mean that they are on the same topic. In this paper, we use the commonsense relationship between words as a bridge to connect the words in each document. Compared to word co-occurrence, the commonsense relationship can explicitly imply the semantic relevance between words, which can be utilized to filter out noise edges. We use a relational graph neural network to capture the relation information in the graph. Moreover, manifold regularization is utilized to constrain the documents’ topic distributions. Experimental results on a public dataset show that our method is effective at extracting topics compared to baseline methods.  相似文献   

14.
用户兴趣本体弥补了基于关键词的用户兴趣模型不能从语义上表达用户兴趣的缺陷,但大多是利用领域本体来构建,很难反映用户多方面和潜在兴趣,并且构建领域本体也是一个难点。本文据此提出一种基于词汇同现的用户兴趣本体构建方法。根据网页浏览记录找到用户兴趣网页集,经过数据处理将其转换成用户兴趣文本集。以TFIDF为指标抽取概念,词汇同现统计提取概念间关系,运用无尺度K-中心点聚类算法对其调整,将有关联用户的本体合并得到多用户本体,该本体能在语义上更全面反映用户兴趣并发现潜在兴趣。  相似文献   

15.
将大量中英文对照的专利文本作为平行语料库,提出一种自动抽取中英文词典的方法。先利用外部语义资源维基百科构建种子双语词典,再通过计算点互信息获得中英文词对的候补,并设置阈值筛选出用于补充种子词典的词对。实验结果表明:对英语文档进行单词的短语化有助于提高自动抽取结果的综合性能;另一方面,虽然通过句对齐方式可以提高自动抽取结果的正确率,但会对抽取结果的召回率产生负面影响。通过所述方法构建的专利双语词典能够在构建多语言版本的技术知识图谱中起到积极作用。  相似文献   

16.
基于术语间本体关联度的文档相关度研究   总被引:1,自引:0,他引:1  
提出了一种基于术语间本体关联度的文档相关度计算方法,该方法利用树状本体结构计算术语间基于本体的关联关系,通过术语组间的本体关联度得到两组词语的本体关联关系,最后结合文档标引词的权重计算两个文档的相关度。新方法从本体的角度将语义信息融入传统向量空间模型,提高了文档相关度计算的准确性。实验选取计算机领域本体作为实验数据,对新方法和传统方法进行综合对比评测,实验结果验证了新方法的有效性和合理性。  相似文献   

17.
This article presents conceptual navigation and NavCon, an architecture that implements this navigation in World Wide Web pages. NavCon architecture makes use of ontology as metadata to contextualize user search for information. Based on ontologies, NavCon automatically inserts conceptual links in Web pages. By using these links, the user may navigate in a graph representing ontology concepts and their relationships. By browsing this graph, it is possible to reach documents associated with the user desired ontology concept. This Web navigation supported by ontology concepts we call conceptual navigation. Conceptual navigation is a technique to browse Web sites within a context. The context filters relevant retrieved information. The context also drives user navigation through paths that meet his needs. A company may implement conceptual navigation to improve user search for information in a knowledge management environment. We suggest that the use of an ontology to conduct navigation in an Intranet may help the user to have a better understanding about the knowledge structure of the company.  相似文献   

18.
相关概念的关联参照检索是概念检索的重要研究内容。本文提出了一种基于主题的语义关联的参照检索模型,通过融合语义网、本体论的相关知识及信息提取等语言处理技术,提取关于特定主题的文档的主题概念及概念之间的关联构成该主题的语义关联模型,并辅助于参照检索过程。  相似文献   

19.
[目的/意义]旨在提出一种基于领域词典的突发公共安全领域舆情事件自动识别方法,有效识别公共安全领域的热点舆情事件,预防危机舆情事件,提高政府公信力。[方法/过程]首先以中国应急服务网中的公共安全事件语料为数据来源,提取并筛选公共安全领域的高频词汇;然后结合人工干预方式选择部分高频且与领域高度相关的种子词;随后以互信息方法计算种子词与语料中的其他词汇共现概率(点互信息),同时以与种子词具有较高点互信息的词汇作为领域候选词,并结合人工审核方式对候选词汇进行调整。最后在对待识别语料进行文本表示的基础上,将其与词典中的领域词汇进行匹配,并以语料中出现的公共安全领域词汇的数量和权重来判断待识别语料是否为突发公共安全舆情事件。[结果/结论]在标注语料上的实验结果表明,与经典的Naive Bayes方法相比,提出的方法能够有效提高公共安全领域热点舆情事件的识别准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号