首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
在汉语框架网(CFN)的基础上,介绍语义角色自动标注的步骤和流程,提出基于文本匹配和最大熵分类器的语义角色自动标注方法。在文本匹配算法中,综合考虑短语类型、短语相对于目标词位置、句法功能三个因素及其对句子相似度影响的权重;在最大熵算法中,也尝试一些新的特征及其组合,最后利用例子对该方法进行有效性验证。  相似文献   

2.
中文信息处理句法层面的研究是前一阶段的重点,而语义层面的研究尚处于起步阶段,但它对计算机语言理解来说更为关键;就一个句子的语义来说,非核心框架元素涵盖事件发生的时间、地点、方式等信息,在信息检索、信息提取和问答系统等应用领域是解决问题的重要依据.本文即根据中文框架元素实现规律的分析,研究非核心框架元素标注规则的构建方法.以认知语义领域介词结构的框架元素标注为例,构建了212条非核心框架元素标注规则,并通过实验分析了规则的使用效果和存在的问题,为计算机自动语义分析提供有效的方法.  相似文献   

3.
以汉语框架网络数据库为研究对象,从短语类型、主控范畴、句法树路径、位置、中心词、语态等特征方面综合考虑,达到识别各种框架语义角色的目的,并结合盗窃框架中的词元“偷”,对一系列语义角色特征的规律进行总结说明,进而对CFN框架网络语义层自动识别理论进行探索。  相似文献   

4.
主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动提取专利文献主题,区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语义角色标注,首先描述将专利文献长句自动拆分成简化句的方法;其次,对简化句进行语义角色标注;最后,综合利用简化句语义信息以及自建带语义框架的常用词表,对专利文献进行主题信息抽取,获得必要信息,从而证实本研究的实用价值。  相似文献   

5.
汉语框架网络问答系统的问句分析设计与实现   总被引:1,自引:0,他引:1  
利用框架语义学原理,构建出面向问句分析的语义框架——Q框架,在此基础上实现对问句的语义分析。从语义规则角度提出问句分析设计的思路:基于依存句法树确定不同类型问句的目标词,采取模式匹配方法实现基于Q框架的问句语义分析,通过映射完成对问句的框架语义标注,最终确定问句焦点和问句类型。  相似文献   

6.
随着电子商务的飞速发展,用户评论信息对潜在顾客、商家和商品生产商的影响越来越大.由于在线的评论信息十分海量,所以很难通过人工浏览方式进行全面获取.评论句子往往具有很强的主观性,本文提出了整体方案帮助解决评论信息的获取、处理和可视化显示.通过利用词语的相似性计算方法和字的情感倾向分布概率计算方法,实现了极性词典的倾向值量化计算和极性词典的自动扩展.通过利用语义角色标注实现对评论句子的浅层语义分析,并利用统计结果设计出计算句子细粒度情感倾向值的方法.实验结果证明,基于语义角色标注方法比基于词性标注方法在句子细粒度情感倾向值计算中更有效.  相似文献   

7.
[目的/意义]面对海量专利文献,如何使用户快速、精准地掌握知识,是优化专利服务的关键课题.中文专利文献中大量存在的零形回指现象,严重影响了知识的自动识别与提取,但由于专利文献零形回指识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究.[方法/过程]在物性结构理论、语义角色及修辞结构关系理论的指导下,展开相关规则的研究,开发句法及语义角色标注工具和篇章标注工具两种工具,并构建了4个资源库:①"专利动词物性角色库",将专利的动词归纳为4类;②"专利知识论元结构库",用于自动标注专利动词物性角色及其论元结构;③"专利动词论元结构规则库",用于分析零形回指的先行语;④"零形回指修辞结构类型库",用于分析当零形回指搭配"功能角色"和"部件角色"的情况.[结果/结论]通过资源库的建设,得出5条消解规则.初步成果已成功应用于机械领域专利文献的自动处理工作.  相似文献   

8.
数字图像的语义描述与标注是解决图像检索中语义鸿沟问题的关键。由于缺乏面向领域的有效的数字图像描述方法规范,基于图像底层视觉特征的机器标注和基于专家知识的人为标注的标注结果都存在标注信息质量不高和结果不统一的问题。针对这一现实问题,本文基于图像元数据和信息需求理论,针对敦煌壁画数字图像这一特定文化遗产领域,提出了语义描述框架和领域主题词表相结合的数字图像内容语义描述方法,详细阐述了语义层次及其相互关系。同时,从图像语义描述粒度的角度讨论了语义粒度大小对标注成本的影响,以及该语义描述框架的可移植性问题。图4。表5。参考文献25。  相似文献   

9.
李向阳  张亚非 《情报学报》2005,24(1):100-106
简单分析了语法上界定汉语短语的困扰,提出一种利用语义搭配关系界定汉语短语的方法。首先,借助同义词词林实现语义知识的编码,用这种语义编码来表示语义搭配关系;其次,在此基础上,定义短语与已知语义搭配关系的相似性,计算词语搭配的合理性;最后,利用短语内部的语义搭配合理性优于其他搭配这一性质,用算法实现了基于语义的汉语短语界定过程。该方法应用于军事文本,从中界定出描述作战单位等信息的短语,取得较好的效果。此外,经该方法界定出的短语具有较强的语义信息,对信息抽取等实际应用具有一定的适用性。  相似文献   

10.
基于GATE语义标注的Web信息的自动抽取   总被引:1,自引:0,他引:1  
重点研究基于语义标注样本的Web信息自动抽取的实现方法。借助自然语言处理框架GATE,首先引入领域本体对样本网页内容进行语义标注,精确定位出待抽取的语义项,并据此将样本网页解析为S DOM树。从S DOM树中抽取出语义项的特征描述,形成样本实例并采用机器学习算法归纳抽取规则,自动生成包装器。抽取过程中,通过比较网页结构的相似度,系统能够感知网页的变化,主动学习并扩展规则库。试验结果表明,由于精确定位保障了学习样本的质量,小样本学习生成的包装器能够达到较为理想的查全率和查准率。  相似文献   

11.
基于语义模型的数字图书馆知识组织信息抽取策略   总被引:1,自引:1,他引:0  
简述语义模型是实现数字资源语义关系形式化描述的方式,是数字图书馆知识组织语义互联的重要影响因素。作为数字图书馆知识组织语义互联的重要环节,信息抽取需要本体提供语义知识依据,同时产生的文档也可以作为设计和丰富本体的知识资源。构建数字图书馆知识组织语义互联的语义模型以“元数据、领域本体、桥本体、本体解析体系”为核心要素,在此基础上探讨信息抽取的策略。  相似文献   

12.
UMLS语义命题是用三元组表示的最小语义化知识单位,其主语和宾语都是UMLS超级叙词表中的概念,谓词是UMLS语义网络中的语义关系。UMLS语义命题的抽取过程涉及浅层句法分析、概念映射、谓词识别与语义命题生成等环节。两种以UMLS语义命题为基础的医学信息资源聚合方法——用知识单元作为资源单位的聚合方法和用文档关联数据作为资源单位的聚合方法,其聚合结果分别是知识网络和文档网络。  相似文献   

13.
基于知网和术语相关度的本体关系抽取研究*   总被引:1,自引:0,他引:1  
 提出一种基于知网和术语相关度的关系抽取方法。首先通过句法分析提取术语的上下文特征,结合自然语言特征和互信息的方法计算术语之间的相关度,然后使用术语的义原和动态角色作为关键词,在知网语义关系框架中定位关系,并为关系指定明确的语义标签。实验结果表明该方法具有较好的实用效果。  相似文献   

14.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。  相似文献   

15.
利用语义角色标注技术对文献进行标注,以句子为最小单位进行文献的语义相似度检测。提取文献中所有词语的上位词,为每篇文献形成句子-词-语义角色-上位词四部图。语义相似的句子对比参照四部图确定,最终计算出两篇文献相似句子的Jaccard系数作为两篇文献的语义相似度。实验结果表明,所识别出的语义相似度较字粒度Jaccard系数法、词粒度Jaccard系数法、Winnowing Jaccard系数法等高出13%,然而受语料库限制,本方法还有很大的提升空间。  相似文献   

16.
A crucial challenge in measuring how text represents an entity is the need to associate each representative expression with a relevant entity to generate meaningful results. Common solutions to this problem are usually based on proximity methods that require a large corpus to reach reasonable levels of accuracy. We show how such methods for the association between an entity and a representation yield a high percentage of false positives at the expression level and low validity at the document level. We introduce a solution that combines syntactic parsing, semantic role labeling logic, and a machine learning approach—the role-based association method. To test our method, we compared it with prevalent methods of association on the news coverage of two entities of interest—the State of Israel and the Palestinian Authority. We found that the role-based association method is more accurate at the expression and the document levels.  相似文献   

17.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

18.
Latent Semantic Indexing (LSI) is a popular information retrieval model for concept-based searching. As with many vector space IR models, LSI requires an existing term-document association structure such as a term-by-document matrix. The term-by-document matrix, constructed during document parsing, can only capture weighted vocabulary occurrence patterns in the documents. However, for many knowledge domains there are pre-existing semantic structures that could be used to organize and categorize information. The goals of this study are (i) to demonstrate how such semantic structures can be automatically incorporated into the LSI vector space model, and (ii) to measure the effect of these structures on query matching performance. The new approach, referred to as Knowledge-Enhanced LSI, is applied to documents in the OHSUMED medical abstracts collection using the semantic structures provided by the UMLS Semantic Network and MeSH. Results based on precision-recall data (11-point average precision values) indicate that a MeSH-enhanced search index is capable of delivering noticeable incremental performance gain (as much as 35%) over the original LSI for modest constraints on precision. This performance gain is achieved by replacing the original query with the MeSH heading extracted from the query text via regular expression matches.  相似文献   

19.
为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型.该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一种基于语义的模式挖掘算法挖掘文本深层的语义模式.实验结果表明,该模型能够挖掘文本数据库中的深层语义知识,获取的模式具有很强的潜在应用价值,设计的算法具有很强的适应性和可扩展性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号