共查询到19条相似文献,搜索用时 140 毫秒
1.
2.
中文信息处理句法层面的研究是前一阶段的重点,而语义层面的研究尚处于起步阶段,但它对计算机语言理解来说更为关键;就一个句子的语义来说,非核心框架元素涵盖事件发生的时间、地点、方式等信息,在信息检索、信息提取和问答系统等应用领域是解决问题的重要依据.本文即根据中文框架元素实现规律的分析,研究非核心框架元素标注规则的构建方法.以认知语义领域介词结构的框架元素标注为例,构建了212条非核心框架元素标注规则,并通过实验分析了规则的使用效果和存在的问题,为计算机自动语义分析提供有效的方法. 相似文献
3.
4.
5.
汉语框架网络问答系统的问句分析设计与实现 总被引:1,自引:0,他引:1
利用框架语义学原理,构建出面向问句分析的语义框架——Q框架,在此基础上实现对问句的语义分析。从语义规则角度提出问句分析设计的思路:基于依存句法树确定不同类型问句的目标词,采取模式匹配方法实现基于Q框架的问句语义分析,通过映射完成对问句的框架语义标注,最终确定问句焦点和问句类型。 相似文献
6.
随着电子商务的飞速发展,用户评论信息对潜在顾客、商家和商品生产商的影响越来越大.由于在线的评论信息十分海量,所以很难通过人工浏览方式进行全面获取.评论句子往往具有很强的主观性,本文提出了整体方案帮助解决评论信息的获取、处理和可视化显示.通过利用词语的相似性计算方法和字的情感倾向分布概率计算方法,实现了极性词典的倾向值量化计算和极性词典的自动扩展.通过利用语义角色标注实现对评论句子的浅层语义分析,并利用统计结果设计出计算句子细粒度情感倾向值的方法.实验结果证明,基于语义角色标注方法比基于词性标注方法在句子细粒度情感倾向值计算中更有效. 相似文献
7.
[目的/意义]面对海量专利文献,如何使用户快速、精准地掌握知识,是优化专利服务的关键课题.中文专利文献中大量存在的零形回指现象,严重影响了知识的自动识别与提取,但由于专利文献零形回指识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究.[方法/过程]在物性结构理论、语义角色及修辞结构关系理论的指导下,展开相关规则的研究,开发句法及语义角色标注工具和篇章标注工具两种工具,并构建了4个资源库:①"专利动词物性角色库",将专利的动词归纳为4类;②"专利知识论元结构库",用于自动标注专利动词物性角色及其论元结构;③"专利动词论元结构规则库",用于分析零形回指的先行语;④"零形回指修辞结构类型库",用于分析当零形回指搭配"功能角色"和"部件角色"的情况.[结果/结论]通过资源库的建设,得出5条消解规则.初步成果已成功应用于机械领域专利文献的自动处理工作. 相似文献
8.
数字图像的语义描述与标注是解决图像检索中语义鸿沟问题的关键。由于缺乏面向领域的有效的数字图像描述方法规范,基于图像底层视觉特征的机器标注和基于专家知识的人为标注的标注结果都存在标注信息质量不高和结果不统一的问题。针对这一现实问题,本文基于图像元数据和信息需求理论,针对敦煌壁画数字图像这一特定文化遗产领域,提出了语义描述框架和领域主题词表相结合的数字图像内容语义描述方法,详细阐述了语义层次及其相互关系。同时,从图像语义描述粒度的角度讨论了语义粒度大小对标注成本的影响,以及该语义描述框架的可移植性问题。图4。表5。参考文献25。 相似文献
9.
简单分析了语法上界定汉语短语的困扰,提出一种利用语义搭配关系界定汉语短语的方法。首先,借助同义词词林实现语义知识的编码,用这种语义编码来表示语义搭配关系;其次,在此基础上,定义短语与已知语义搭配关系的相似性,计算词语搭配的合理性;最后,利用短语内部的语义搭配合理性优于其他搭配这一性质,用算法实现了基于语义的汉语短语界定过程。该方法应用于军事文本,从中界定出描述作战单位等信息的短语,取得较好的效果。此外,经该方法界定出的短语具有较强的语义信息,对信息抽取等实际应用具有一定的适用性。 相似文献
10.
基于GATE语义标注的Web信息的自动抽取 总被引:1,自引:0,他引:1
11.
12.
UMLS语义命题是用三元组表示的最小语义化知识单位,其主语和宾语都是UMLS超级叙词表中的概念,谓词是UMLS语义网络中的语义关系。UMLS语义命题的抽取过程涉及浅层句法分析、概念映射、谓词识别与语义命题生成等环节。两种以UMLS语义命题为基础的医学信息资源聚合方法——用知识单元作为资源单位的聚合方法和用文档关联数据作为资源单位的聚合方法,其聚合结果分别是知识网络和文档网络。 相似文献
13.
基于知网和术语相关度的本体关系抽取研究* 总被引:1,自引:0,他引:1
提出一种基于知网和术语相关度的关系抽取方法。首先通过句法分析提取术语的上下文特征,结合自然语言特征和互信息的方法计算术语之间的相关度,然后使用术语的义原和动态角色作为关键词,在知网语义关系框架中定位关系,并为关系指定明确的语义标签。实验结果表明该方法具有较好的实用效果。 相似文献
14.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。 相似文献
15.
16.
Yair Fogel-Dror Shaul R. Shenhav Tamir Sheafer Wouter Van Atteveldt 《Communication methods and measures》2019,13(2):69-82
A crucial challenge in measuring how text represents an entity is the need to associate each representative expression with a relevant entity to generate meaningful results. Common solutions to this problem are usually based on proximity methods that require a large corpus to reach reasonable levels of accuracy. We show how such methods for the association between an entity and a representation yield a high percentage of false positives at the expression level and low validity at the document level. We introduce a solution that combines syntactic parsing, semantic role labeling logic, and a machine learning approach—the role-based association method. To test our method, we compared it with prevalent methods of association on the news coverage of two entities of interest—the State of Israel and the Palestinian Authority. We found that the role-based association method is more accurate at the expression and the document levels. 相似文献
17.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。 相似文献
18.
Latent Semantic Indexing (LSI) is a popular information retrieval model for concept-based searching. As with many vector space IR models, LSI requires an existing term-document association structure such as a term-by-document matrix. The term-by-document matrix, constructed during document parsing, can only capture weighted vocabulary occurrence patterns in the documents. However, for many knowledge domains there are pre-existing semantic structures that could be used to organize and categorize information. The goals of this study are (i) to demonstrate how such semantic structures can be automatically incorporated into the LSI vector space model, and (ii) to measure the effect of these structures on query matching performance. The new approach, referred to as Knowledge-Enhanced LSI, is applied to documents in the OHSUMED medical abstracts collection using the semantic structures provided by the UMLS Semantic Network and MeSH. Results based on precision-recall data (11-point average precision values) indicate that a MeSH-enhanced search index is capable of delivering noticeable incremental performance gain (as much as 35%) over the original LSI for modest constraints on precision. This performance gain is achieved by replacing the original query with the MeSH heading extracted from the query text via regular expression matches. 相似文献
19.
为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型.该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一种基于语义的模式挖掘算法挖掘文本深层的语义模式.实验结果表明,该模型能够挖掘文本数据库中的深层语义知识,获取的模式具有很强的潜在应用价值,设计的算法具有很强的适应性和可扩展性. 相似文献