首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
术语的抽取是领域本体构建的基础工作,决定了本体构建的质量.获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度.本文试图研究一种不依赖于背景语料的术语领域度筛选方法.本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析.实验结果表明,在小规模航空航天领域语料库上进行验证性实验后发现,在不大量增加计算时间复杂度的情况下,能够有效提高领域术语抽取的质量,获得令人较满意的结果.  相似文献   

2.
本文基于术语共现理论,利用形式概念分析中概念格的自动生成来推理作为属性的领域专业术语的层次结构并进行可视化展示,进而提出了一整套用于实现领域本体概念层次关系构建的解决方案,具体包括文档/词汇与术语语义关联的识别、领域形式化背景的建立、基于形式概念分析的主题概念的生成、基于主题概念格的术语层次关系抽取、术语层次体系的OWL描述和图形展示等.笔者以“白血病”领域为例,详细论证了无知识库支持环境下中文文本到医学学科术语层次结构的衍化过程,并对以文档术语矩阵(DTM)和词汇术语矩阵(WTM)为形式化背景生成的术语层次体系进行了比较分析.  相似文献   

3.
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。  相似文献   

4.
基于词形规则模板的术语层次关系抽取方法   总被引:1,自引:0,他引:1  
术语层次关系抽取是领域概念关系体系构建的重要基础.针对目前术语关系抽取中手工实现的问题,提出了基于词形规则模板匹配的术语层次关系抽取方法,实现从科技论文文本中抽取类属关系(IS-A)和整体部分关系(PART-OF)关系.利用复合术语的head和modifier特征,比较两个术语之间存在的边缘共用词汇,构造模板来确定它们之间的IS-A和PART-OF关系;提出泛化度指标,用于测量两个术语在概念层次树上的相对位置;提出相关度概念,用于测量两个术语之间在语义上的相关性.对不存在共用词汇和不匹配模板的术语采用泛化度差值和相关度来判断它们之间是否存在层次关系.实验从信息资源管理领域的论文文本中提取层次关系术语对1306对,准确率达到92.5%,证明提出的方法是有效的.  相似文献   

5.
[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。  相似文献   

6.
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%.  相似文献   

7.
领域中文术语识别与抽取是领域中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。在对领域术语的内涵和特征的阐述基础上,重点对领域中文术语识别与抽取的研究现状、主要的方法以及典型的应用进行综述,最后指出其未来的发展趋势。  相似文献   

8.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。  相似文献   

9.
提出一种新的政务本体术语自动抽取的方法。首先通过中文分词技术和单字合并法提取政务文本中的词作为候选术语;通过C-value求解法和TF-IDF算法对候选术语进行过滤抽取,从而实现政务领域术语的自动抽取。通过实验比较,发现该方法在不影响领域术语抽取召回率的同时可以提高抽取术语的正确率。  相似文献   

10.
李向阳  张亚非 《情报学报》2005,24(1):100-106
简单分析了语法上界定汉语短语的困扰,提出一种利用语义搭配关系界定汉语短语的方法。首先,借助同义词词林实现语义知识的编码,用这种语义编码来表示语义搭配关系;其次,在此基础上,定义短语与已知语义搭配关系的相似性,计算词语搭配的合理性;最后,利用短语内部的语义搭配合理性优于其他搭配这一性质,用算法实现了基于语义的汉语短语界定过程。该方法应用于军事文本,从中界定出描述作战单位等信息的短语,取得较好的效果。此外,经该方法界定出的短语具有较强的语义信息,对信息抽取等实际应用具有一定的适用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号