首页 | 本学科首页   官方微博 | 高级检索  
     检索      

C-value值和unithood指标结合的中文科技术语抽取
引用本文:韩红旗,安小米.C-value值和unithood指标结合的中文科技术语抽取[J].图书情报工作,2012,0(19):85-89.
作者姓名:韩红旗  安小米
作者单位:1. 中国科学技术信息研究所 北京 100038;2. 数据工程与知识工程教育部重点实验室(中国人民大学) 北京 100872;3. 中国人民大学信息资源管理学院 北京 100872
基金项目:“十二五”国家科技支撑计划项目“基于STKOS的知识服务应用示范”(项目编号:2011BAH10B06);中国人民大学明德学者科学研究基金(中央高校基本科研业务费专项资金资助)“知识工程背景下信息资源管理术语构建方法研究”项目(项目编号:10XNJ052)研究成果之一
摘    要:研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。

关 键 词:术语抽取  C-value算法  unithood  科技术语  
收稿时间:2012-04-05

Chinese Scientific and Technical Term Extraction by Using C-value and Unithood Measure
Han Hongqi,An Xiaomi.Chinese Scientific and Technical Term Extraction by Using C-value and Unithood Measure[J].Library and Information Service,2012,0(19):85-89.
Authors:Han Hongqi  An Xiaomi
Institution:1. Institute of Scientific and Technical Information of China, Beijing 100038;2. Key Laboratory of Data Engineering and Knowledge Engineering(Renmin University of China),MOE, Beijing 100872;3. School of Information Resource Management, Renmin University of China, Beijing 100872
Abstract:The authors introduce a method to extract scientific and technical terms except author keywords from papers. Owing to the "indexer effect", it will affect quantity and quality of term database if only selecting author keywords when constructing term database, so it should be considered to extract other terms from paper text. Most present term extraction algorithm use termhood measure, and only few use unithood measure. The proposed method is based on C-value algorithm. In the method, Chinese term collocation rules are put forward for extracting term candidates, and an unithood index is put forward for measuring term formation power to improve C-value algorithm. Experiments are done to extract information resource management terms, and the results show that the presented algorithm can work effectively and have a better precision than C-value algorithm.
Keywords:term extraction  C-value algorithm  unithood  scientific and technical terms  
本文献已被 CNKI 等数据库收录!
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号