首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于多策略融合的中文术语抽取方法
引用本文:周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3).
作者姓名:周浪  史树敏  冯冲  黄河燕
作者单位:1. 南京理工大学计算机科学与技术学院,南京,210094
2. 北京理工大学计算机学院,北京,100081
基金项目:国家863高技术研究发展计划资助项目,国家自然科学基金资助项目 
摘    要:中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术.相对于单词型术语,词组型术语的识别过程要更加复杂.由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题.文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务.实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能.

关 键 词:中文术语抽取  语言规则获取  子串归并  搭配检验  词语活跃度  领域相关度

A Chinese Term Extraction System Based on Multi-Strategies Integration
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号