基于多策略融合的中文术语抽取方法 |
| |
引用本文: | 周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3). |
| |
作者姓名: | 周浪 史树敏 冯冲 黄河燕 |
| |
作者单位: | 1. 南京理工大学计算机科学与技术学院,南京,210094 2. 北京理工大学计算机学院,北京,100081 |
| |
基金项目: | 国家863高技术研究发展计划资助项目,国家自然科学基金资助项目 |
| |
摘 要: | 中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术.相对于单词型术语,词组型术语的识别过程要更加复杂.由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题.文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务.实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能.
|
关 键 词: | 中文术语抽取 语言规则获取 子串归并 搭配检验 词语活跃度 领域相关度 |
A Chinese Term Extraction System Based on Multi-Strategies Integration |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|