首页 | 本学科首页   官方微博 | 高级检索  
     检索      

无词典抽词的RMMFS和BMMFS方法及其比较研究
引用本文:姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503.
作者姓名:姜韶华  党延忠  宣照国
作者单位:大连理工大学系统工程研究所,大连,116024
摘    要:针对作为中文信息处理基础的抽词问题,本文在作者提出的正向串频最大匹配法(MMFS)的基础上,提出了逆向串频最大匹配法(RMMFS)及双向串频最大匹配法(BMMFS)。这两种方法分别采用逆向和双向长串优先与串频统计的思路,并引进规则和支持度指标筛选,不需要词典,不需要事先进行语料库学习,不需要建立字索引,通过串匹配获取中文文本中的汉字共现模式,实时地抽取出包含专业术语及专有名词等未登录词在内的专指语义串、短语和词。实验研究了抽词准确率受规则的影响及随文本大小和词频变化的分布,结果表明BMMFS可以取得更好的抽词效果。

关 键 词:逆向串频最大匹配  双向串频最大匹配  自动抽词  汉字共现模式
修稿时间:2005年10月8日

Comparative Study on RMMFS and BMMFS of Chinese Word Extraction without Using Dictionary
Jiang Shaohua,Dang Yanzhong,Xuan Zhaoguo.Comparative Study on RMMFS and BMMFS of Chinese Word Extraction without Using Dictionary[J].Journal of the China Society for Scientific andTechnical Information,2006,25(4):499-503.
Authors:Jiang Shaohua  Dang Yanzhong  Xuan Zhaoguo
Abstract:
Keywords:reverse maximum matching and frequency statistics  bidirectional maximum matching and frequency statistics  Chinese automatic word extraction  co-occurrence patterns of Chinese characters  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号