基于词表和N-gram算法的新词识别实验 |
| |
引用本文: | 曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].中国索引,2008,6(1):49-54. |
| |
作者姓名: | 曹艳 杜慧平 刘竟 侯汉清 |
| |
作者单位: | 南京农业大学信息管理系,210095 |
| |
摘 要: | 目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。
|
关 键 词: | N-gram算法 未登录词 新词识别 停用词典 过滤词典 |
本文献已被 维普 等数据库收录! |
|