首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于词表和N-gram算法的新词识别实验
引用本文:曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].中国索引,2008,6(1):49-54.
作者姓名:曹艳  杜慧平  刘竟  侯汉清
作者单位:南京农业大学信息管理系,210095
摘    要:目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步:先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。

关 键 词:N-gram算法  未登录词  新词识别  停用词典  过滤词典
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号