基于词表和N-gram算法的新词识别实验期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于词表和N-gram算法的新词识别实验

引用本文：	曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].中国索引,2008,6(1):49-54.

作者姓名：	曹艳杜慧平刘竟侯汉清

作者单位：	南京农业大学信息管理系,210095

摘要：	目前未登录词问题仍然很大程度上影响着自动标引和信息检索的效率。本文提出了一种选择期刊论文的题名和摘要作为训练语料,利用N-gram算法切分和停用词典等过滤筛选非专名的新词识别方法。该方法主要分为两步：先进行N元切分,保存关键词候选集并统计词频;然后进行一系列的过滤,主要有词频阈值限定、前停后停词典过滤、相邻词比较、子父串比较、抽词词典和过滤词典的过滤,最后进行人工判别。对实验结果的测评表明这一方法是简便易行的。训练语料可以不用全文,只用题名和摘要;在新词识别上,摘要可以代替题名。
关键词：	N-gram算法未登录词新词识别停用词典过滤词典
本文献已被维普等数据库收录！