基于新词发现与词典信息的古籍文本分词研究 |
| |
引用本文: | 李筱瑜.基于新词发现与词典信息的古籍文本分词研究[J].教育技术导刊,2019,18(4):60-63. |
| |
作者姓名: | 李筱瑜 |
| |
作者单位: | 北京信息科技大学 经济管理学院,北京 100192 |
| |
摘 要: | 现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。
|
关 键 词: | 古籍文本 分词 互信息 邻接熵 新词发现 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|