融合领域知识与深度学习的机器翻译领域自适应研究 |
| |
引用本文: | 丁 亮,何彦青.融合领域知识与深度学习的机器翻译领域自适应研究[J].情报科学,2017,35(10):125-132. |
| |
作者姓名: | 丁 亮 何彦青 |
| |
摘 要: | 【目的/意义】无论是统计机器翻译,还是神经机器翻译,训练数据通常来源复杂,主题多样,文体不一,与待
翻译目标文本的领域不能保证完全一致,导致领域自适应问题。目前机器翻译的领域自适应方法大多用主题模型
得到主题信息,将数据粗略划分为领域内(in-domain)和领域外(out-domain),缺乏更为明确的领域标签。【方法/过
程】本研究采用中图分类号作为领域标签,采用两种方法对汉语句子进行自动领域标注领域: 利用论文关键词和科
技词系统等知识组织构建领域知识库的领域标注方法;训练卷积神经网络的深度学习的领域标注方法,通过神经
网络深度融合模型将这两种方法融合起来得到效果更佳的领域标注器,利用机器翻译的测试集获取领域标签集合
筛选其训练数据。【结果/结论】经过在神经机器翻译系统上进行测试,针对两个特定领域测试集,仅利用部分训练
数据就获取了比原始训练数据高约1.3BLEU得分(相对5.4%)的翻译结果,证明了本研究方法的有效性和可行性。
|
|
| 点击此处可从《情报科学》浏览原始摘要信息 |
| 点击此处可从《情报科学》下载免费的PDF全文 |
|