深度学习在统计机器翻译领域自适应中的应用研究 |
| |
引用本文: | 丁亮,姚长青,何彦青,李辉.深度学习在统计机器翻译领域自适应中的应用研究[J].情报工程,2017,3(3):064-076. |
| |
作者姓名: | 丁亮 姚长青 何彦青 李辉 |
| |
作者单位: | 中国科学技术信息研究所,富媒体数字出版内容组织与知识服务重点实验室,中国科学技术信息研究所,富媒体数字出版内容组织与知识服务重点实验室,中国科学技术信息研究所,富媒体数字出版内容组织与知识服务重点实验室,北京市科学技术情报研究所 |
| |
基金项目: | 本文受国家自然科学基金项目(61303152、71503240和71403257)和中国科学技术信息研究所重点工作项目(ZD2017-4)的资助。 |
| |
摘 要: | 统计机器翻译往往存在待翻译文本来源多样和领域不一致的问题。为了提升面向不同领域的文本的翻译质量,需要根据待翻译文本对训练语料进行筛选以达到领域自适应的目的。目前统计机器翻译的领域自适应方法以目标数据为基准,着重利用统计技术对训练数据或者翻译模型进行领域的适应调整,缺乏明确的领域标签。本研究在本组之前研究基础上利用深度学习中卷积神经网络 (Convolutional neural network, CNN)对短文本进行建模,构建合适的网络结构进行有监督学习,获取完整的句子语义信息,按照待翻译文本的领域信息对训练语料进行归类筛选,获取与待翻译文本领域一致的训练数据,并将其应用到统计机器翻译中。本文采用万方英文摘要在统计机器翻译系统上进行测试,仅利用部分训练数据就得到了超越原始训练数据BLEU 打分的翻译结果,证明了本研究的有效性和可行性。
|
关 键 词: | 统计机器翻译,训练语料选取,卷积神经网络,深度学习 |
Application of Deep Learning in Statistical Machine Translation Domain Adaptation |
| |
Authors: | DING Liang YAO ChangQing HE YanQing and LI Hui |
| |
Institution: | Institute of Scientific and Technical Information of China,Key Laboratory of Rich-media Knowledge Organization and Service of Diqital Publishing Content,Institute of Scientific and Technical Information of China,Key Laboratory of Rich-media Knowledge Organization and Service of Diqital Publishing Content,Institute of Scientific and Technical Information of China,Key Laboratory of Rich-media Knowledge Organization and Service of Diqital Publishing Content and Beijing Institute of Science and Technology Information |
| |
Abstract: | |
| |
Keywords: | Statistical machine translation training data selection convolutional neural network deep learning |
|
| 点击此处可从《情报工程》浏览原始摘要信息 |
| 点击此处可从《情报工程》下载免费的PDF全文 |