首页 | 本学科首页   官方微博 | 高级检索  
     检索      

深度学习在统计机器翻译领域自适应中的应用研究
引用本文:丁亮,姚长青,何彦青,李辉.深度学习在统计机器翻译领域自适应中的应用研究[J].情报工程,2017,3(3):064-076.
作者姓名:丁亮  姚长青  何彦青  李辉
作者单位:中国科学技术信息研究所,富媒体数字出版内容组织与知识服务重点实验室,中国科学技术信息研究所,富媒体数字出版内容组织与知识服务重点实验室,中国科学技术信息研究所,富媒体数字出版内容组织与知识服务重点实验室,北京市科学技术情报研究所
基金项目:本文受国家自然科学基金项目(61303152、71503240和71403257)和中国科学技术信息研究所重点工作项目(ZD2017-4)的资助。
摘    要:统计机器翻译往往存在待翻译文本来源多样和领域不一致的问题。为了提升面向不同领域的文本的翻译质量,需要根据待翻译文本对训练语料进行筛选以达到领域自适应的目的。目前统计机器翻译的领域自适应方法以目标数据为基准,着重利用统计技术对训练数据或者翻译模型进行领域的适应调整,缺乏明确的领域标签。本研究在本组之前研究基础上利用深度学习中卷积神经网络 (Convolutional neural network, CNN)对短文本进行建模,构建合适的网络结构进行有监督学习,获取完整的句子语义信息,按照待翻译文本的领域信息对训练语料进行归类筛选,获取与待翻译文本领域一致的训练数据,并将其应用到统计机器翻译中。本文采用万方英文摘要在统计机器翻译系统上进行测试,仅利用部分训练数据就得到了超越原始训练数据BLEU 打分的翻译结果,证明了本研究的有效性和可行性。

关 键 词:统计机器翻译,训练语料选取,卷积神经网络,深度学习

Application of Deep Learning in Statistical Machine Translation Domain Adaptation
Authors:DING Liang  YAO ChangQing  HE YanQing and LI Hui
Institution:Institute of Scientific and Technical Information of China,Key Laboratory of Rich-media Knowledge Organization and Service of Diqital Publishing Content,Institute of Scientific and Technical Information of China,Key Laboratory of Rich-media Knowledge Organization and Service of Diqital Publishing Content,Institute of Scientific and Technical Information of China,Key Laboratory of Rich-media Knowledge Organization and Service of Diqital Publishing Content and Beijing Institute of Science and Technology Information
Abstract:
Keywords:Statistical machine translation  training data selection  convolutional neural network  deep learning
点击此处可从《情报工程》浏览原始摘要信息
点击此处可从《情报工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号