首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于多模深度神经网络生成图像描述研究
引用本文:周珊,刘子龙.基于多模深度神经网络生成图像描述研究[J].教育技术导刊,2018,17(8):40-44.
作者姓名:周珊  刘子龙
作者单位:上海理工大学 光电信息与计算机工程学院,上海 200082
摘    要:图片相比文字而言,可以为人们呈现更生动、更易于理解和更丰富的信息,海量图片成为互联网信息交流的主要媒介之一。因此,如何快速、便捷地自动生成图像描述具有研究意义。介绍了一种根据图像生成其内容的自然语言描述模型,该模型是基于一种在图像区域上应用改进的Faster-RCNN、在句子上应用BRNN以及通过多模嵌入达成两种模态对齐的一种结构化目标的新颖组合。对实验生成描述与图片本来描述相似度进行评估,B-1为0.63,B-2为0.45,B-1为0.32,相较于初始的一些语言描述模型性能有明显提高,说明该模型有一定的实用性。

关 键 词:自然语言描述模型  改进Faster-RCNN  BRNN  多模嵌入  模态对齐  
点击此处可从《教育技术导刊》浏览原始摘要信息
点击此处可从《教育技术导刊》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号