基于多模深度神经网络生成图像描述研究 |
| |
引用本文: | 周珊,刘子龙.基于多模深度神经网络生成图像描述研究[J].教育技术导刊,2018,17(8):40-44. |
| |
作者姓名: | 周珊 刘子龙 |
| |
作者单位: | 上海理工大学 光电信息与计算机工程学院,上海 200082 |
| |
摘 要: | 图片相比文字而言,可以为人们呈现更生动、更易于理解和更丰富的信息,海量图片成为互联网信息交流的主要媒介之一。因此,如何快速、便捷地自动生成图像描述具有研究意义。介绍了一种根据图像生成其内容的自然语言描述模型,该模型是基于一种在图像区域上应用改进的Faster-RCNN、在句子上应用BRNN以及通过多模嵌入达成两种模态对齐的一种结构化目标的新颖组合。对实验生成描述与图片本来描述相似度进行评估,B-1为0.63,B-2为0.45,B-1为0.32,相较于初始的一些语言描述模型性能有明显提高,说明该模型有一定的实用性。
|
关 键 词: | 自然语言描述模型 改进Faster-RCNN BRNN 多模嵌入 模态对齐 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|