基于多模深度神经网络生成图像描述研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于多模深度神经网络生成图像描述研究

引用本文：	周珊,刘子龙.基于多模深度神经网络生成图像描述研究[J].教育技术导刊,2018,17(8):40-44.

作者姓名：	周珊刘子龙

作者单位：	上海理工大学光电信息与计算机工程学院，上海 200082

摘要：	图片相比文字而言，可以为人们呈现更生动、更易于理解和更丰富的信息，海量图片成为互联网信息交流的主要媒介之一。因此，如何快速、便捷地自动生成图像描述具有研究意义。介绍了一种根据图像生成其内容的自然语言描述模型，该模型是基于一种在图像区域上应用改进的Faster-RCNN、在句子上应用BRNN以及通过多模嵌入达成两种模态对齐的一种结构化目标的新颖组合。对实验生成描述与图片本来描述相似度进行评估，B-1为0.63，B-2为0.45，B-1为0.32，相较于初始的一些语言描述模型性能有明显提高，说明该模型有一定的实用性。
关键词：	自然语言描述模型改进Faster-RCNN BRNN 多模嵌入模态对齐

	点击此处可从《教育技术导刊》浏览原始摘要信息
	点击此处可从《教育技术导刊》下载免费的PDF全文