GPT-4对多模态大模型在多模态理解、生成、交互上的启发 |
| |
引用本文: | 刘静,郭龙腾.GPT-4对多模态大模型在多模态理解、生成、交互上的启发[J].中国科学基金,2023(5):793-802. |
| |
作者姓名: | 刘静 郭龙腾 |
| |
作者单位: | 1. 中国科学院自动化研究所;2. 中国科学院大学人工智能学院 |
| |
基金项目: | 国家自然科学基金项目(U21B2043)的资助; |
| |
摘 要: | 对话式聊天机器人ChatGPT以近乎摧枯拉朽的气势席卷社会,拨开了通用人工智能的曙光。ChatGPT的升级版GPT-4是个多模态大模型,它从单调的文本交互,升级为可以接受文本与图像组合的多模态输入,相比传统的单模态大模型,多模态大模型更加符合人类的多渠道感认知方式,能够应对更加复杂丰富的环境、场景和任务。GPT-4表明在多模态大模型中引入基于人类知识的自然语言理解与生成能力能够带来模型在多模态理解、生成、交互能力上的巨大提升。本文将介绍多模态大模型的概念、关键技术、近期进展和应用场景、GPT-4的技术特性,并重点探讨以GPT-4为代表的大语言模型对构建多模态大模型的几点启发。具体而言,将讨论如何充分利用大语言模型的语言能力,在多模态大模型的构建中,借助语言的帮助更好地感知理解世界、创作生成内容、与人和环境交互。
|
关 键 词: | GPT-4 多模态大模型 多模态理解 多模态生成 多模态交互 |
|
| 点击此处可从《中国科学基金》浏览原始摘要信息 |
| 点击此处可从《中国科学基金》下载免费的PDF全文 |