XuLaLa

哈喽大家好我是站长，美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源，可加微信：咨询公众号：Ai

3月21日，在机器智能举办的ChatGPT与大模型技术大会上，中国人民大学高岭人工智能学院教授、博士生导师陆志武发表了题为《ChatGPT对多模态通用生成模型的重要启发》的主旨演讲。

以下为陆志武教授在机器之心举办的 ChatGPT 与大模型技术大会上的演讲，机器之心进行了编辑整理，不改变原意：

大家好，我是中国人民大学的陆志武，今天我的报告题目是《ChatGPT对多模态通用生成模型的重要启发》，报告内容包含四个部分。

首先，ChatGPT 给我们带来的一些关于研究范式创新的启发。第一点就是采用“大模型+大数据”，这是一个被反复验证的研究范式，也是 ChatGPT 的基本研究范式。特别要强调的是，大模型只有足够大，才会有涌现的能力，比如 In-context learning、CoT rationale 等，这些能力是惊人的。

第二点是坚持“大模型+推理”，这也是ChatGPT给我印象最深的一点。因为在机器学习或者人工智能领域，推理是公认的最难的，而ChatGPT也在这方面取得了突破。当然，ChatGPT的推理能力可能主要来自于代码训练，但是否有必然联系还不能确定。在推理方面，我们应该花更多的精力去搞清楚它从哪里来，或者有没有其他的训练方式来进一步提升它的推理能力。

第三点是大模型一定要跟人对齐，这个从ChatGPT的工程角度或者模型实现角度来讲是一个很重要的启示，如果不跟人对齐，模型就会产生很多有害信息，让模型没法用。第三点不是要提高模型的上限，但是模型的可靠性和安全性确实很重要。

ChatGPT 的出现对很多领域都产生了巨大的影响，包括我自己。因为我已经研究多模态模型好几年了，所以我开始反思为什么我们没有做出这么强大的模型。

ChatGPT 是针对语言或文本的通用生成，我们先来看看多模态通用生成领域的最新进展，多模态预训练模型已经开始向多模态通用生成模型转变，并且做了一些初步的探索。首先我们来看一下谷歌在 2019 年提出的 Flamingo 模型，下图是其模型结构。

Flamingo 模型架构的主体部分是大语言模型的解码器，也就是上图右边的蓝色模块。每个蓝色模块之间都增加了一些适配器层，左边的视觉部分则是增加的视觉编码器和感知器重采样器。整个模型的设计就是将视觉的东西进行编码转换，经过适配器，和语言对齐，这样模型就能自动为图像生成文本描述。

Flamingo 的架构设计到底有什么好处呢？首先上图中蓝色模块是固定的（冻结的），包括语言模型解码器；而粉色模块本身的参数数量是可以控制的，所以 Flamingo 模型中实际训练的参数数量是非常少的。所以不要以为做一个多模态的通用生成模型很难，其实并没有那么悲观，训练好的 Flamingo 模型可以做很多基于文本生成的通用任务。当然输入还是多模态的，比如视频描述、视觉问答、多模态对话等，从这个角度来说 Flamingo 就是一个通用的生成模型。

第二个例子是前段时间发布的BLIP-2模型，它是在BLIP-1的基础上改进的，它的模型架构跟Flamingo很像，基本包括一个图像编码器和一个大型语言模型的解码器，这两部分是固定的。然后中间加了一个Q-Former，起到一个转换器的作用——从视觉到语言。所以，BLIP-2真正需要训练的部分是Q-Former。

如下图所示，首先将一张图片（右边的）输入到Image Encoder中，中间的文字是用户提出的问题或者指令，经过Q-Former编码后输入到大语言模型中，最后生成答案，大致就是这个生成的过程。

这两个模型的缺点是显而易见的，由于出现的时间比较早或者刚刚出现，还没有考虑到ChatGPT所采用的工程化方法，至少在文图对话或者多模态对话上没有做过指令微调，因此整体的生成效果并不令人满意。

第三个是微软最近发布的 Kosmos-1，它的结构非常简单，只用图文对进行训练，因此多模态数据也比较简单。Kosmos-1 和上面两个模型最大的区别在于，上面两个模型中的大语言模型是固定的，而 Kosmos-1 中的大语言模型本身需要训练。因此 Kosmos-1 模型的参数数量只有 16 亿，16 亿参数的模型未必具备脱颖而出的能力。当然，Kosmos-1 也没有考虑对图文对话进行指令的微调，这有时会导致它说错话。

接下来的例子是谷歌的多模态具身视觉语言模型PaLM-E。PaLM-E的模型和前面三个例子类似，也是用了ViT+大型语言模型。PaLM-E最大的突破是终于探索到了多模态大型语言模型在机器人领域的可行性。PaLM-E尝试了第一步的探索，但它考虑的机器人任务类型非常有限，无法真正做到普适。

最后一个例子是 GPT-4，它在标准数据集上给出了特别惊人的结果。在很多情况下，它的结果甚至比在数据集上训练和微调过的 SOTA 模型还要好。这可能特别令人震惊，但实际上，这个评估结果并不意味着什么。两年前我们在研究多模态大型模型时发现，大型模型的能力无法在标准数据集上进行评估。在标准数据集上表现良好并不意味着在实际使用中能得到好的结果。这两者之间存在很大的差距。为此，我对目前的 GPT-4 有点失望，因为它只在标准数据集上给出结果。而且目前可用的 GPT-4 不是可视化版本，而只是纯文本版本。

上面的模型一般用于通用语言生成，输入是多模态输入。下面两个模型则不同——它们不仅能做通用语言生成，还能做视觉生成，既能生成语言，又能生成图像。

首先我简单回顾一下微软的 Visual ChatGPT。这个模型的思路很简单，更多的是产品设计的考虑。视觉相关的生成有很多种，也有一些视觉检测模型，这些不同任务的输入和指令差别很大。问题在于如何用一个模型把这些任务都包括进去，所以微软设计了 Prompt manager，核心部分用的是 OpenAI 的 ChatGPT，相当于把不同的视觉生成任务的指令通过 ChatGPT 翻译出来。用户的问题是用自然语言描述的指令，ChatGPT 把它翻译成机器能理解的指令。

Visual ChatGPT 就是这么做的。所以从产品角度看它确实不错，但是从模型设计角度看，它并没有什么新意。所以从整体模型层面看，它是一个“拼接的怪物”，没有统一的模型训练，导致不同模态之间没有相互促进。我们为什么要做多模态？因为我们相信不同模态的数据一定是相互帮助的。而且 Visual ChatGPT 并没有考虑多模态生成指令微调，它的指令微调只依赖于 ChatGPT 本身。

接下来的例子是清华大学朱军教授团队发布的 UniDiffuser 模型。从学术角度看，这个模型真正实现了文本和视觉内容的多模态输入生成，得益于他们基于 Transformer 的网络架构 U-ViT，它与 Stable Diffusion 的核心组件 U-Net 类似，从而将图像生成和文本生成统一在一个框架中。这项工作本身非常有意义，但目前还处于早期阶段。比如它只考虑了 Captioning 和 VQA 任务，没有考虑多轮对话，也没有对多模态生成指令做微调。

在提了这么多意见之后，我们也做了一个产品叫ChatImg，如下图所示。总体来说，ChatImg包含一个图像编码器、一个多模态编码器和一个文本解码器，跟Flamingo、BLIP-2类似，但我们考虑得更多，在具体实现上也有一些细节。

ChatImg 最大的一个优势就是可以接受视频输入，我们非常重视多模态通用生成，包括生成文本、生成图片、生成视频，希望在这个框架上实现多种生成任务，最终希望能够连接文本生成视频。

第二，我们非常重视真实用户的数据，我们希望在获得真实用户数据之后，能够不断优化生成模型本身，提高其能力，所以我们发布了ChatImg这个应用。

以下是我们测试的一些示例。作为早期模型，虽然还存在一些不足，但 ChatImg 对图像的理解总体上是不错的。例如，ChatImg 可以在对话中生成对绘画的描述，还可以进行一些上下文学习。

我们注意到上图中第三、第四个例子涉及到了情感问题。这其实和我们接下来要做的工作有关，我们想把ChatImg连接到机器人上。现在的机器人通常都是被动的，所有的指令都是预设好的，显得很死板。我们希望连接到ChatImg的机器人能够主动的和人交流。怎么做到呢？首先机器人要能够感受到人，可能是客观的看到世界的状态和人的情绪，或者得到一个反映；然后机器人能够理解，并且主动的和人交流。通过这两个例子，我觉得这个目标是可以实现的。

最后我来总结一下今天的报告。首先，ChatGPT和GPT-4带来了研究范式的一个革新，我们大家都应该积极拥抱这个变化，不能抱怨，不能找借口说我们没有资源，只要我们面对这个变化，总会有办法克服困难的。多模态研究甚至不需要机器有几百张牌，只要采取相应的策略，少数机器也能做得很好。其次，现有的多模态生成模型都有各自的问题，GPT-4还没有开放可视化版本，我们大家还有机会。另外，我觉得GPT-4还有一个问题，就是它并没有给出一个完美的答案，多模态生成模型最终应该是什么样子（其实它并没有透露GPT-4的任何细节）。这其实是一件好事，全世界的人都很聪明，每个人都有自己的想法，可能会形成百花齐放的研究新局面。我的演讲到此结束。谢谢大家。

哈喽大家好我是站长，美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源，可加微信：咨询可扫码下方关注公众号获取账号教程资源

XuLaLa.Tech

观点分享 | 中国人民大学陆志武教授：ChatGPT对多模态通用生成模型的重要启发

机场优选

苹果 iOS 科学上网

热门好文