XuLaLa

哈喽大家好我是站长，美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源，可加微信：咨询公众号：Ai

为了写这篇ChatGPT notebook，过去两个月我看了很多中英文的资料/论文（曾经花了很多时间去钻研RL），大部分时间看中文资料比较多。

二月的最后几天，我读的英文论文比较多。也正是在二月底的这几天，我才真正投入到对 ChatGPT 背后技术原理的研究中（后来我组建了“ChatGPT 100 篇论文阅读小组”，我和 10 位医生、行业大佬从 2024 年 2 月 27 日起，用 100 天时间阅读了 100 篇 ChatGPT 相关技术的论文）。当然，我还在不断深入，不禁感叹：

看的论文越多，你就会发现大多数人对ChatGPT的技术解读不够准确，也不够全面，毕竟很多人并没有工作或者研究的需要去深入了解其中的各种细节。

插入一句话：

7月全新上线《ChatGPT技术原理解析》线上课程

本课程将带你一步步深入了解ChatGPT背后的技术原理和细节，并加入大量实践内容，如各类ChatGPT开源项目的实现、训练、部署、微调等。

上线一周内报名人数已达500人，群内已经开始讨论部署、微调等事宜，本周开始，July的线上校长July将在群内分享自己最新的科研心得。

↓↓↓扫描二维码购买↓↓↓

（ChatGPT技术原理解析课程二维码）

购买课程后记得加入QQ群

因为100天100篇文章的任务，我人生中第一次需要逐行逐句地看完100篇文章。之前看得比较零散，没有系统，没有细节。比如在回顾了《Attention is all you need》这篇文章之后，对博客中Transformer笔记的优化收获颇多。

总之，你看的论文越多，你博客里相关笔记的质量就会快速提高，你的技术研究能力也会有巨大的飞跃。为了避免前文过长影响完成率，我把这100篇论文的清单摘录出来分享给大家：

你需要的就是注意力，Transformer 原文

GPT：通过生成式预训练提高语言理解能力

GPT2：语言模型是无监督的多任务学习者

GPT3 原始论文：语言模型是小样本学习者

ICL 原装纸

评估在 Code 上训练的大型语言模型，Codex 原始论文

在预测当前序列的最后一个词时，可以选取概率最大（softmax值最大）的词，但不是全局最优的，也不具备多样性。当然可以用beam search一次性得到多个解。

论文采用了核采样的方式，将预测的单词按概率从高到低进行排序，选出概率最高的单词，加起来达到 95%。

CoT 原创论文：思维链提示在大型语言模型中引发推理

2022 年 1 月 28 日 Jason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma、Brian Ichter、Fei Xia、Ed Chi、Quoc Le、Denny Zhou

这也从侧面证实了instructGPT从1月22日开始就在进行迭代。

训练语言模型按照人类反馈的指令行事

InstructGPT 原创论文

RLHF 原文

PPO 原纸

大型语言模型是零样本推理机

东京大学和谷歌关于预训练大型语言模型推理能力的研究。“让我们一步一步思考”这句话出自这篇论文

使用统一的文本到文本转换器探索迁移学习的极限

2019年10月，谷歌发布了T5模型（Transfer Text to Text Transformer），虽然也是基于Transformer，但是和BERT的Encoder架构、GPT的Decoder架构都不一样，T5就是Transformer的Encoder-Decoder架构，这是其中一种解读。

使用的训练数据为750G，训练方法为：BERT风格的MASK方法/replace span（小段替换）/Drop方法，和BERT类似，也有15%的文本被破坏，替换span时有3个小段被破坏。

LaMDA：对话应用的语言模型，这是简短的解释

5 月 21 日，谷歌宣布正在开发一个名为 LaMDA 的对话模型，该模型基于 Transformer 解码器架构，在微调阶段使用了 58K 的对话数据。这个过程类似于现实生活中的对话。给出一个查询，比如 Rafael Nadal 有多大了？如果一个人知道答案，那么他可以直接回答 35 岁。如果他不知道，他需要做一些研究，用搜索引擎找到答案，然后回答 35 岁。

微调语言模型是零样本学习者

21年9月，谷歌提出了FLAN大型模型，该模型基于LaMDA-PT进行指令微调

FLAN 是 LaMDA-PT 的指令调整版本

PaLM：利用路径扩展语言建模

2022年3月，谷歌的Barham等人发布了Pathways系统，用于更有效地训练大型模型。

Pathways 的愿景——一个非常接近人脑的框架：一个可以执行多项任务和多种模式的模型

并且在执行任务时，它只是稀疏地激活，只使用一部分参数

2022 年 4 月，谷歌发布了 PaLM 模型，该模型基于 Transformer 解码器架构。最大的版本拥有惊人的 5400 亿个参数（8B 62B 540B），使用了多查询注意、SwiGLU 激活函数和 RoPE 位置嵌入。这是翻译之一

并在每个 Transformer 块中使用“并行”表示（Wang & Komatsuzaki，2021）

它是谷歌 Pathways 架构或 OpenAI GPT2/3 小样本学习的进一步扩展

PaLM 首次展示了 Pathways 的大规模应用——能够高效地在数千或数万个加速器芯片上训练模型

具体来说，借助 Pathways，PaLM 540B 在通过数据中心网络连接的两个 TPU v4 Pod 上进行训练，采用模型和数据并行相结合的方式，每个 Pod 使用 3072 个 TPU v4 芯片，连接到 768 台主机，并且能够在不使用任何流水线并行的情况下有效地将训练扩展到 6144 个芯片，这种效率水平是以前这种规模的模型无法达到的。

先前的大多数大型语言模型

在单个 TPU 系统上进行训练（例如 Du 等人于 2021 年开发的 GLaM、Thopilan 等人开发的 LaMDA）

要么使用 Huang 等人 2019 年提出的管道并行性，从而在 GPU 集群（Smith 等人 2022 年提出的 Megatron-Turing NLG 530B）或多个 TPU v3 pod（Rae 等人 2021 年提出的 Gopher）上扩展，最多可达 4096 个 TPU v3 芯片。

此外，它在自然语言、代码和数学推理等任务中也表现出色。

此外，预训练数据集由 7800 亿个 token 的语料库组成，由过滤后的网页（27%）、书籍（13%）、维基百科（4%）、新闻文章（1%）、Github 源代码（5%，包括 Java、HTML、Javascript、Python、PHP、C#、XML、C++ 和 C，共计 196GB 源代码）和社交媒体对话（50%）组成。该数据集还用于训练 LaMDA 和 GLaM

大型语言模型的新兴能力

谷歌于 2022 年 8 月发表了一篇论文，探讨大型语言模型的新兴能力。

扩展指令微调语言模型，Flan-T5（2022 年 10 月）

指令微调做了三个方面的改变：第一，模型参数改为540B；第二，微调任务数量增加到1836个；第三，增加了Chain of Thought微调数据。

语言模型中的多模态思维链推理

2023年2月，亚马逊研究人员在这篇论文中提出了一种基于多模态思维链技术提升语言模型复杂推理能力的方法。

LLaMA：开放高效的基础语言模型，2023年2月24日，Meta发布全新650亿参数大语言模型LLaMA，开源，且大部分任务结果优于2020年的GPT-3

这是对该论文的解释之一

语言并非你所需要的一切：用语言模型调整感知，这是微软于 2023 年 3 月 1 日发布的多模态大型语言模型 Kosmos-1 的论文

PaLM-E: An Embodied Multimodal Language Model（论文地址），谷歌于2023年3月6日发表的一篇关于多模态LLM:PaLM-E的论文，它可以让能够理解人类指令并具有视觉能力的机器人进行工作

Visual ChatGPT：使用可视化基础模型进行交谈、绘图和编辑，微软于2023年3月8日推出Visual ChatGPT（此外3月9日微软德国CTO表示将提供多模态能力的GPT4将在一周内发布）

同时，视觉基础模型，例如 Visual Transformers 或 Stable Diffusion，虽然表现出很强的视觉理解和生成能力，但它们仅仅是具有一轮固定输入和输出的特定任务的专家。

为此，我们构建了一个名为 {Visual ChatGPT} 的系统，结合不同的视觉基础模型，使用户能够通过以下方式与 ChatGPT 进行交互：

1）不仅发送和接收语言，还发送和接收图像

2）提供复杂的视觉问题或视觉编辑指令，需要多个AI模型通过多步骤的协作。

3）提供反馈并要求纠正结果。

我们设计了一系列提示，将视觉模型信息注入 ChatGPT，考虑到多输入/输出的模型和需要视觉反馈的模型

预训练基础模型综合综述：从 BERT 到 ChatGPT 的历史：预训练基础模型的演变

使用统一的文本到文本转换器探索迁移学习的极限

预训练、提示和预测：自然语言处理中提示方法的系统调查，作者刘鹏飞，来自 CMU，相关资源如下

另一篇类似文章，预训练模型：过去、现在和未来

异地调优：无需完整模型的迁移学习

对于很多私有基础模型，数据拥有者必须与模型拥有者共享自己的数据，才能对模型进行微调，这非常昂贵，而且会引发隐私担忧（双向的，一方怕泄露模型，另一方怕泄露数据）

《自然语言十项全能：多任务学习作为问答》，参考了 GPT-1 和 GPT-2 论文，这是 Salesforce 发布的文章，概述了多任务单一模型的基本思想

深度残差学习用于图像识别，ResNet 论文，仅 9 页，在 Google Scholar 上被引用超过 150,000 次

这是李牧对ResNet的解读，这里列出李牧对部分论文的解读。

使用 Transformer 进行端到端对象检测

2020年5月前实施DETR，这是DETR的解释之一

我们先来回顾一下20年前的模型提案历史（我在2018年写过一篇文章：一文理解物体检测：R-CNN，Fast R-CNN，Faster R-CNN，YOLO，SSD）

2014 年 R-CNN

2015 快速 R-CNN、更快的 R-CNN

2016 YOLO、SSD

2017 年 Mask R-CNN、YOLOv2

2018 年 YOLOv3

2019 中心网络

2020 年 DETR

20 年后，计算机视觉迎来了生成多模态的时代

2020

六月 DDPM

十月 DDIM，Vision Transformer

2021

一月 CLIP, DALL E

三月斯温变压器

十一月 MAE，Swin Transformer V2

2022

一月份 BLIP

四月 DALL E 2

8 月：稳定扩散，BEiT-3

2023

一月份 BLIP2

三月视觉聊天 GPT、GPT-4

一张图片胜过 16X16 个单词：用于大规模图像识别的 Transformers

2020年10月发表的Vision Transformer原版论文标志着Transformer正式进入CV社区。

Swin Transformer：使用移位窗口的分层视觉变换器，于 3 月 21 日发布

Swin Transformer V2：扩大容量和分辨率

点击此处查看第一篇文章，点击此处查看第二篇文章

自编码变分贝叶斯，苏建林解读VAE（上）

无线接入网关

去噪扩散概率模型（DDPM）于 2020 年 6 月提出，通常称为扩散模型

这是苏建林对DDPM的一系列比较流行的解读。这里是另一种解读：什么是扩散模型？（该解读的中文注释）

CLIP：连接文本和图像 – OpenAI，这是对 CLIP 论文的解读之一

CLIP 是 OpenAI 于 2021 年 1 月发布的，利用大规模模型预训练提取视觉特征，并进行图像与文字的对比。（一个简单的理解方式是，人们在发微博/微博朋友圈时，喜欢发一段文字，然后加上一张或几张图片，CLIP 就是学习这种对应关系的。）

2021年10月，Accomplice发布disco transmission，这是第一个将CLIP模型与diffusion模型相结合的AI开源绘画工具，其核心是CLIP-Guided transmission模型。

并且还有很多基于CLIP的改进模型，比如Lseg、GroupViT、ViLD、GLIP

使用 CLIP Latents 进行分层文本条件图像生成，这是其中一种解释

DALL·E 2 论文将于 2022 年 4 月发布（第一代将于 2021 年初发布），并将通过 CLIP + Diffusion 模型将文本生成提升到一个新的水平。

利用潜在扩散模型进行高分辨率图像合成

2022 年 8 月发布的 Stable Diffusion 基于潜在扩散模型，专为文本图像生成任务而设计。

这是一些相关的解释：图解稳定扩散（翻译一），这是另外一种解释，这里是对AI绘画发展历史的总结

相比之前的Diffusion模型，Stable Diffusion重点做一件事，就是在保留尽可能多的细节信息的情况下，通过数学变换将模型的计算空间从像素空间降低到一个低维空间（即潜在空间），然后再进行繁重的模型训练和图像生成计算。

BLIP（来自 Salesforce）发布了论文《BLIP：引导语言-图像预训练以实现统一视觉-语言理解和生成》，作者为 Junnan Li、Dongxu Li、Caiming Xiong 和 Steven Hoi。

BLIP-2（来自 Salesforce）与论文《BLIP-2：使用冻结图像编码器和大型语言模型进行引导语言图像预训练》（作者：Junnan Li、Dongxu Li、Silvio Savarese、Steven Hoi）一同发布。

图像作为外语：针对所有视觉和视觉语言任务的 BEIT 预训练，这是对这篇论文的解读之一

2022年8月，微软提出多模态预训练模型BEiT-3

BEiT：图像变换器的 BERT 预训练

BEiT-2：使用矢量量化视觉标记器进行蒙版图像建模

使用人工反馈对齐文本到图像模型，这是其中一种解释

ChatGPT 的主要成功归功于使用 RLHF 对 LLM 进行微调。最近，Google AI 团队将类似的思路运用到了基于大型文本的图模型上：根据人类的反馈对 Stable Diffusion 模型进行微调，以提升生成效果。

虽然目前的文本转图像模型可以取得相对较好的图像生成效果，但往往很难生成与输入文本精确匹配的图像，尤其是在组合图像的生成上。为此，谷歌最新论文提出了一种基于人工反馈的三步微调方法来改善这一问题。

SELF-INSTRUCT：将语言模型与自生成指令对齐，代码地址，解释 1，解释 2

3月中旬，斯坦福发布了Alpaca：只需100美元，任何人都可以微调Meta的70亿参数LLaMA模型

斯坦福团队微调LLaMA所采用的方法，来自于华盛顿大学王一忠等人去年底提出的Self-Instruct。

具体来说，论文提出从自生成指令种子集中的 175 个手动编写的“指令-输出”对开始，然后提示 text-davinci-003 使用种子集作为上下文示例来生成更多指令。

斯坦福版本的 Alpaca 是通过使用 OpenAI API 对 LLaMA 进行微调而创建的，以不到 500 美元的成本生成了 52,000 个这样的示例。

宪法人工智能：人工智能反馈带来的无害性

OpenAI 前副总裁辞职，创办了 ChatGPT 的竞争对手。ChatGPT 采用人类偏好训练 RM，然后进行 RL（即 RLHF），而 Claude 根据 AI 偏好模型训练 RM，然后进行 RL（即 RLAIF）

通过有针对性的人类判断来改善对话代理的协调性

DeepMind 的 Sparrow 发布时间略晚于 InstructGPT，其总体技术思路和框架与 InstructGPT 的三个阶段类似，但 Sparrow 将奖励模型分为了两个不同的 RM。

GPT 为何能在上下文中学习？语言模型秘密地执行梯度下降作为元优化器代码地址，本文将 ICL 视为隐式微调

情境学习是一种什么样的学习算法？使用线性模型进行调查

通过语言模型上下文调整进行元学习

大型语言模型是零样本推理器。arXiv 预印本 arXiv:2205.11916，2022 年

Transformer-XL：超越固定长度上下文的注意力语言模型

张量程序 v：通过零样本超参数迁移调整大型神经网络。arXiv 预印本 arXiv:2203.03466，2022 年

Opt：开放预训练的 Transformer 语言模型。arXiv preprint arXiv:2205.01068，2022 年

语言模型是无监督的多任务学习者。2019

哈喽大家好我是站长，美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源，可加微信：咨询可扫码下方关注公众号获取账号教程资源

XuLaLa.Tech

100 篇 ChatGPT 相关技术必读论文（第 1-50 篇）

机场优选

苹果 iOS 科学上网

热门好文