XuLaLa.Tech

首页客户端下载Windows 使用V2Ray 教程SSR 教程Clash 教程

GPT背后,从命运多舛的成功到改变世界的成功,人工神经网络的80年历史

2024.06.25

哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 公众号:Ai

● ● ●

如今,ChatGPT等大规模语言预训练神经网络模型已经成为家喻户晓的名字。然而,GPT背后的算法核心——人工神经网络算法,却经历了80年的风风雨雨。在这80年里,除了少数瞬间的爆发,大部分时间里,这一理论都处于沉寂状态,无人问津,甚至成为资金筹集的“毒药”。

人工神经网络的诞生源自桀骜不驯的天才彼得斯与当时备受赞誉的神经生理学家麦卡洛克的黄金组合,但由于他们的理论超越了当时的技术水平,未能得到广泛关注和实证验证。

幸好,在最初的二十多年里,研究人员不断做出贡献,人工神经网络领域也从最简单的神经元数学模型和学习算法,发展到具备学习能力的感知器模型。然而,其他研究人员的质疑,以及“感知器”创始人之一罗森布拉特在航行中去世,导致该领域陷入了长达二十多年的寒冬,直到反向传播算法被引入到人工神经网络的训练过程中。

此后,经过20年的沉寂,人工神经网络的研究终于重启,在近20年的积累中,卷积神经网络、递归神经网络相继出现。

然而,这一领域在学术界和工业界的快速发展,却要等到 17 年前,硬件上的突破才得以实现:通用计算 GPU 芯片的出现,ChatGPT 等大规模语言预训练神经网络模型,才成为如今家喻户晓的名字。

从某种意义上来说,人工神经网络的成功是一种运气,因为并不是所有的研究都能等到关键突破,等到万事俱备。在更多领域,技术突破出现得太早或太晚,导致缓慢消亡。然而,在这种运气中,参与其中的研究人员的决心和坚持是不可忽视的。依靠这些研究人员的理想主义,人工神经网络走过了 80 年的风风雨雨,最终取得了成功。

McCulloch-Peters 神经元

1941年,沃伦·斯特吉斯·麦卡洛克调到芝加哥大学医学院担任神经生理学教授。搬到芝加哥后不久,一位朋友将他介绍给了沃尔特·皮茨。当时正在芝加哥大学攻读博士学位的皮茨和麦卡洛克对神经科学和逻辑学有着共同的兴趣,两人一拍即合,成为了志同道合的朋友和科研伙伴。皮茨生性好学,12岁时,他在图书馆读完了罗素和怀特黑德合著的《数学原理》,并写信给罗素,指出书中的几处错误。罗素很欣赏这位年轻读者的来信,回信邀请他到剑桥大学深造(尽管皮茨当时只有12岁)。然而皮茨的家庭教育水平很低,无法理解皮茨对知识的渴求,反而经常说他的坏话。 皮茨与原生家庭的关系逐渐恶化,15岁时离家出走。从此,皮茨成了芝加哥大学校园里的流浪汉,白天他会旁听自己最喜欢的大学课程,晚上则睡在任意一间教室里。当皮茨遇到麦卡洛克时,他已经是该校注册的博士生,但依然没有固定住所。麦卡洛克得知这一情况后,便邀请皮茨到自己家中居住。

两人相识时,麦卡洛克已发表多篇神经系统方面的论文,是该领域的知名专家。彼得斯虽然还在读博士,但已在数理逻辑领域有所建树,受到冯·诺依曼等领域专家的赏识。两人的专业领域虽然大相径庭,但都对人脑的运作方式有着浓厚的兴趣,坚信数学模型能够描述和模拟大脑的功能。在共同信念的驱使下,两人合作发表了多篇论文,建立了第一个人工神经网络模型,为现代人工智能和机器学习领域奠定了基础,两人也因此被公认为神经科学和人工智能领域的先驱。

1943年,McCulloch和Pitts提出了最早的人工神经网络模型:McCulloch-Pitts神经元模型[1]。该模型旨在利用二进制开关的“开”和“关”机制模拟神经元的工作原理。该模型的主要组成部分是:接收信号的输入节点、通过预设阈值处理输入信号的中间节点、产生输出信号的输出节点。在论文中,McCulloch和Pitts证明了这个简化模型可以用来实现基本的逻辑运算(如“与”、“或”、“非”等)。此外,该模型还可以用来解决模式识别、图像处理等简单问题。

McCulloch-Peters 神经元

图片来源:~./epxing/Class/10715/reading/McCulloch.and.Pitts.pdf

赫布学习

(赫布学习)

1949年,加拿大心理学家唐纳德·赫布出版了《行为的组织》一书,提出了著名的赫布学习理论[2],该理论认为“一起放电的细胞,会连接在一起”,即神经元具有突触可塑性(突触是神经元相互连接进行信息传递的关键部位),突触可塑性是大脑学习和记忆功能的基础。

机器学习理论中的关键步骤是如何利用不同的更新规则来更新模型。利用神经网络模型进行机器学习时,需要设定初始模型的架构和参数。在模型训练过程中,训练数据集中每一次的输入数据都会导致模型更新各种参数,这个过程需要利用更新算法。赫布学习理论给出了机器学习的初始更新算法:Δw=ηxxprexxpost。Δw为突触模型参数的变化量,η为学习率,xpre为突触前神经元活动的值,xpost为突触后神经元活动的值。

Hebbian 更新算法为利用人工神经网络模仿大脑神经网络的行为提供了理论基础。Hebbian 学习模型是一种无监督学习模型——该模型通过调整其感知的输入数据之间的连接程度的强度来实现其学习目的。正因为如此,Hebbian 学习模型特别擅长对输入数据中的子类别进行聚类。随着对神经网络的研究逐渐深入,Hebbian 学习模型后来被发现可适用于强化学习等许多其他子领域。

感知器

(感知器)

1957年,美国心理学家Frank Rosenblatt首次提出了感知器模型,并首次使用了感知器更新算法[3]。感知器更新算法扩展了Hebbian更新算法的基础,采用迭代、试错的过程来训练模型。在模型训练时,感知器模型会计算模型对每个新数据的预测输出值与该数据的实际测得输出值之间的差值,然后利用该差值更新模型中的系数,具体公式为:Δw=ηx(t-y)xx。在提出初始感知器模型后,Rosenblatt不断探索和发展感知器相关理论,1959年,Rosenblatt成功研制出利用感知器模型识别英文字母的神经计算机Mark1。

感知器模型与McCulloch-Peters神经元类似,也是基于生物神经元模型,其基本运作机制为接收输入信号、处理输入信号、产生输出信号。感知器模型与McCulloch-Peters神经元模型的区别在于,后者的输出信号如果超过预先设定的阈值,只能是0或1-1,否则为零——而感知器模型采用的是线性激活函数,这样模型的输出值就可以像输入信号一样是一个连续变化的值。另外,感知器对每一个输入信号都设定一个系数,这个系数可以影响每一个输入信号对输出信号的作用程度。最后,感知器是一种学习算法,因为它的输入信号的系数可以根据所见的数据进行调整;而McCulloch-Peters神经元模型没有设定系数,因此其行为无法根据数据反馈进行动态更新。

1962年,罗森布拉特将自己多年对感知器模型的研究整理成《神经动力学原理:感知器与脑机制理论》一书。感知器模型是人工智能领域的一大进步,因为它是第一个具有学习能力的算法模型,能够自主学习接收到的数据的模式和特征。此外,它还具有模式分类能力,能够根据数据的特征自动将其分为不同的类别。此外,感知器模型相对简单,需要的计算资源较少。

尽管感知器有着诸多优点和潜力,但它是一种相对简化的模型,具有很多局限性。1969年,计算机科学家Marvin Minsky和Seymour Papert合作出版了《感知器》一书[5]。在书中,两位作者对感知器模型进行了深入的批判,并分析了以感知器为代表的单层神经网络的局限性,包括但不限于“异或”逻辑的实现和线性不可分性问题。然而,两位作者和Rosenblatt都意识到,多层神经网络可以解决这些单层神经网络无法解决的问题。不幸的是,《感知器》一书中对感知器模型的负面评价产生了巨大的影响,导致公众和政府机构对感知器研究失去了兴趣。1971年,感知器理论的鼻祖和顶级支持者Rosenblatt在一次海上航行中去世,终年43岁。在《感知器》一书和Rosenblatt去世的双重打击下,感知器论文发表数量逐年迅速减少。 人工神经网络的发展已经进入“寒冬”。

感知器模型

图片来源:towarddatascience.com

反向传播算法

多层神经网络可以解决单层神经网络无法解决的问题,但是它又带来新的问题:多层神经网络模型中各层神经元的权值更新需要进行大量精确的计算,而普通的计算方法费时费力,使得神经网络的学习过程非常缓慢且不切实际。

为了解决这个问题,美国社会学家、机器学习工程师 Paul Werbos 在其 1974 年哈佛大学博士论文《超越回归:行为科学中预测和分析的新工具》中提出了反向传播算法[6]。该算法的基本思想是通过从输出层反向传播预测输出值与实际输出值之间的误差来调整神经网络中各个神经元的权重。该算法的本质是按照微积分中常用的链式法则,从输出层到输入层反向(沿负梯度方向)训练由多层感知器组成的神经网络。

遗憾的是,韦伯的论文发表后很长一段时间内并未引起足够的重视。直到1985年,美国加州大学圣地亚哥分校的心理学家David Rumelhart、认知心理学家、计算机科学家Geoffrey Hinton和计算机科学家Ronald Williams发表了一篇关于反向传播算法在神经网络中的应用的论文[7]。这篇论文在人工智能领域引起了很大的反响。Rumelhart等人的思想与韦伯的思想在本质上是相似的,但Rumelhart等人并没有引用韦伯的论文,这也使得韦伯的论文受到了批评。

反向传播算法在人工神经网络的发展中起着关键作用,使深度学习模型的训练成为可能。自从反向传播算法在 20 世纪 80 年代重新受到关注以来,它被广泛用于训练各种神经网络。除了原始的多层感知器神经网络外,反向传播算法还适用于卷积神经网络、循环神经网络等。由于反向传播算法的重要性,韦伯和鲁梅尔哈特被认为是神经网络领域的先驱之一。

其实反向传播算法是人工智能领域“文艺复兴”时代(20 世纪 80-90 年代)的重要成果。并行分布式处理是这一时期的主要方法论。这种方法论专注于多层神经网络,提倡使用并行处理来加速神经网络的训练过程和应用。这与之前人工智能领域的主流思想背道而驰,因此具有划时代的意义。此外,这种方法论还受到了计算机科学之外不同领域学者的欢迎,包括心理学、认知科学、神经科学等。因此,这段历史常常被后人视为人工智能领域的“文艺复兴”。

反向传播算法原理

图片来源:

卷积神经网络

(卷积神经网络,CNN)

如果把McCulloch-Peters神经元看作是人工智能诞生的标志,那么美国可以说是人工神经网络的发源地。在人工神经网络诞生后的三十年里,美国一直在人工智能领域占据着主导地位,诞生了感知器、反向传播算法等关键技术。然而在人工智能的第一个“寒冬”中,美国各界,包括政府、学术界,都对人工神经网络的潜力失去了信心,大大放缓了对神经网络技术迭代的支持和投入。正因如此,在这场席卷美国的“寒冬”中,其他国家对人工神经网络的研究成为了历史发展的焦点。卷积神经网络和递归神经网络就是在这样的背景下出现的。

卷积神经网络是一种多层神经网络模型,包括卷积层、池化层、全连接层等多个独特结构。该模型利用卷积层提取输入信号的局部特征,再通过池化层降低数据的维度和复杂度,最后通过全连接层将数据转换为一维特征向量并生成输出信号(通常是预测或分类结果)。卷积神经网络的独特结构使其在处理具有网格结构属性的数据(图像、时间序列等)时特别有优势。

卷积神经网络

图片来源:

最早的卷积神经网络是由日本计算机科学家福岛邦彦于 1980 年提出的[8]。福岛邦彦提出的模型包括卷积层和下采样层,这也是至今仍被主流采用的卷积神经网络结构。福岛邦彦的模型与今天的卷积神经网络唯一的区别在于,前者没有采用反向传播算法——如前文所述,反向传播算法直到 1986 年才受到重视。由于福岛邦彦的卷积神经网络模型没有该算法的帮助,因此该模型与当时其他多层神经网络一样,存在训练时间长、计算复杂等问题。

1989年,法国计算机科学家Yann LeCun及其在美国贝尔实验室的团队提出了卷积神经网络模型LeNet-5,并使用反向传播算法对模型进行训练[9]。LeCun证明了该神经网络可以用于识别手写数字和字符。这标志着卷积神经网络在图像识别领域开始得到广泛的应用。

循环神经网络

(递归神经网络,RNN)

与卷积神经网络一样,递归神经网络也是一种具有独特结构特征的神经网络。这类神经网络的主要结构特征是各层之间存在递归关系,而不是顺序关系。由于这些特殊的结构特征,递归神经网络特别适合处理自然语言和其他文本数据。

1990年,美国认知科学家、心理语言学家Jeffrey Elman提出了Elman网络模型(又称简化递归网络)[10]。Elman网络模型是第一个递归神经网络。Elman利用该模型证明了递归神经网络在训练过程中可以保持数据本身的有序性,为该类模型日后在自然语言处理领域的应用奠定了基础。

循环神经网络存在梯度消失现象。在使用反向传播算法训练神经网络时,靠近输入的各层的权重更新梯度逐渐接近于零,导致这些权重变化非常缓慢,训练效果很差。为了解决这个问题,1997年,德国计算机科学家Sepp Hochreiter和他的博士生导师Jürgen Schmidhuber提出了长短期记忆网络[11]。该模型是一种特殊的循环神经网络模型,通过引入记忆节点,使模型具有更好的长期记忆保持能力,从而解决了梯度消失现象。该模型至今仍是最常用的循环神经网络模型之一。

通用计算GPU芯片

2006年,NVIDIA推出了第一款通用计算GPU(图形处理单元)芯片,并将其命名为CUDA(统一计算设备架构)。在此之前,GPU是专门用于图形渲染和计算的芯片处理器,经常用于计算机图形学相关的应用(如图像处理、游戏场景的实时计算和渲染、视频播放和处理等)。CUDA允许通用并行计算,使原本只能调用CPU(中央处理器)的任务可以由GPU完成。GPU强大的并行计算能力使其可以同时执行多个计算任务,并且计算速度比CPU更快,适合矩阵运算。神经网络的训练往往需要大规模的矩阵和张量运算。在通用GPU出现之前,人工神经网络的发展长期受到传统CPU有限计算能力的限制。这种限制包括理论研究的创新,以及现有模型的产品化和产业化。GPU的出现大大削弱了这两个制约因素。

2010 年,Schmidhuber 团队的博士后研究员 Dan Ciresan 利用 GPU 显著加速了卷积神经网络的训练[12]。不过 GPU 真正在人工神经网络领域声名鹊起是在 2012 年。这一年,上文提到的加拿大计算机科学家 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 提出了 AlexNet 模型[13]。AlexNet 模型本质上是一种卷积网络模型。Krizhevsky 等人利用 GPU 训练该模型,并利用该模型参加了国际知名的图像分类与标注比赛(ImageNet ILSVRC),出人意料地以较大的分数优势夺得了冠军。AlexNet 模型的成功极大地激发了各界对人工神经网络在计算机视觉领域应用的兴趣和关注。

生成神经网络和大型语言模型

循环神经网络可以逐字生成文本序列,因此常被认为是早期的生成神经网络模型。然而,虽然循环神经网络擅长处理和生成自然语言数据,但对于长序列数据,它却无法有效捕捉全局信息(无法有效连接远距离信息)。

Transformer 模型来源:[14]

2017年,谷歌的Ashish Vaswani等研究人员提出了Transformer模型[14]。这个大型神经网络主要由编码器和解码器两部分组成。编码器对输入序列进行编码,并通过自注意力层对编码后的信息进行进一步处理,之后通过解码器的自注意力层等网络结构将信息传递到解码器并生成输出序列。这个模型的重要创新点就在于自注意力层。自注意力层使得神经网络模型能够摆脱顺序文本处理的限制,而是直接捕捉文本中不同位置的信息并捕捉各个位置信息之间的依赖关系,并行计算不同位置之间的语义相关性。Transformer模型的出现对自然语言处理领域乃至整个人工智能领域产生了巨大的影响,短短几年间,Transformer模型就被广泛应用于各类大型人工智能模型中。

在层出不穷的基于 transformer 结构的大型语言模型中,最为著名的当属 OpenAI 推出的聊天机器人 ChatGPT。基于 ChatGPT 的语言模型是 GPT-3.5(Generative Pre-trained Transformer Model-3.5)。OpenAI 在训练该模型时使用了大量语料数据,最终使其具备了广泛的语言理解和生成能力,包括提供信息、交流、创建文本、完成软件代码编写,以及轻松通过与语言理解相关的各种测试。

结尾

几周前,我参加了一个志愿者活动,中学生与研究人员共进午餐。在活动上,我和几名大约 15、16 岁的中学生聊天。我们自然而然地谈到了 ChatGPT。我问他们:“你们用过 ChatGPT 吗?你们实话实说,我不会告诉你们老师的。”其中一个男孩害羞地笑了笑,说他现在没有 ChatGPT 就活不下去了。

80 年前,游手好闲的彼得斯只能想象能够模拟大脑功能的数学模型。在如今的年轻人世界里,神经网络已不再只是虚幻的数学公式,而是变得无处不在。未来 80 年会发生什么?人工神经网络会像人类神经网络一样产生意识吗?碳基大脑会继续主导硅基大脑吗?还是会被硅基大脑主导?

参考:

1.Warren S. McCulloch 和 Walter Pitts。“神经活动中固有思想的逻辑演算。”《数学生物物理学公报》,第 5 卷,第 4 期,1943 年,第 115-133 页。

2.Donald O. Hebb。“行为的组织:一种神经心理学理论。”Wiley,1949 年。

3. Frank Rosenblatt。“感知器:大脑中信息存储和组织的概率模型。”《心理学评论》,第 65 卷,第 6 期,1958 年,第 386-408 页。

4. Frank Rosenblatt。“神经动力学原理:感知器和大脑机制理论。”麻省理工学院出版社,1962 年。

5.Marvin Minsky 和 ​​Seymour Papert。“感知器:计算几何学简介。”麻省理工学院出版社,1969 年。

6.Paul Werbos。“超越回归:行为科学预测和分析的新工具。”哈佛大学,1974 年。

7. David E. Rumelhart、Geoffrey E. Hinton 和 Ronald J. Williams。“通过反向传播误差学习表征。”《自然》,第 323 卷,第 6088 期,1986 年,第 533-536 页。

8. Kunihiko Fukushima。“Neocognitron:一种不受位置变化影响的模式识别机制的自组织神经网络模型。”《生物控制论》,第 36 卷,第 4 期,1980 年,第 193-202 页。

9. Yann LeCun、Léon Bottou、Yoshua Bengio 和 Patrick Haffner。“基于梯度的学习应用于文档识别。”IEEE 论文集,第 86 卷,第 11 期,1998 年,第 2278-2324 页。

10.Jeffrey L. Elman。“寻找时间结构。”认知科学,1990 年第 14 卷,第 179-211 页。

11. Sepp Hochreiter 和 Jürgen Schmidhuber。“长期短期记忆。”《神经计算》,第 9 卷,第 8 期,1997 年,第 1735-1780 页。

12. Dan C. Ciresan、Ueli Meier、Luca Maria Gambardella 和 Jürgen Schmidhuber。“深度大型简单神经网络在手写数字识别方面表现出色。”《神经计算》,第 22 卷,第 12 期,2010 年,第 3207-3220 页。

13.Alex Krizhevsky、Ilya Sutskever 和 Geoffrey E. Hinton。“使用深度卷积神经网络进行 ImageNet 分类。”神经信息处理系统进展,2012 年,第 1097-1105 页。

14. Vaswani, Ashish 等人。“注意力就是你所需要的一切。”《神经信息处理系统进展》,2017 年,第 5998-6008 页。

哈喽大家好我是站长,美区火箭apple ID 土耳其apple ID 其他apple ID 账号资源,可加微信: 咨询 可扫码下方关注公众号获取账号教程资源

© 2010-2022 XuLaLa 保留所有权利 本站由 WordPress 强力驱动
请求次数:69 次,加载用时:0.665 秒,内存占用:32.19 MB