为什么要写 transformer 的文章呢?大概归于 3 个原因 1)目前我对于大模型的理解仅停留在使用层面,API、提示词、Agent 玩的很 6,无法接触到很核心的东西。长期下去可能也没啥进步 2)网上对于 transformer 讲解的文章或者视频大多很晦涩难懂,没点神经网络的基础是真的很难看懂,希望这篇文章能够很透彻地剖析出来,能够让更多的人加入进来 3)带有很重的功利心,学习基础架构真的很枯燥,想通过写文章的方式鞭策自己。
什么人会读这篇文章?那些已经熟练使用大模型的开发者,包括 API、Function Call、format output 等等,他们非常想提升自己,不止于在 COT(思维链)、prompt、微调等方向上。所以如果你目前仅仅对大模型有简单的了解,或者仅仅会使用 kimi、文心一言、智谱清言等 app,那么你大概率是看不懂或者没必要看这篇文章的。阅读这篇文章时还需要你正襟危坐,需要保持很高的注意力,躺在床上或者站在地铁上玩手机基本也不可能读懂这篇文章,因为注意力是一个很稀缺的东西,transformer 正是凭借注意力才如此地出色。
transformer 是一个 seq2seq 模型,其实 seq2seq 的提出要早于 transformer(https://arxiv.org/pdf/1409.3215),早在 2014 年由 Google Brain 的三位专家提出,这三位分别是 Ilya Sutskever、Oriol Vinyal、Quoc V. Le,其中 Ilya 是首席科学家而其余两位是研究科学家。Ilya 是一位很传奇的人物,不仅是 Geoffrey Hinton(诺贝尔和图灵两项大奖的神人)在多伦多大学的学生,后面他也在 Google 参与了 transformer 的研究,并且在 2015 年加入 OpenAI 担任首席科学家,推动了大模型(如 GPT-3 和 GPT-4)的问世。只可惜在 2023 年参与了罢免 Sam Altman 的后宫戏中失败了,2024 年离开了 OpenAI,对外宣称是因为担心 OpenAI 平衡不了盈利和安全,言外之意为了钱什么事都能做出来,他的离开与这场宫斗戏是否有关不得而知,Ilya 离开后创立了一个新公司为 Safe Superintelligence Inc,聚焦于解决人工智能的安全性问题。
可以说,Ilya 最早参与研究的 seq2seq 为 transformer 奠定了非常重要的基础。什么是 seq2seq 模型呢?在 2014 年《Sequence to Sequence Learning with Neural Networks》论文中,把它定义为一个基于神经网络的序列到序列的学习模型,简单来说输入是一段话输出是另一段话的模型,简称为 seq2seq。为什么需要 seq2seq 呢?在 seq2seq 之前比较流行的是深度神经网络(Deep Neural Networks,简称 DNNs),DNNs 在语音转文字(https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/38131.pdf)和视觉识别上非常出色,但是却很难处理 seq2seq 任务。
所以我们了解到,transformer 是一个 seq2seq 模型,而早期的 seq2seq 模型只是对 DNNs 的一种改进方法,所以要搞明白这一切。谈到 DNNs,又离不开将它发扬光大 Geoffrey Hinton,这位大佬因为对 CNN 爆改为 AlexNet 框架(DNN 与 CNN 的关系是整体和部分的关系)获得很多奖项,Hinton 在《ImageNet Classification with Deep Convolutional Neural Networks》这篇论文中详细讲了爆改的细节,然而非常巧的是,在这篇论文中我们又看到了 Ilya 的身影,深度学习从 AlexNet 到 seq2seq,再到 transformer 都有 Ilya 的身影。
如果要搞明白这一切,就要从 CNN 开始讲起,我们可能要花费一整篇甚至 N 篇文章来讲解,希望有耐心的读者可以一起阅读完成。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于