• 周四. 4月 25th, 2024

GPT-4 泄露的细节揭示了其庞大的规模和令人印象深刻的架构

最近围绕 GPT-4 的细节泄露在 AI 社区引发了冲击波。从未公开来源获得的泄露信息让我们得以一瞥这一开创性模型的令人敬畏的能力和前所未有的规模。我们将分解事实并揭示使 GPT-4 成为真正技术奇迹的关键方面。

更多AI资讯,请关注公众号“未来AI工具”。

信用:元界邮报 (mpost.io)

GPT-4的大量参数计数

泄漏中最引人注目的启示之一是GPT-4的绝对规模。它拥有惊人的尺寸,其参数是其前身 GPT-10 的 3 倍以上。据估计,它总共有大约1.8万亿个参数,分布在令人印象深刻的120层中。这种规模的大幅增加无疑有助于 GPT-4 增强的能力和突破性进步的潜力。

专家混合模型

为了确保合理的成本,同时保持卓越的性能,OpenAI 在 GPT-4 中实施了专家混合 (MoE) 模型。通过利用模型中的 16 位专家,每位专家由大约 111 亿个多层感知器 (MLP) 参数组成,OpenAI 有效地优化了资源分配。值得注意的是,在每次前向传递期间,只路由两个专家,从而在不影响结果的情况下最大限度地减少计算要求。这种创新方法表明了OpenAI致力于最大限度地提高其模型的效率和成本效益。

GPT-4 架构的非常有趣和详细的泄漏,对其背后的推理及其影响进行了出色的分析

简化的 MoE 路由算法

虽然该模型经常探索高级路由算法来选择专家来处理每个令牌,但据报道,OpenAI在当前GPT-4模型中的方法更为简单。据称,人工智能采用的路由算法相对简单,但仍然有效。大约 55 亿个共享的注意力参数有助于将代币有效地分配给模型中的适当专家。

高效推理

GPT-4 的推理过程展示了其效率和计算能力。每次前向传递专用于生成单个令牌,利用大约 280 亿个参数和 560 个 TFLOP(每秒 TB 浮点运算)。这与 GPT-4 的巨大规模形成鲜明对比,GPT-1 在纯密集模型中具有 8.3 万亿个参数和每次前向传递 700, 个 TFLOP。资源的有效利用凸显了OpenAI致力于在没有过多计算要求的情况下实现最佳性能的奉献精神。

广泛的训练数据集

GPT-4 已经在一个包含大约 13 万亿个代币的巨大数据集上进行了训练。需要注意的是,这些代币包括唯一代币和计入数字的代币。训练过程包括基于文本的数据的两个周期和基于代码的数据的四个周期。OpenAI 利用来自 ScaleAI 和内部的数百万行指令微调数据来优化模型的性能。

通过从 8K 到 32K 的微调进行细化

GPT-4 的预训练阶段采用了 8k 的上下文长度。随后,该模型进行了微调,产生了 32k 版本。这种进展建立在预训练阶段的基础上,增强了模型的功能并针对特定任务对其进行了定制。

通过并行性使用 GPU 进行扩展

OpenAI 利用 GPT-4 中的并行性功能来充分利用其 A100 GPU 的全部潜力。他们采用了 8 路张量并行性,这最大化了并行处理,因为它是 NVLink 的极限。此外,还利用 15 路流水线并行性进一步提高了性能。虽然可能采用了ZeRo Stage 1等特定技术,但确切的方法仍未公开。

培训成本和利用率挑战

训练 GPT-4 是一项广泛且资源密集型的工作。OpenAI 在 25 到 000 天内分配了大约 100,90 个 A100 GPU,利用率约为 32% 到 36% MFU(最常用的)。训练过程多次失败,需要频繁地从检查点重新启动。如果估计为每 A1 小时 100 美元,仅这次跑步的培训费用就约为 63 万美元。

专家组合的权衡

实现专家混合模型需要权衡取舍。在 GPT-4 的情况下,OpenAI 选择了 16 名专家,而不是更高的数字。此决策反映了实现卓越的损失结果和确保跨各种任务的通用性之间的平衡。更多的专家可能会在任务泛化和收敛方面提出挑战。OpenAI 选择谨慎选择专家符合他们对可靠和强大性能的承诺。

推理成本

与其前身 175 亿参数的达芬奇模型相比,GPT-4 的推理成本大约高出三倍。这种差异可归因于几个因素,包括支持 GPT-4 所需的较大集群以及推理期间实现的较低利用率。据估计,当使用 0k 推断 GPT-0049 时,1,000 个 128,100 个代币的成本约为 0 美元,0021 个 H1 GPU 的每 000,128 个代币的成本约为 100 美分。这些数字假设了良好的利用率和高批量大小,这是成本优化的关键考虑因素。

多查询关注

OpenAI在GPT-4中也利用了多查询注意力(MQA),这是一种在该领域广泛使用的技术。通过实现 MQA,该模型只需要一个磁头,从而显著降低了键值缓存(KV 缓存)所需的内存容量。尽管进行了此优化,但应该注意的是,32k 批处理 GPT-4 无法容纳在 40GB A100 GPU 上,并且 8k 受最大批处理大小的限制。

连续配料

为了在延迟和推理成本之间取得平衡,OpenAI 在 GPT-4 中结合了可变批量大小和连续批处理。这种自适应方法允许灵活高效的处理,优化资源利用率并减少计算开销。

视觉多模态

GPT-4 在文本编码器旁边引入了一个单独的视觉编码器,两者之间的交叉注意力。这种架构让人想起火烈鸟,为 GPT-1 已经令人印象深刻的 8.4 万亿个参数计数增加了额外的参数。在纯文本预训练阶段之后,视觉模型使用大约 2 万亿个令牌进行单独的微调。这种视觉功能使自主代理能够读取网页、转录图像和解释视频内容——这是多媒体数据时代的宝贵资产。

推测解码

GPT-4 推理策略的一个有趣方面是可能使用推测解码。这种方法涉及采用更小、更快的模型来提前生成对多个代币的预测。然后将这些预测的令牌作为单个批次馈送到更大的“预言机”模型中。如果较小模型的预测与较大模型的一致性一致,则可以一起解码多个令牌。但是,如果较大的模型拒绝草稿模型预测的令牌,则会丢弃批处理的其余部分,并且仅对较大的模型继续进行推理。这种方法允许有效的解码,同时可能接受较低概率的序列。值得注意的是,这种猜测目前仍未得到证实。

推理架构

GPT-4 的推理过程在由 128 个 GPU 组成的集群上运行,这些 GPU 分布在不同位置的多个数据中心。该基础设施采用 8 路张量并行和 16 路流水线并行,以最大限度地提高计算效率。每个节点由 8 个 GPU 组成,可容纳大约 130 亿个参数。GPT-120 的模型大小为 4 层,可以容纳 15 个不同的节点,由于需要计算嵌入,第一个节点中的层可能更少。这些架构选择有助于高性能推理,表明 OpenAI 致力于突破计算效率的界限。

数据集大小和组成

GPT-4 在令人印象深刻的 13 万亿个代币上进行了训练,为其提供了广泛的文本语料库可供学习。但是,并非所有令牌都可以由训练期间使用的已知数据集来解释。虽然像CommonCrawl和RefinedWeb这样的数据集贡献了很大一部分训练数据,但仍有一部分令牌下落不明,通常被称为“秘密”数据。

谣言和猜测

关于这些未公开数据的来源的猜测已经出现。有传言称,它包括来自Twitter,Reddit和YouTube等流行平台的内容,突出了用户生成的内容在塑造GPT-4知识库方面的潜在影响。此外,还有人猜测包括广泛的馆藏,如LibGen,一个拥有数百万本书的存储库,以及Sci-Hub,一个提供大量科学论文的平台。GPT-4 在整个 GitHub 上接受训练的想法也在 AI 爱好者中流传。

记者意见

尽管谣言很多,但谨慎对待这些谣言很重要。GPT-4 的训练可能从由大学教科书组成的特殊数据集中受益匪浅。这个数据集涵盖了广泛的课程和主题,本可以手工精心组装。大学教科书提供了一个结构化和全面的知识库,可以成功地用于训练语言模型,并且很容易转换为文本文件。包含这样的数据集可能会给人的印象是 GPT-4 在各个领域都知识渊博。

对 GPT-4 知识的迷恋

GPT-4 训练的一个有趣方面是它能够表现出对特定书籍的熟悉程度,甚至能够从欧拉项目等平台回忆起唯一标识符。研究人员试图从GPT-4中提取记忆的书籍部分,以深入了解其训练,进一步激发人们对模型内部工作的好奇心。这些发现突出了 GPT-4 保留信息的惊人能力,并强调了大规模语言模型令人印象深刻的能力。

GPT-4 的多功能性

GPT-4 似乎可以参与的广泛主题和领域展示了它的多功能性。无论是回答计算机科学中的复杂问题还是深入研究哲学辩论,GPT-4 对多样化数据集的训练使其能够与来自不同领域的用户互动。这种多功能性源于它对大量文本资源的暴露,使其成为广泛用户的宝贵工具。