ChatGPT 是如何被训练出来的？一文读懂 AI 的“四阶进化”-订阅易

我们每天用 ChatGPT 写文案、查资料、生成代码，但你是否好奇，它究竟是怎么“学会”这一切的？
这并不是一蹴而就的过程，而是经历了 四个关键阶段 的系统训练，才成就了如今“几乎无所不知”的 ChatGPT。

今天我们就用通俗易懂的语言，带你深入了解 ChatGPT 背后的训练全过程，让你更懂 AI，也能用得更高效。

🧠 第 1 阶段：预训练（Pretraining）

目标：让模型具备“通识知识”，看得懂语言。

这一阶段是整个训练过程中最耗时、最烧钱的部分，往往要耗费几百万美元，使用多达 3000亿个 token 的语料进行训练。

这些语料主要来自：

训练的方式很简单粗暴：“预测下一个词”。通过这种方式，大模型就能学习语言的规律与各种通识性知识。

但这也意味着：你从它口中得到的内容大概率是“平均水平的答案”。要想获得更优质的输出，你需要学会如何提问（提示词技巧，Prompt Engineering）。

此外，为了提升泛化能力，OpenAI 并非用完整单词训练，而是使用更小的 子词单元（token）。这能让模型处理新词、降低词表复杂度，还能理解词缀、词根结构。

目标：让模型理解“你在问我什么”，并输出“像人写的”答案。

前一阶段的模型虽然知识面广，但只擅长预测词语，完全听不懂“人话”。

这时，工程师引入了一组高质量、结构化的训练数据，每组数据包含一个“人类的问题（prompt）”和一个“理想回答（response）”。

举例来说：

这些样例由人工编写，模型根据它们进行短期训练（几天即可），从而学会“如何当个助手”而不是只会说词的“复读机”。

训练完成后，模型变成了 SFT 模型（监督微调模型），如很多开源模型（Vicuna、Baichuan等）基本都是停留在这一阶段。

目标：让模型知道“什么样的回答更让人满意”。

这一步非常关键，也非常独特，目前大部分开源模型都没有这一步，OpenAI 的 ChatGPT 和 Anthropic 的 Claude 是少数例外。

怎么训练呢？很有意思：

本质上，这一步是让 AI 模型知道：“原来人类喜欢这样的答案！”
这就为下一步的“自我优化”打下基础。

目标：让模型学会“自己试错，主动优化回答”。

这是 ChatGPT 成为“ChatGPT”的关键一步！

在这一步中，模型开始像玩游戏一样学习：它会给出一个回答，然后根据“奖励模型”的评分来调整策略。它会逐步探索哪种回答风格、结构更容易赢得人类好感，并不断强化这些“成功经验”。

最终得到的就是大家正在用的 RL 模型（Reinforcement Learning Model），具备真正人类交互感的能力。

因为代价极高！

但收益也是显著的 —— 从 GPT-3 到 ChatGPT 的转变，就是靠这一步完成的。
GPT-3 是个能写点东西的工具，ChatGPT 则是个能与你“交流”的智能体。

阶段	名称	核心任务	输出模型类型
第1阶段	预训练	通识语言建模	Base Model（如 GPT-3）
第2阶段	监督微调	理解人类提示	SFT Model（如 Vicuna）
第3阶段	奖励建模	模拟人类偏好	奖励模型（辅助训练）
第4阶段	强化学习	优化交互表现	RL Model（如 ChatGPT）