我们每天用 ChatGPT 写文案、查资料、生成代码,但你是否好奇,它究竟是怎么“学会”这一切的?
这并不是一蹴而就的过程,而是经历了 四个关键阶段 的系统训练,才成就了如今“几乎无所不知”的 ChatGPT。
今天我们就用通俗易懂的语言,带你深入了解 ChatGPT 背后的训练全过程,让你更懂 AI,也能用得更高效。
🧠 第 1 阶段:预训练(Pretraining)
目标:让模型具备“通识知识”,看得懂语言。
这一阶段是整个训练过程中最耗时、最烧钱的部分,往往要耗费几百万美元,使用多达 3000亿个 token 的语料进行训练。
这些语料主要来自:
-
🌐 67% 网络爬虫数据(Common Crawl):内容多样但噪声大;
-
📚 15% 清洗过的网页文本(C4 数据集):质量较高;
-
🧾 18% 高质量资料,如 GitHub、Wikipedia、论文、书籍等。
训练的方式很简单粗暴:“预测下一个词”。通过这种方式,大模型就能学习语言的规律与各种通识性知识。
但这也意味着:你从它口中得到的内容大概率是“平均水平的答案”。要想获得更优质的输出,你需要学会如何提问(提示词技巧,Prompt Engineering)。
此外,为了提升泛化能力,OpenAI 并非用完整单词训练,而是使用更小的 子词单元(token)。这能让模型处理新词、降低词表复杂度,还能理解词缀、词根结构。
🧑🏫 第 2 阶段:监督微调(Supervised Finetuning)
目标:让模型理解“你在问我什么”,并输出“像人写的”答案。
前一阶段的模型虽然知识面广,但只擅长预测词语,完全听不懂“人话”。
这时,工程师引入了一组高质量、结构化的训练数据,每组数据包含一个“人类的问题(prompt)”和一个“理想回答(response)”。
举例来说:
-
Prompt:“如何在Python中写一个排序算法?”
-
Response:“你可以尝试使用冒泡排序,代码如下……”
这些样例由人工编写,模型根据它们进行短期训练(几天即可),从而学会“如何当个助手”而不是只会说词的“复读机”。
训练完成后,模型变成了 SFT 模型(监督微调模型),如很多开源模型(Vicuna、Baichuan等)基本都是停留在这一阶段。
🏆 第 3 阶段:奖励建模(Reward Modeling)
目标:让模型知道“什么样的回答更让人满意”。
这一步非常关键,也非常独特,目前大部分开源模型都没有这一步,OpenAI 的 ChatGPT 和 Anthropic 的 Claude 是少数例外。
怎么训练呢?很有意思:
-
让 SFT 模型生成同一个问题的多个回答;
-
请人类评分员(外包团队)对这些回答排序,标出哪一条最好;
-
模型再学习“怎样的回答更可能得高分”。
本质上,这一步是让 AI 模型知道:“原来人类喜欢这样的答案!”
这就为下一步的“自我优化”打下基础。
🤖 第 4 阶段:强化学习(Reinforcement Learning)
目标:让模型学会“自己试错,主动优化回答”。
这是 ChatGPT 成为“ChatGPT”的关键一步!
在这一步中,模型开始像玩游戏一样学习:它会给出一个回答,然后根据“奖励模型”的评分来调整策略。它会逐步探索哪种回答风格、结构更容易赢得人类好感,并不断强化这些“成功经验”。
最终得到的就是大家正在用的 RL 模型(Reinforcement Learning Model),具备真正人类交互感的能力。
🔍 为什么只有 ChatGPT 和 Claude 能进化到第 4 阶段?
因为代价极高!
-
需要大量高质量人工评分数据;
-
需要设计复杂的奖励机制和训练系统;
-
需要持续的大规模计算资源支持。
但收益也是显著的 —— 从 GPT-3 到 ChatGPT 的转变,就是靠这一步完成的。
GPT-3 是个能写点东西的工具,ChatGPT 则是个能与你“交流”的智能体。
🧩 小结:四个阶段,各有使命
阶段 | 名称 | 核心任务 | 输出模型类型 |
---|---|---|---|
第1阶段 | 预训练 | 通识语言建模 | Base Model(如 GPT-3) |
第2阶段 | 监督微调 | 理解人类提示 | SFT Model(如 Vicuna) |
第3阶段 | 奖励建模 | 模拟人类偏好 | 奖励模型(辅助训练) |
第4阶段 | 强化学习 | 优化交互表现 | RL Model(如 ChatGPT) |
💡 给普通用户的启示:
-
ChatGPT 能回答你几乎所有问题,不是因为它天赋异禀,而是它几乎“读完了互联网”;
-
它默认输出的是“平均答案”,你要用好提示词技巧,才能激发出“高质量内容”;
-
现在看到的每一条优质回复,其背后都有无数人类标注者、工程师和算力成本的堆叠。
想进一步解锁 GPT-4o 或 ChatGPT Pro?我们提供【稳定代充服务】+【高阶使用技巧手册】,让你更高效使用 AI 工具,欢迎站内联系!