ChatGPT 是如何被训练出来的?一文读懂 AI 的“四阶进化”

我们每天用 ChatGPT 写文案、查资料、生成代码,但你是否好奇,它究竟是怎么“学会”这一切的?
这并不是一蹴而就的过程,而是经历了 四个关键阶段 的系统训练,才成就了如今“几乎无所不知”的 ChatGPT。

今天我们就用通俗易懂的语言,带你深入了解 ChatGPT 背后的训练全过程,让你更懂 AI,也能用得更高效。


🧠 第 1 阶段:预训练(Pretraining)

目标:让模型具备“通识知识”,看得懂语言。

这一阶段是整个训练过程中最耗时、最烧钱的部分,往往要耗费几百万美元,使用多达 3000亿个 token 的语料进行训练。

这些语料主要来自:

  • 🌐 67% 网络爬虫数据(Common Crawl):内容多样但噪声大;

  • 📚 15% 清洗过的网页文本(C4 数据集):质量较高;

  • 🧾 18% 高质量资料,如 GitHub、Wikipedia、论文、书籍等。

训练的方式很简单粗暴:“预测下一个词”。通过这种方式,大模型就能学习语言的规律与各种通识性知识。

但这也意味着:你从它口中得到的内容大概率是“平均水平的答案”。要想获得更优质的输出,你需要学会如何提问(提示词技巧,Prompt Engineering)。

此外,为了提升泛化能力,OpenAI 并非用完整单词训练,而是使用更小的 子词单元(token)。这能让模型处理新词、降低词表复杂度,还能理解词缀、词根结构。


🧑‍🏫 第 2 阶段:监督微调(Supervised Finetuning)

目标:让模型理解“你在问我什么”,并输出“像人写的”答案。

前一阶段的模型虽然知识面广,但只擅长预测词语,完全听不懂“人话”。

这时,工程师引入了一组高质量、结构化的训练数据,每组数据包含一个“人类的问题(prompt)”和一个“理想回答(response)”。

举例来说:

  • Prompt:“如何在Python中写一个排序算法?”

  • Response:“你可以尝试使用冒泡排序,代码如下……”

这些样例由人工编写,模型根据它们进行短期训练(几天即可),从而学会“如何当个助手”而不是只会说词的“复读机”。

训练完成后,模型变成了 SFT 模型(监督微调模型),如很多开源模型(Vicuna、Baichuan等)基本都是停留在这一阶段。


🏆 第 3 阶段:奖励建模(Reward Modeling)

目标:让模型知道“什么样的回答更让人满意”。

这一步非常关键,也非常独特,目前大部分开源模型都没有这一步,OpenAI 的 ChatGPT 和 Anthropic 的 Claude 是少数例外。

怎么训练呢?很有意思:

  1. 让 SFT 模型生成同一个问题的多个回答;

  2. 请人类评分员(外包团队)对这些回答排序,标出哪一条最好;

  3. 模型再学习“怎样的回答更可能得高分”。

本质上,这一步是让 AI 模型知道:“原来人类喜欢这样的答案!”
这就为下一步的“自我优化”打下基础。


🤖 第 4 阶段:强化学习(Reinforcement Learning)

目标:让模型学会“自己试错,主动优化回答”。

这是 ChatGPT 成为“ChatGPT”的关键一步!

在这一步中,模型开始像玩游戏一样学习:它会给出一个回答,然后根据“奖励模型”的评分来调整策略。它会逐步探索哪种回答风格、结构更容易赢得人类好感,并不断强化这些“成功经验”。

最终得到的就是大家正在用的 RL 模型(Reinforcement Learning Model),具备真正人类交互感的能力。


🔍 为什么只有 ChatGPT 和 Claude 能进化到第 4 阶段?

因为代价极高

  • 需要大量高质量人工评分数据;

  • 需要设计复杂的奖励机制和训练系统;

  • 需要持续的大规模计算资源支持。

但收益也是显著的 —— 从 GPT-3 到 ChatGPT 的转变,就是靠这一步完成的。
GPT-3 是个能写点东西的工具,ChatGPT 则是个能与你“交流”的智能体。


🧩 小结:四个阶段,各有使命

阶段 名称 核心任务 输出模型类型
第1阶段 预训练 通识语言建模 Base Model(如 GPT-3)
第2阶段 监督微调 理解人类提示 SFT Model(如 Vicuna)
第3阶段 奖励建模 模拟人类偏好 奖励模型(辅助训练)
第4阶段 强化学习 优化交互表现 RL Model(如 ChatGPT)

💡 给普通用户的启示:

  • ChatGPT 能回答你几乎所有问题,不是因为它天赋异禀,而是它几乎“读完了互联网”;

  • 它默认输出的是“平均答案”,你要用好提示词技巧,才能激发出“高质量内容”;

  • 现在看到的每一条优质回复,其背后都有无数人类标注者、工程师和算力成本的堆叠。


想进一步解锁 GPT-4o 或 ChatGPT Pro?我们提供【稳定代充服务】+【高阶使用技巧手册】,让你更高效使用 AI 工具,欢迎站内联系!

图片[1]-ChatGPT 是如何被训练出来的?一文读懂 AI 的“四阶进化”-订阅易

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享