DeepSeek新模型大揭秘，为何它能震动全球AI圈

Recorded Date: 2025-01-22T02:38:53.696Z

Tags: Tech/Prog/Ai

Source: here

DeepSeek团队在R1的训练过程中，直接一次性实验了三种截然不同的技术路径：直接强化学习训练（R1-Zero）、多阶段渐进训练（R1）和模型蒸馏，还都成功了。多阶段渐进训练方法和模型蒸馏都包含着很多创新意义元素，对行业有着重要影响。

更重要的是，R1-Zero不仅是在模仿思考，而是真正发展出了某种形式的推理能力。

因为在过往的训练方法中，尤其在监督微调中使用训练好的神经网络来评估质量的话，模型可能学会触发奖励模型的特定模式，生成对奖励模型"口味"的内容，而不是真正提升推理能力。换句话说，AI系统找到了获得高奖励但实际上违背训练目标的投机取巧方式。这就是我们常说的奖励欺骗（reward hacking）。但R1-Zero用极简的奖励规则基本避免了奖励欺骗的可能性——规则太简单了，没有什么“口味”可以去模仿。模型在这个情况下发展出的推理能力更可信，也更自然。

这个发现可能会改变我们对机器学习的认识：传统的AI训练方法可能一直在重复一个根本性的错误，我们太专注于让AI模仿人类的思维方式了，业界需要重新思考监督学习在AI发展中的角色。通过纯粹的强化学习，AI系统似乎能够发展出更原生的问题解决能力，而不是被限制在预设的解决方案框架内。

虽然R1-Zero在输出可读性上存在明显缺陷，但这个"缺陷"本身可能恰恰印证了其思维方式的独特性。就像一个天才儿童发明了自己的解题方法，却难以用常规语言解释一样。这提示我们：真正的通用人工智能可能需要完全不同于人类的认知方式。

这才是真正的强化学习。就像著名教育家皮亚杰的理论：真正的理解来自于主动建构，而不是被动接受。

Quck comment:

AI leap using the simpler reinforcement learning to train the model; this can be AGI implementation; so unbelievable that china can figure this way out; this moment is strong signal... Usually china people seldom do the zero to 1, but when someone show them a 1, they can make 1 to many many and many...

Quck tags:

__test, __hand_input, ai, deepseek, reinforcement_learning

Preview?: false

My Post meta: {"params keys":["id"]}

My Post details: 149

{
    "data": {
        "id": 149,
        "attributes": {
            "title": "DeepSeek新模型大揭秘，为何它能震动全球AI圈",
            "url": "https://wallstreetcn.com/articles/3739862",
            "dateHappened": "2025-01-22T02:38:53.696Z",
            "content": [
                {
                    "type": "paragraph",
                    "children": [
                        {
                            "text": "DeepSeek团队在R1的训练过程中，直接一次性实验了三种截然不同的技术路径：直接强化学习训练（R1-Zero）、多阶段渐进训练（R1）和模型蒸馏，还都成功了。多阶段渐进训练方法和模型蒸馏都包含着很多创新意义元素，对行业有着重要影响。\n\n更重要的是，R1-Zero不仅是在模仿思考，而是真正发展出了某种形式的推理能力。\n\n因为在过往的训练方法中，尤其在监督微调中使用训练好的神经网络来评估质量的话，模型可能学会触发奖励模型的特定模式，生成对奖励模型\"口味\"的内容，而不是真正提升推理能力。换句话说，AI系统找到了获得高奖励但实际上违背训练目标的投机取巧方式。这就是我们常说的奖励欺骗（reward hacking）。但R1-Zero用极简的奖励规则基本避免了奖励欺骗的可能性——规则太简单了，没有什么“口味”可以去模仿。模型在这个情况下发展出的推理能力更可信，也更自然。\n\n这个发现可能会改变我们对机器学习的认识：传统的AI训练方法可能一直在重复一个根本性的错误，我们太专注于让AI模仿人类的思维方式了，业界需要重新思考监督学习在AI发展中的角色。通过纯粹的强化学习，AI系统似乎能够发展出更原生的问题解决能力，而不是被限制在预设的解决方案框架内。\n\n虽然R1-Zero在输出可读性上存在明显缺陷，但这个\"缺陷\"本身可能恰恰印证了其思维方式的独特性。就像一个天才儿童发明了自己的解题方法，却难以用常规语言解释一样。这提示我们：真正的通用人工智能可能需要完全不同于人类的认知方式。\n\n这才是真正的强化学习。就像著名教育家皮亚杰的理论：真正的理解来自于主动建构，而不是被动接受。",
                            "type": "text"
                        }
                    ]
                }
            ],
            "meta": {
                "quckTag": "__test, __hand_input, ai, deepseek, reinforcement_learning",
                "quckComment": "AI leap using the simpler reinforcement learning to train the model; this can be AGI implementation; so unbelievable that china can figure this way out; this moment is strong signal...\n\nUsually china people seldom do the zero to 1, but when someone show them a 1, they can make 1 to many many and many..."
            },
            "public": false,
            "createdAt": "2025-01-24T01:46:53.277Z",
            "updatedAt": "2025-01-24T01:46:55.633Z",
            "publishedAt": "2025-01-24T01:46:51.702Z",
            "locale": "zh-Hant-HK",
            "tags": {
                "data": [
                    {
                        "id": 2,
                        "attributes": {
                            "name": "Tech/Prog/Ai",
                            "count": null,
                            "description": "AI, LLM, GPT... etc",
                            "createdAt": "2024-08-08T01:34:23.789Z",
                            "updatedAt": "2024-08-08T01:34:23.789Z",
                            "publishedAt": "2024-08-08T01:37:20.049Z",
                            "locale": "zh-Hant-HK"
                        }
                    }
                ]
            }
        }
    },
    "meta": {}
}

DeepSeek新模型大揭秘，为何它能震动全球AI圈

Sidebar