大白话说清楚DeepSeek的蒸馏技术

  1. 蒸馏(Distillation)是什么?
  2. DeepSeek确实使用了蒸馏技术
  3. 学生模型能否超越老师模型?
  4. 说说我的看法

先说几个结论:

  1. DeepSeek模型的确使用了蒸馏技术。
  2. 蒸馏不等于抄袭。
  3. 几乎所有的模型都使用蒸馏技术。

DeepSeek火了,引发了美国经济震荡,作为中国人我很自豪。但很多人对DeepSeek有一些争议。质疑最大的就是说DeepSeek使用了蒸馏技术。做了17年程序员的我,我尽量用最简单的语言,讲清楚什么是蒸馏。

蒸馏(Distillation)是什么?

蒸馏的全称叫做知识蒸馏,英文叫做Knowledge Distillation。这个概念最早出现在2015年《Distilling the Knowledge in a Neural Network》(一篇叫做《在神经网络中的知识蒸馏》)论文里。文章里具体介绍了什么是蒸馏:教师模型通过一些技术把能力和知识,传授给学生模型的过程,叫做蒸馏。 所以蒸馏的并不是大模型架构和代码,它只是蒸馏的大模型里面包含的知识(knowledge)。所以要强调Distllation是知识蒸馏,不是整个架构的抄袭。

下面是论文的部分原文,有兴趣的可以看看。

Distilling the Knowledge in a Neural Network

我简单的做个比喻,OpenAI就好比是一项技术,ChatGPT就好比是这项技术的应用。而这项技术里边都是知识,ChatGPT耗费了很大的物力财力自学了这些知识。然后ChatGPT成了老师,DeepSeek就好比是ChatGPT的学生,它通过老师的教导,学会了这些知识。有点像老师期末考试前给我们划重点,然后学生通过老师的讲解,学会了这些重点,考试得到了很高的分数。

这个过程往好了解释,就是老师教学生,学生出息了,学生马上要青出于蓝了。

当然也可以往不好了说,再用钓鱼举个例子,OpenAI是大海,里边有很多鱼,ChatGPT就好比是钓鱼的人,它通过自己的努力,钓了很多鱼放进了自己的鱼护里。然后DeepSeek说我也钓鱼,但是从ChatGPT的与护里捞鱼,这样就给人家干急眼了。

DeepSeek确实使用了蒸馏技术

DeepSeek是开源的,这个大家都知道吧。开源的同时它还提供了详细的技术论文,文中已经说了DeepSeek R1是从Llam3和Qwen(千问)里蒸馏出了具有深度推理能力的R1开源模型。这是DeepSeek R1的蒸馏,那DeepSeek V3的蒸馏呢?其实目前OpenAI的指控也集中在V3模型上。基于现在几乎所有的模型都使用蒸馏技术,所以V3也不会例外,至于到底是不是从ChatGPT里蒸馏出来的,我们没办法确定。因为ChatGPT的模型是闭源的,对于我们完全是一个黑盒。
DeepSeek R1

学生模型能否超越老师模型?

我们先来说学生模型的损失,首先学生模型的泛化能力一定是不如教师模型的。比如作程序开发,一个做了10年的程序员,既会写手机程序,也会写电脑程序,还会嵌入式开发。而他教的一个学生,学习手机程序开发,并干了两年,他手机程序开发的能力可能和老师一样,但如果是其他的开发,他可能还要去请教老师。也就是学生模型的泛化能力是不如老师模型的。
但是学生模型是有可能超越教师模型的,比如有好几个优秀的手机端开发老师,同时教一个学生,教了三年,学生模型的手机端开发能力是有可能超越老师模型的。

说说我的看法

当我们知道了什么是蒸馏,就会对这件事有一个正确的认识。这就好比火药是中国发明的,但第一次鸦片战争,英国人用枪打开了中国的大门。我们这时候不能说火药是英国人发明的,因为火药是中国发明的。虽然OpenAI可以说是生成式AI的先驱者,但DeepSeek用更经济的方式,做出了优秀的产品。所以我们应该为DeepSeek感到自豪,而不是去指责。

虽然DeepSeek现在还是李鬼,但也许在不久的将来,李鬼就会超越李逵。


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 web0432@126.com