都大学了，小学系统才来？第424节

　　从理论上来说。

　　梯度版NDP应该更有优势才对。

　　毕竟梯度下降是深度学习的标准优化方法。

　　样本效率更高，收敛速度也更快，但实际测试结果却恰恰相反。

　　虽然两个混合框架展现的效果都能达到其他7B参数开源模型的效果。

　　但是进化版NDP与YanHai-1.5B混合框架的整体性能，比梯度版NDP与YanHai-1.5B混合框架强了15%到20%。

　　这个差距不算小了。

　　沈妍开口了。

　　“我有一个猜测。“

　　她的声音不大，但依旧清晰悦耳，好像冰块撞击的声音。

　　众人都看向她。

　　沈妍继续说道：

　　“可能是因为NDP与YanHai-1.5B混合框架的网络结构生成过程，并不是每一步都是可微的。“

　　陈林转过头看向她，眼神里带着鼓励。

　　沈妍被他看得有些不好意思，但还是继续说了下去。

　　“梯度下降版NDP，本质上是把网络结构的生成转化为一个连续空间的优化问题。它假设每一步操作都是可微的，这样才能用反向传播来计算梯度。“

　　她顿了顿，组织了一下语言。

　　“但实际上，NDP的发育过程涉及到很多离散操作。比如节点的复制、边的剪枝......这些操作本质上是不可微的。“

　　白迁若有所思地点了点头。

　　“所以梯度版在处理这些离散操作的时候会遇到困难？“

　　“没错。“

　　沈妍说。

　　“为了让这些操作'可微化'，我们在实现的时候用了一些近似方法。比如用Gumbel-Softmax来近似离散采样，用straight-through estimator来处理不可微的阈值函数......“

　　她看着屏幕上的数据。

　　“但这些近似方法会引入误差，影响最终的效果。“

　　潘思接过话头。

　　“而进化版NDP就没有这个问题。CMA-ES是一种黑盒优化方法，不要求目标函数可微。所以它可以直接处理那些离散操作，不需要做任何近似。“

　　陈林明白了。

　　这就解释了为什么进化版的表现会更好。

　　他在心里给沈妍点了个赞。

　　分析得很到位。

　　“还有一点。“

　　沈妍补充道。

　　“进化版NDP的参数量是恒定的。无论最终生成的神经网络规模多大，NDP自身只需要三个小型MLP的权重。这实现了极高的信息压缩比。“

　　她看向陈林。

　　“从某种意义上来说，进化版NDP更接近生物的基因编码方式。用少量的'遗传信息'，编码出复杂的'生长规则'。“

　　陈林听完，陷入了沉思。

　　沈妍的分析很有道理。

　　从数学角度来说，梯度下降虽然是深度学习的主流优化方法。

　　但它有一个隐含的假设：

　　目标函数必须是可微的。

　　而NDP的发育过程包含大量的离散操作。

　　天然不满足这个假设。

　　强行使用梯度下降，就需要引入各种近似和放松。

　　这会损失一部分性能。

　　而进化策略（CMA-ES）则没有这个限制。

　　它把整个优化过程当作一个黑盒。

　　只关心输入输出。

　　不关心中间的具体操作。

　　这种“黑盒“的特性。

　　恰恰适合NDP这种包含大量离散操作的场景。

　　“好。“

　　陈林做出了决定。

　　“就用进化版NDP。“

　　他看向白迁和潘思。

　　“接下来，把进化版NDP和YanHai-30B进行融合。然后放到津门超算中心的集群上训练。“

　　白迁点了点头。

　　“没问题。融合的工作量不大，毕竟YanHai-30B和YanHai-1.5B的架构是一样的，只是参数量不同。“

　　潘思估算了一下。

　　“大概两三天就能完成。“

　　陈林点头。

　　“那就定下来了。争取周五下班前开始正式训练。“

第三百一十三章搬家

　　4月3日。

　　周五。

　　演海公司办公室。

　　阳光透过窗户洒进来，照在白迁和潘思的工位上。

　　两人正在专注地敲代码。

　　进化版NDP与YanHai-30B的融合工作进入了最后阶段。

　　正如白迁之前说的，这部分的工作量确实不大。

　　核心代码已经在和YanHai-1.5B融合的时候写好了。

　　现在要做的，只是把参数和接口调整一下。

　　适配YanHai-30B的规模。

　　“这个地方的batch size要改一下。“

　　白迁指着屏幕上的某一行代码说。

　　“YanHai-30B的参数量是YanHai-1.5B的20倍。如果还用原来的batch size，显存肯定会爆。“

　　潘思点了点头。

　　“我知道。已经改好了。“

　　他把代码提交到仓库。

　　“对了，learning rate也需要调整。大模型的学习率一般要设得更小一些。“

　　白迁“嗯“了一声。

　　“我来处理这个。“

　　两人配合默契，效率拉满。

　　与此同时。

　　陈林坐在自己的工位上。

　　拿起手机。

　　拨通了一个号码。

　　“喂，孟总工？“

　　电话那头传来孟敬辉爽朗的声音。

　　“哟，陈教授啊！什么事？“

　　“是这样的。“

　　陈林说：

　　“我们公司最近有一个新项目，需要用到超算中心的GPU集群。“

　　“想预约一下使用时间。“

　　孟敬辉“哦“了一声。

　　“什么项目？跟上次的YanHai-30B有关吗？“

　　“算是升级版吧。“

　　陈林解释道：

　　“我们研发了一套新的算法框架，叫神经发育程序。“

　　“现在要和YanHai-30B进行融合训练。“

上一篇：我在华娱当导演，宠坏天仙白月光

下一篇：返回列表

都大学了，小学系统才来？ 第424节

推荐阅读

都大学了，小学系统才来？第424节