都大学了,小学系统才来? 第424节
从理论上来说。
梯度版NDP应该更有优势才对。
毕竟梯度下降是深度学习的标准优化方法。
样本效率更高,收敛速度也更快,但实际测试结果却恰恰相反。
虽然两个混合框架展现的效果都能达到其他7B参数开源模型的效果。
但是进化版NDP与YanHai-1.5B混合框架的整体性能,比梯度版NDP与YanHai-1.5B混合框架强了15%到20%。
这个差距不算小了。
沈妍开口了。
“我有一个猜测。“
她的声音不大,但依旧清晰悦耳,好像冰块撞击的声音。
众人都看向她。
沈妍继续说道:
“可能是因为NDP与YanHai-1.5B混合框架的网络结构生成过程,并不是每一步都是可微的。“
陈林转过头看向她,眼神里带着鼓励。
沈妍被他看得有些不好意思,但还是继续说了下去。
“梯度下降版NDP,本质上是把网络结构的生成转化为一个连续空间的优化问题。它假设每一步操作都是可微的,这样才能用反向传播来计算梯度。“
她顿了顿,组织了一下语言。
“但实际上,NDP的发育过程涉及到很多离散操作。比如节点的复制、边的剪枝......这些操作本质上是不可微的。“
白迁若有所思地点了点头。
“所以梯度版在处理这些离散操作的时候会遇到困难?“
“没错。“
沈妍说。
“为了让这些操作'可微化',我们在实现的时候用了一些近似方法。比如用Gumbel-Softmax来近似离散采样,用straight-through estimator来处理不可微的阈值函数......“
她看着屏幕上的数据。
“但这些近似方法会引入误差,影响最终的效果。“
潘思接过话头。
“而进化版NDP就没有这个问题。CMA-ES是一种黑盒优化方法,不要求目标函数可微。所以它可以直接处理那些离散操作,不需要做任何近似。“
陈林明白了。
这就解释了为什么进化版的表现会更好。
他在心里给沈妍点了个赞。
分析得很到位。
“还有一点。“
沈妍补充道。
“进化版NDP的参数量是恒定的。无论最终生成的神经网络规模多大,NDP自身只需要三个小型MLP的权重。这实现了极高的信息压缩比。“
她看向陈林。
“从某种意义上来说,进化版NDP更接近生物的基因编码方式。用少量的'遗传信息',编码出复杂的'生长规则'。“
陈林听完,陷入了沉思。
沈妍的分析很有道理。
从数学角度来说,梯度下降虽然是深度学习的主流优化方法。
但它有一个隐含的假设:
目标函数必须是可微的。
而NDP的发育过程包含大量的离散操作。
天然不满足这个假设。
强行使用梯度下降,就需要引入各种近似和放松。
这会损失一部分性能。
而进化策略(CMA-ES)则没有这个限制。
它把整个优化过程当作一个黑盒。
只关心输入输出。
不关心中间的具体操作。
这种“黑盒“的特性。
恰恰适合NDP这种包含大量离散操作的场景。
“好。“
陈林做出了决定。
“就用进化版NDP。“
他看向白迁和潘思。
“接下来,把进化版NDP和YanHai-30B进行融合。然后放到津门超算中心的集群上训练。“
白迁点了点头。
“没问题。融合的工作量不大,毕竟YanHai-30B和YanHai-1.5B的架构是一样的,只是参数量不同。“
潘思估算了一下。
“大概两三天就能完成。“
陈林点头。
“那就定下来了。争取周五下班前开始正式训练。“
第三百一十三章 搬家
4月3日。
周五。
演海公司办公室。
阳光透过窗户洒进来,照在白迁和潘思的工位上。
两人正在专注地敲代码。
进化版NDP与YanHai-30B的融合工作进入了最后阶段。
正如白迁之前说的,这部分的工作量确实不大。
核心代码已经在和YanHai-1.5B融合的时候写好了。
现在要做的,只是把参数和接口调整一下。
适配YanHai-30B的规模。
“这个地方的batch size要改一下。“
白迁指着屏幕上的某一行代码说。
“YanHai-30B的参数量是YanHai-1.5B的20倍。如果还用原来的batch size,显存肯定会爆。“
潘思点了点头。
“我知道。已经改好了。“
他把代码提交到仓库。
“对了,learning rate也需要调整。大模型的学习率一般要设得更小一些。“
白迁“嗯“了一声。
“我来处理这个。“
两人配合默契,效率拉满。
与此同时。
陈林坐在自己的工位上。
拿起手机。
拨通了一个号码。
“喂,孟总工?“
电话那头传来孟敬辉爽朗的声音。
“哟,陈教授啊!什么事?“
“是这样的。“
陈林说:
“我们公司最近有一个新项目,需要用到超算中心的GPU集群。“
“想预约一下使用时间。“
孟敬辉“哦“了一声。
“什么项目?跟上次的YanHai-30B有关吗?“
“算是升级版吧。“
陈林解释道:
“我们研发了一套新的算法框架,叫神经发育程序。“
“现在要和YanHai-30B进行融合训练。“
上一篇:我在华娱当导演,宠坏天仙白月光
下一篇:返回列表
