首页 > 都市言情 > 都大学了,小学系统才来?

都大学了,小学系统才来? 第424节

  从理论上来说。

  梯度版NDP应该更有优势才对。

  毕竟梯度下降是深度学习的标准优化方法。

  样本效率更高,收敛速度也更快,但实际测试结果却恰恰相反。

  虽然两个混合框架展现的效果都能达到其他7B参数开源模型的效果。

  但是进化版NDP与YanHai-1.5B混合框架的整体性能,比梯度版NDP与YanHai-1.5B混合框架强了15%到20%。

  这个差距不算小了。

  沈妍开口了。

  “我有一个猜测。“

  她的声音不大,但依旧清晰悦耳,好像冰块撞击的声音。

  众人都看向她。

  沈妍继续说道:

  “可能是因为NDP与YanHai-1.5B混合框架的网络结构生成过程,并不是每一步都是可微的。“

  陈林转过头看向她,眼神里带着鼓励。

  沈妍被他看得有些不好意思,但还是继续说了下去。

  “梯度下降版NDP,本质上是把网络结构的生成转化为一个连续空间的优化问题。它假设每一步操作都是可微的,这样才能用反向传播来计算梯度。“

  她顿了顿,组织了一下语言。

  “但实际上,NDP的发育过程涉及到很多离散操作。比如节点的复制、边的剪枝......这些操作本质上是不可微的。“

  白迁若有所思地点了点头。

  “所以梯度版在处理这些离散操作的时候会遇到困难?“

  “没错。“

  沈妍说。

  “为了让这些操作'可微化',我们在实现的时候用了一些近似方法。比如用Gumbel-Softmax来近似离散采样,用straight-through estimator来处理不可微的阈值函数......“

  她看着屏幕上的数据。

  “但这些近似方法会引入误差,影响最终的效果。“

  潘思接过话头。

  “而进化版NDP就没有这个问题。CMA-ES是一种黑盒优化方法,不要求目标函数可微。所以它可以直接处理那些离散操作,不需要做任何近似。“

  陈林明白了。

  这就解释了为什么进化版的表现会更好。

  他在心里给沈妍点了个赞。

  分析得很到位。

  “还有一点。“

  沈妍补充道。

  “进化版NDP的参数量是恒定的。无论最终生成的神经网络规模多大,NDP自身只需要三个小型MLP的权重。这实现了极高的信息压缩比。“

  她看向陈林。

  “从某种意义上来说,进化版NDP更接近生物的基因编码方式。用少量的'遗传信息',编码出复杂的'生长规则'。“

  陈林听完,陷入了沉思。

  沈妍的分析很有道理。

  从数学角度来说,梯度下降虽然是深度学习的主流优化方法。

  但它有一个隐含的假设:

  目标函数必须是可微的。

  而NDP的发育过程包含大量的离散操作。

  天然不满足这个假设。

  强行使用梯度下降,就需要引入各种近似和放松。

  这会损失一部分性能。

  而进化策略(CMA-ES)则没有这个限制。

  它把整个优化过程当作一个黑盒。

  只关心输入输出。

  不关心中间的具体操作。

  这种“黑盒“的特性。

  恰恰适合NDP这种包含大量离散操作的场景。

  “好。“

  陈林做出了决定。

  “就用进化版NDP。“

  他看向白迁和潘思。

  “接下来,把进化版NDP和YanHai-30B进行融合。然后放到津门超算中心的集群上训练。“

  白迁点了点头。

  “没问题。融合的工作量不大,毕竟YanHai-30B和YanHai-1.5B的架构是一样的,只是参数量不同。“

  潘思估算了一下。

  “大概两三天就能完成。“

  陈林点头。

  “那就定下来了。争取周五下班前开始正式训练。“

第三百一十三章 搬家

  4月3日。

  周五。

  演海公司办公室。

  阳光透过窗户洒进来,照在白迁和潘思的工位上。

  两人正在专注地敲代码。

  进化版NDP与YanHai-30B的融合工作进入了最后阶段。

  正如白迁之前说的,这部分的工作量确实不大。

  核心代码已经在和YanHai-1.5B融合的时候写好了。

  现在要做的,只是把参数和接口调整一下。

  适配YanHai-30B的规模。

  “这个地方的batch size要改一下。“

  白迁指着屏幕上的某一行代码说。

  “YanHai-30B的参数量是YanHai-1.5B的20倍。如果还用原来的batch size,显存肯定会爆。“

  潘思点了点头。

  “我知道。已经改好了。“

  他把代码提交到仓库。

  “对了,learning rate也需要调整。大模型的学习率一般要设得更小一些。“

  白迁“嗯“了一声。

  “我来处理这个。“

  两人配合默契,效率拉满。

  与此同时。

  陈林坐在自己的工位上。

  拿起手机。

  拨通了一个号码。

  “喂,孟总工?“

  电话那头传来孟敬辉爽朗的声音。

  “哟,陈教授啊!什么事?“

  “是这样的。“

  陈林说:

  “我们公司最近有一个新项目,需要用到超算中心的GPU集群。“

  “想预约一下使用时间。“

  孟敬辉“哦“了一声。

  “什么项目?跟上次的YanHai-30B有关吗?“

  “算是升级版吧。“

  陈林解释道:

  “我们研发了一套新的算法框架,叫神经发育程序。“

  “现在要和YanHai-30B进行融合训练。“

首节 上一节 424/463下一节 尾节 目录

上一篇:我在华娱当导演,宠坏天仙白月光

下一篇:返回列表

推荐阅读