都大学了，小学系统才来？第395节

　　有算力在手，做大模型的门槛就低很多。

　　别人要为GPU发愁。

　　超算中心直接躺在算力堆上。

　　想怎么玩就怎么玩。

　　“试试看吧。“

　　他说：

　　“反正免费的。“

　　“不用白不用。“

　　“好！“

　　李羽桐应了一声。

　　开始按照文档接入YH-30B的API。

　　操作很简单。

　　几分钟就搞定了。

　　“接好了。“

　　李羽桐说：

　　“师兄，用什么任务测试？“

　　甄逸飞想了想。

　　“用我那个知识推理的benchmark吧。“

　　他说：

　　“正好手边有现成的数据。“

　　这个benchmark是甄逸飞自己搭建的。

　　专门用来测试大模型的知识推理能力。

　　包含了逻辑推理、数学计算、常识推理等多个子任务。

　　难度不低。

　　很多开源模型在这个benchmark上的表现都不太理想。

　　甄逸飞自己测过很多次了。

　　对各种模型的表现心里都有数。

　　Qwen-32B大概能到71%左右。

　　DS-33B稍微差一点，70%不到。

　　Llama-30B就更拉了，65%左右。

　　这已经是同等参数量级下最好的开源模型了。

　　李羽桐点了点头。

　　开始跑测试。

　　甄逸飞继续看自己的论文。

　　嗯......

　　还是看不下去。

　　他索性开始刷手机。

　　反正等结果也要一段时间。

　　摸鱼摸得理直气壮。

　　大约过了半个小时。

　　“师兄！“

　　李羽桐的声音突然提高了八度。

　　甄逸飞吓了一跳。

　　手机差点掉地上。

　　“怎么了？“

　　他赶紧把手机收起来。

　　假装自己一直在认真工作。

　　李羽桐没注意到他的小动作。

　　她指着屏幕。

　　脸上的表情有些古怪。

　　像是看到了什么不可思议的东西。

　　“你看这个......“

　　甄逸飞凑过去。

　　看着屏幕上的测试结果。

　　然后他愣住了。

　　彻底愣住了。

　　YH-30B在知识推理benchmark上的得分是——

　　78.4%。

　　这个数字意味着什么？

　　甄逸飞太清楚了。

　　他之前用同样的benchmark测试过很多模型。

　　Qwen-32B的得分是71.2%。

　　DS-33B的得分是69.8%。

　　Llama-30B的得分是65.3%。

　　这些都是同等参数量级下最好的开源模型了。

　　业内公认的第一梯队。

　　而这个YH-30B......

　　78.4%？

　　直接碾压了所有同级别选手？

　　领先了七八个百分点？

　　“不会吧......“

　　甄逸飞喃喃道。

　　他揉了揉眼睛。

　　确认自己没有看错。

　　78.4%。

　　白纸黑字。

　　清清楚楚。

　　“再跑一遍。“

　　他说：

　　“可能是数据波动。“

　　李羽桐点了点头。

　　重新跑了一遍测试。

　　两个人都盯着屏幕。

　　大气都不敢出。

　　结果出来了。

　　78.6%。

　　比刚才还高了0.2个百分点。

　　甄逸飞沉默了。

　　这不是波动。

　　这是真实的。

　　真实到有点吓人的程度。

　　“我再换几个子任务单独测一下。“

　　他说着，自己动手操作起来。

　　接下来的一个小时。

　　甄逸飞用不同的子任务对YH-30B进行了详细测试。

　　每测一个。

　　他的脸色就变一分。

　　逻辑推理：比Qwen-32B高9个百分点。

　　数学计算：比DS-33B高12个百分点。

　　常识推理：比Llama-30B高8个百分点。

上一篇：我在华娱当导演，宠坏天仙白月光

下一篇：返回列表

都大学了，小学系统才来？ 第395节

推荐阅读

都大学了，小学系统才来？第395节