都大学了,小学系统才来? 第395节
有算力在手,做大模型的门槛就低很多。
别人要为GPU发愁。
超算中心直接躺在算力堆上。
想怎么玩就怎么玩。
“试试看吧。“
他说:
“反正免费的。“
“不用白不用。“
“好!“
李羽桐应了一声。
开始按照文档接入YH-30B的API。
操作很简单。
几分钟就搞定了。
“接好了。“
李羽桐说:
“师兄,用什么任务测试?“
甄逸飞想了想。
“用我那个知识推理的benchmark吧。“
他说:
“正好手边有现成的数据。“
这个benchmark是甄逸飞自己搭建的。
专门用来测试大模型的知识推理能力。
包含了逻辑推理、数学计算、常识推理等多个子任务。
难度不低。
很多开源模型在这个benchmark上的表现都不太理想。
甄逸飞自己测过很多次了。
对各种模型的表现心里都有数。
Qwen-32B大概能到71%左右。
DS-33B稍微差一点,70%不到。
Llama-30B就更拉了,65%左右。
这已经是同等参数量级下最好的开源模型了。
李羽桐点了点头。
开始跑测试。
甄逸飞继续看自己的论文。
嗯......
还是看不下去。
他索性开始刷手机。
反正等结果也要一段时间。
摸鱼摸得理直气壮。
大约过了半个小时。
“师兄!“
李羽桐的声音突然提高了八度。
甄逸飞吓了一跳。
手机差点掉地上。
“怎么了?“
他赶紧把手机收起来。
假装自己一直在认真工作。
李羽桐没注意到他的小动作。
她指着屏幕。
脸上的表情有些古怪。
像是看到了什么不可思议的东西。
“你看这个......“
甄逸飞凑过去。
看着屏幕上的测试结果。
然后他愣住了。
彻底愣住了。
YH-30B在知识推理benchmark上的得分是——
78.4%。
这个数字意味着什么?
甄逸飞太清楚了。
他之前用同样的benchmark测试过很多模型。
Qwen-32B的得分是71.2%。
DS-33B的得分是69.8%。
Llama-30B的得分是65.3%。
这些都是同等参数量级下最好的开源模型了。
业内公认的第一梯队。
而这个YH-30B......
78.4%?
直接碾压了所有同级别选手?
领先了七八个百分点?
“不会吧......“
甄逸飞喃喃道。
他揉了揉眼睛。
确认自己没有看错。
78.4%。
白纸黑字。
清清楚楚。
“再跑一遍。“
他说:
“可能是数据波动。“
李羽桐点了点头。
重新跑了一遍测试。
两个人都盯着屏幕。
大气都不敢出。
结果出来了。
78.6%。
比刚才还高了0.2个百分点。
甄逸飞沉默了。
这不是波动。
这是真实的。
真实到有点吓人的程度。
“我再换几个子任务单独测一下。“
他说着,自己动手操作起来。
接下来的一个小时。
甄逸飞用不同的子任务对YH-30B进行了详细测试。
每测一个。
他的脸色就变一分。
逻辑推理:比Qwen-32B高9个百分点。
数学计算:比DS-33B高12个百分点。
常识推理:比Llama-30B高8个百分点。
上一篇:我在华娱当导演,宠坏天仙白月光
下一篇:返回列表
