第二百五十章 硅谷的晚上 路大头
晚上十点了,瑞恩还坐在办公室里。
透过透明玻璃墙看出去,外面的办公区也灯火通明,一个个研究员、程序员、产品经理以及市场团队成员坐在自己工位上,都在加班。
一般这个时间,所有的人都下班了,但是今天不一般。
今天上午,nexai刚刚完成了一场本该载入公司历史的发布会。
过去大半年秘密训练的金星模型发布,榜单登顶,实现ats智能体的工程能力飞跃,再加上严格的访问限制公布。
这本来应该成为媒体这一星期的头条。
然而,仅仅两个小时之后,openai发布了gpt-v和gpt-voni。
nexai的金星模型发布会变成了笑话。
这样突如其来的打击,让每一个员工都像被人在脸上狠狠得抽了一个耳光。没人愿意走,也没人真的能静下心来工作。所有人都憋着一股劲,想把今天丢掉的脸找回来。
收回目光,瑞恩伸出手揉了揉自己的太阳穴,整个人往椅背上靠了一下。
然后他又强打精神,直起身来,在电脑上打开了一个新的网页。这是一个第三方大模型能力测评的聚合网站。
瑞恩也说不出为什么想再看一次。
从金星发布之后,他已经看了好几次了。有短暂的两个小时,金星排在榜首,但是之后就一直是第二名,排在第一名的是那个刺眼的名字——gpt-v。
还是第二名……
瑞恩又扫了一眼榜单,突然觉得不对。
金星不是第二名。
第二名是gpt-v。
那第一名是谁?
瑞恩看着那个陌生的名字,tangyuan-09。
然后他的目光向下移动,看向了榜单下面一点的另一个名字,kunyuan-10。
看到这一幕,瑞恩觉得荒谬可笑。
不是,这些中国公司在搞什么鬼?
搞这些过拟合刷榜有意思吗?
瑞恩太清楚这个套路了。这些榜单的评测集是公开的,只要把训练数据和评测题混在一起,分数自然就上去了,这叫数据污染。
行业里人人都知道,但没人敢干,因为干了就是把自己的信誉扔进垃圾桶里了。nexai做了这么多代模型,老老实实的把真实能力冲上第一,为什么?就是因为一个新公司就算通过微调能刷到榜单第一也没有任何意义,没有人会信的。这就好像,如果你是世界首富,即使你买的是地摊上的假货奢侈品,别人也都会认为是真的。而如果你只是个领着微薄薪水的上班族,即使你花一年的工资买一个真的路易斯威登,别人也只会以为是假的。
在这个行业,有时候名声比成绩重要。
实打实的例子就在眼前,上一个在榜单上作假的,是中国公司在月初发布的kunyuan,后来实测一出来,虚高的分数当场就穿帮了。
瑞恩皱着眉头看着屏幕,这又是哪家愣头青创业公司,连这个规矩都不懂吗?
然后他转念一想,这也不一定是坏事。现在霸占着榜单第一的是openai的gpt-v,这种事情让山姆去头疼吧。
opena
章节内容不完整,请退出阅读模式查看完整内容!