近日,零一万物CEO、创新工场董事长李开复做客格隆汇高端访谈《格隆博士会客厅》。
李开复表示,虽然自己的大模型跟国外万亿大模型差距不远令人感到自豪,但这也是意料之中的事情。
因为其实训练大模型的过程中可以看到模型是不是在进步,所以大模型的测试是有一个可预测的结果,只是结果出来之前对外讲了没有人会信,也没有意义。
因为没有一个公开的标准来测大模型,所以LM SYS这个评测的方法是特别有意义的。
如果要测比如搜索引擎的速度、精度,或者是一个操作系统的速度,又或者向量数据库的速度,它都是一个比较客观的标准。李开复认为,做大模型主打一个用户的体验感。问题答得好不好、有没有解决疑难、有没有犯错、描述的方式是不是让人喜欢等等,这些都是很主观的因素。
至于怎么找一大批主观的人去测这些模型,LM SYS就有几个很有意思的方法论。
一个就是他们全球征召用户。例如每一位观众都可以到LM SYS去看擂台,然后每一个模型都有几万个测试者。
另一个是它是个第三方机构。每一个做大模型的公司例如Google、OpenAI、Anthropic以及国内的几家公司都是提交了模型让对方来测,然后它的数据都是公开的、透明的,可以看到自己得了多少票。
而且,它有一个“厮杀”的方式,有点类似踢足球或者打网球半决赛,为了让很强的模型跟更强的模型多做对比。它不是一轮一轮地在做,而是同时让差不多强的大模型去比赛,然后接近千万用户自愿花时间给模型投票,最后模型的得分类似于国际象棋、围棋的得分。
所以它是客观的、有效的、真实的、第三方的、基于用户的,而且它测试模型的时候是盲测的,投完票之后它才会显示是哪两个公司的模型。
更多精彩完整内容,请关注抖音/视频号:格隆博士会客厅、格隆博士。