李开复：LM SYS测试展现强者对决，差距缩小在预料之中

发布时间： 2024-06-14

近日，零一万物CEO、创新工场董事长李开复做客格隆汇高端访谈《格隆博士会客厅》。

李开复表示，虽然自己的大模型跟国外万亿大模型差距不远令人感到自豪，但这也是意料之中的事情。

因为其实训练大模型的过程中可以看到模型是不是在进步，所以大模型的测试是有一个可预测的结果，只是结果出来之前对外讲了没有人会信，也没有意义。

因为没有一个公开的标准来测大模型，所以LM SYS这个评测的方法是特别有意义的。

如果要测比如搜索引擎的速度、精度，或者是一个操作系统的速度，又或者向量数据库的速度，它都是一个比较客观的标准。李开复认为，做大模型主打一个用户的体验感。问题答得好不好、有没有解决疑难、有没有犯错、描述的方式是不是让人喜欢等等，这些都是很主观的因素。

至于怎么找一大批主观的人去测这些模型，LM SYS就有几个很有意思的方法论。

一个就是他们全球征召用户。例如每一位观众都可以到LM SYS去看擂台，然后每一个模型都有几万个测试者。

另一个是它是个第三方机构。每一个做大模型的公司例如Google、OpenAI、Anthropic以及国内的几家公司都是提交了模型让对方来测，然后它的数据都是公开的、透明的，可以看到自己得了多少票。

而且，它有一个“厮杀”的方式，有点类似踢足球或者打网球半决赛，为了让很强的模型跟更强的模型多做对比。它不是一轮一轮地在做，而是同时让差不多强的大模型去比赛，然后接近千万用户自愿花时间给模型投票，最后模型的得分类似于国际象棋、围棋的得分。

所以它是客观的、有效的、真实的、第三方的、基于用户的，而且它测试模型的时候是盲测的，投完票之后它才会显示是哪两个公司的模型。

更多精彩完整内容，请关注抖音/视频号：格隆博士会客厅、格隆博士。

特别声明：文章内容仅供参考，不造成任何投资建议。投资者据此操作，风险自担。

随机阅读

本站不良内容举报联系客服QQ：官方微信：服务热线：18001175879