李开复:LM SYS测试展现强者对决,差距缩小在预料之中

发布时间: 2024-06-14

近日,零一万物CEO、创新工场董事长李开复做客格隆汇高端访谈《格隆博士会客厅》。

李开复表示,虽然自己的大模型跟国外万亿大模型差距不远令人感到自豪,但这也是意料之中的事情。

因为其实训练大模型的过程中可以看到模型是不是在进步,所以大模型的测试是有一个可预测的结果,只是结果出来之前对外讲了没有人会信,也没有意义。

因为没有一个公开的标准来测大模型,所以LM SYS这个评测的方法是特别有意义的。

如果要测比如搜索引擎的速度、精度,或者是一个操作系统的速度,又或者向量数据库的速度,它都是一个比较客观的标准。李开复认为,做大模型主打一个用户的体验感。问题答得好不好、有没有解决疑难、有没有犯错、描述的方式是不是让人喜欢等等,这些都是很主观的因素。

至于怎么找一大批主观的人去测这些模型,LM SYS就有几个很有意思的方法论。

一个就是他们全球征召用户。例如每一位观众都可以到LM SYS去看擂台,然后每一个模型都有几万个测试者。

另一个是它是个第三方机构。每一个做大模型的公司例如Google、OpenAI、Anthropic以及国内的几家公司都是提交了模型让对方来测,然后它的数据都是公开的、透明的,可以看到自己得了多少票。

而且,它有一个“厮杀”的方式,有点类似踢足球或者打网球半决赛,为了让很强的模型跟更强的模型多做对比。它不是一轮一轮地在做,而是同时让差不多强的大模型去比赛,然后接近千万用户自愿花时间给模型投票,最后模型的得分类似于国际象棋、围棋的得分。

所以它是客观的、有效的、真实的、第三方的、基于用户的,而且它测试模型的时候是盲测的,投完票之后它才会显示是哪两个公司的模型。

更多精彩完整内容,请关注抖音/视频号:格隆博士会客厅、格隆博士。

特别声明:文章内容仅供参考,不造成任何投资建议。投资者据此操作,风险自担。

首页 - 股市 - 数据 - 市场动态 - 金融 - 产经 - 基金 - 新股 - 创投 - 科创板 - 新三板 -

本站不良内容举报联系客服QQ: 官方微信: 服务热线:18001175879

商务合作    隐私条款    免责声明    投诉反馈

Copyright @ 2024 金融谷 版权所有      ICP备案编号:冀ICP备2024068625号-1