国产大模子竞技场首超GPT-4o！零一万物GLM共同置身Top10

西风发自凹非寺

量子位 | 公众号 QbitAI

国产大模子初度在公开榜单上高出GPT-4o！

就在刚刚，“大模子六小强”之一的零一万物庄重对外发布新旗舰模子——Yi-Lightning（闪电）。

在大模子竞技场（Chatbot Arena）上，Yi-Lightning性能直冲总榜单并排第6，数学分榜并排第3，代码等其它分榜也名列三甲。

总获利险些与马斯克最新xAI大模子Grok-2-08-13合手平，突出GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude 3.5 Sonnet等顶流。

同期，国内清华系大模子公司智谱AI的GLM-4-Plus也杀进了总榜，位居第9位。

该榜单斥逐来自傲众累积超千万次的东说念主类用户盲测投票。

前段时刻大模子竞技场还刚刚更新了礼貌，新榜单对AI回应的长度和立场等特征作念了降权处理，分数更能响应模子实在责罚问题的能力。

此次Yi-Lightning杀出重围，Lmsys团队脱出家帖子，称这是竞技场上的大新闻：

大模子竞技场总榜第六、国产第一

细看大模子竞技场分类榜上的“赛况”，Yi-Lightning各项能力齐排在前头。

在汉文能力上，Yi-Lightning和GLM-4-Plus两个国产大模子齐名列前位。

Yi-Lightning跃居并排第二，和o1-mini收支无几。

数学能力，Yi-Lightning和Gemini-1.5-Pro-002并排第3，仅次于o1-preview、o1-mini。

代码能力Yi-Lightning名次并排第4。

另外皮Hard Prompts和Longer Query分榜，Yi-Lightning也齐排在第4位。

临了不异值得原宥的是，竞技场新功能立场箝制过滤，确保分数响应模子实在责罚问题的能力，而不是用漂亮的神情、增多回应长度。

在对长度和立场等特征作念了降权处理后，总计模子分数均有下落，Yi-Lightning名次变化不大，合座还与GPT-4o、Grok-2并吞梯队。

发布会上，零一万物首创东说念主兼CEO李开复博士展示了Yi-Lightning在不同场景上的能力。

Yi-Lightning主打一个“推理速率更快，生成质料更好”。

比拟上半年Yi-Large，Yi-Lightning首包速率擢升1倍，推理速率也擢升了4成。

像是翻译底下这种体裁作品，Yi-Lightning不仅速率更快：

何况用词更精确，更具体裁颜色：

那么Yi-Lightning是奈何作念到的？

好用还得极速

Yi-Lightning采取MoE羼杂大家模子架构。

底层时刻上，Yi-Lightning在以下方面进行了擢升。

最初是优化羼杂驻防力机制（Hybrid Attention），只在模子的部分档次中将传统的全驻防力（Full Attention）替换为滑动窗口驻防力（Sliding Window Attention）。

由此以来，模子在保证处理长序列数据高性能发达的同期，还能大大编造推理资本。

Yi-Lightning还引入了跨层驻防力（Cross-Layer Attention, CLA），允许模子在不同的档次之间分享键（Key）和值（Value）头，减少对存储需求。

这使得Yi-Lightning能在不同档次之间更灵验地分享信息。

总的来说，KV cache缓慢了2-4倍，同期将计较的复杂度从O(L²)降至O(L)。

其次，Yi-Lightning还采取了动态Top-P路由机制。

也等于说，Yi-Lightning不错字据任务的难度动态自动采取最得当的大家会聚组合——

考试历程中会激活总计大家会聚，使模子能学习到总计大家常识；而推理阶段，字据任务的难度，模子会采取性激活更匹配的大家会聚。

另外，之前有一些传言称国内大模子“六小强”，有一些还是不作念预考试了，李开复博士此次在发布会上平直“辟谣”：

零一万物毫不毁掉预考试。

何况在模子预考试阶段，团队还蓄积了丰富的多阶段考试神情，将总计这个词考试分为两块，一块作念好以后就把它固定起来，然后在这个固定的模子上再作念后段考试。

考试前期，更留意数据万般性，使得Yi-Lightning尽可能学习不同的常识；考试后期更重本色更丰富、常识性更强的数据。

同期团队还在不同阶段采取不同的batch size和LR schedule保证考试速率和稳妥性。

李开复博士还示意，零一万物开发模子庄重“模基共建”，也等于共建模子和基础架构。

模子的考试、职业、推理筹算，与底层的AIInfra架构和模子结构必须高度适配。

这么作念的看法，不仅是让模子更好，何况让它在推理的时候大略更低廉。

再加上以上种种抬升“性价比”的时刻加合手，是以Yi-Lightning此次亦然打到了白菜价——

0.99元每1M token

在汉文等方面，Yi-Lightning比肩OpenAI的o1-mini，o1-mini的订价是每百万输入3好意思元，每百万输出12好意思元。

Yi-Lightning每百万token只需0.99RMB亦然打到了骨折。

但李开复博士示意，即便这么也：不亏钱。

除了发布新模子，零一万物此次还首发了AI2.0数字东说念主决策。

当今该数字东说念主已接入Yi-Lightning，及时互动成果比拟以往更强更当然了，belike：

重播播放 00:00 / 00:00 直播 00:00 过问全屏 50 点击按住可拖动视频

临了谈起和国际头部大模子的差距，李开复博士示意此次Yi-Lightning的名次解释了国产大模子跟硅谷最顶尖模子的差距缓慢到了五个月。

去跟追上好意思国最顶尖的模子，缩小这个时刻差相配贫穷，要付出很大的悉力和有私有的打发。在国内不少公司齐在悉力，“模基共建”则是零一万物我方摸索的私有旅途。

参考贯穿：[1]https://x.com/lmarena_ai/status/1846245604890116457[2]https://x.com/01AI_Yi/status/1845776529185476613

— 完 —

量子位 QbitAI · 头条号签约

原宥咱们，第一时刻获知前沿科技动态

国产大模子竞技场首超GPT-4o！零一万物GLM共同置身Top10

友情链接：