星球文章网 手机版
当前位置: 首页 > 实时讯息 >

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

时间:2025-06-06 11:16:00

没等来o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。

深夜,谷歌通过等多个账号同时官宣,Gemini 2.5 Pro再次推出新版本(0605)。

新版本在代码、推理等任务上的表现更上一层楼,在超难数据集“人类最后的考试”中以21.6%的成绩超过了o3

在大模型竞技场上,新版Gemini也超越了自己,Elo评分比上个月的版本提升了24分

谷歌CEO劈柴哥还发了一张AI合成的狮子照片,配文一个“Gemini”,暗示了新模型的实力。

谷歌AI studio产品负责人Logan表示,这次的更新预计会成为Gemini 2.5 Pro的长期稳定版本

有意思的是,发布之大概10多个小时,Logan就进行了一波剧透,发了一条只有Gemini这一个词的推文。

谷歌表示,Gemini APP中的模型将在今日更新为该版本,开发者版本也已在谷歌AI Studio和Vertex AI当中上新。

Gemini超越Gemini,登顶大模型竞技场

谷歌介绍,这次的0605版本基于I/O大会上展示的0506版本构建,预计将成为Gemini 2.5 Pro的正式稳定版。

Gemini 2.5 Pro最早是在3月25日发布了实验版本,4月4日更新了公开预览版,代号仍然是0325,再然后就是上个月的0506。

在“人类最后的考试”当中,0605的成绩达到了21.6%,领先了o3 1.3个百分点,超过了Claude 4 Opus的两倍。

这个数据集由1000多名学者共同构建,包含3000多道试题,覆盖各种学科,发布时没有任何模型准确率超过10%。

另外在GPQA上,0605的成绩也同样超过了几家主要竞争对手,并且单次尝试的准确率比Claude和Grok多次尝试还要高。

数学竞赛和LiveCodeBench编程上,0605表现稍逊于OpenAI家的模型,但0605在代码编辑能力(Aider Polyglot)上领先。

长文本方面,0605在128k长度上的表现同样是几家中第一,并且还独一家支持1M长度。

0605拉开差距最明显的则是事实性,在FACTS Grounding测试中领先第二名超过10个百分点。

至于价格,Gemini比OpenAI o3、Claude 4 Opus和Grok 3都要来得便宜——

输入Token价格是o3的1/8,Claude 4 Opus的不到1/10、Grok 3的不到一半,输出Token则是o3的1/4、Claude的13%、Grok的2/3。

在大模型竞技场上,0605则位列总分和所有子榜单的第一名

除了各种基于文本的能力,0605的视觉能力也拿下第一名,上个月的0506和OpenAI的o3与之并列。

最后在WebDev上,0605也让Gemini重新回到了榜一的位置。

此外,谷歌表示0605还基于用户对之前版本的反馈,对输出风格和结构进行了改进。

有DeepMind员工称,照这样下去,最多两年就能在所有Benchmark都取得满分。

另外在新版发布之前,Gemini就已经受到了越来越多的青睐——

据Similarweb统计,从4月末到5月开始,Gemini APP在安卓应用市场的下载量超过了ChatGPT。

发布两小时即被成功越狱

新模型上线以后,网友们也纷纷开始了体验,有人表示测试了21份pdf文档,Gemini总结得又快又好。

在DeepMind内部,也有人用0605尝试了图标转绘,并对其表现印象深刻。

当然也有人认为,0605的表现确实很好,但是不如Claude 4 Opus。

但还有持续关注模型表现的网友发现,0605的一些指标相比早期的0325,反而出现了退步

其中包括编程的LiveCodeBench和Swe-Bench,但退步最明显的要属长文本(MRCR)。

这位网友表示,实在是不明白为什么分数似乎下降得如此厉害。

最抓马的是,0605的安全性也出现了问题,官宣之后仅两个小时,就被宣布越狱攻击成功。

具体过程就不展示了,但结果是经过提示词攻击,Gemini 2.5 Pro 0605一边“拒绝”一边将炸药和毒品的制作方式脱口而出……

不知道谷歌工程师或作何感想。

那么,你认为谷歌这次发布的模型表现怎么样呢?

参考链接:

[1]https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

[2]https://x.com/GoogleDeepMind/status/1930656243346976925

[3]https://x.com/OfficialLoganK/status/1930657743251349854

[4]https://x.com/elder_plinius/status/1930686486644511089

本文来自微信公众号“量子位”,作者:克雷西,36氪经授权发布。