谷歌的Gemini 2.5 Pro在AI“智商”竞争中登顶编码排行榜和MENSA测试

CN
Decrypt
关注
2小时前

谷歌最近推出的Gemini 2.5 Pro已在编码排行榜上跃居首位,击败了Claude,在著名的WebDev Arena——一个类似于LLM arena的非宗派排名网站,但专注于衡量AI模型在编码方面的表现。此成就正值谷歌努力将其旗舰AI模型定位为编码和推理任务的领导者之际。

今年早些时候发布的Gemini 2.5 Pro在多个类别中排名第一,包括编码、风格控制和创意写作。该模型庞大的上下文窗口——一百万个令牌,未来将扩展到两百万——使其能够处理大型代码库和复杂项目,这些项目即使是最接近的竞争对手也会感到窒息。作为对比,强大的模型如ChatGPT和Claude 3.7 Sonnet最多只能处理128K个令牌。

Gemini还拥有所有AI模型中最高的“智商”。TrackingAI通过正式化的MENSA测试对其进行了测试,使用来自挪威Mensa的口头问题创建了一种标准化的方式来比较AI模型。

Gemini 2.5 Pro在这些测试中的得分高于竞争对手,即使使用的是不公开的定制问题。

在离线测试中,新的Gemini以115的智商得分排名于“聪明的头脑”之中,平均人类智力得分约为85到114分。但AI拥有智商的概念需要进一步解释。AI系统并不像人类那样拥有智商,因此更好地将基准视为推理基准表现的隐喻。

对于专门为AI设计的基准,Gemini 2.5 Pro在AIME 2025数学测试中得分86.7%,在GPQA科学评估中得分84.0%。在“人类的最后考试”(HLE)中,这是一个新颖且更难的基准,旨在避免测试饱和问题,Gemini 2.5得分18.8%,击败了OpenAI的o3 mini(14%)和Claude 3.7 Sonnet(8.9%),在性能提升方面表现显著。

新的Gemini 2.5 Pro版本现已向所有Gemini用户免费提供(有速率限制)。谷歌之前将此发布描述为“2.5 Pro的实验版本”,是其“思维模型”系列的一部分,旨在通过推理来回应,而不仅仅是生成文本。

尽管没有赢得每个基准,Gemini仍然吸引了开发者的注意,因其多功能性。该模型可以从单个提示创建复杂的应用程序,构建交互式网页应用、无尽跑酷游戏和视觉模拟,而无需详细说明。

我们测试了该模型,要求其修复一段损坏的HTML5代码。它生成了近1000行代码,在质量和对完整指令集的理解方面超越了之前的领导者Claude 3.7 Sonnet。

对于在职开发者,Gemini 2.5 Pro的输入费用为每百万个令牌2.50美元,输出费用为每百万个令牌15.00美元,使其成为一些竞争对手的更便宜替代品,同时仍提供令人印象深刻的能力。

该AI模型在其高级计划中处理多达30,000行代码,使其适合企业级项目。其多模态能力——处理文本、代码、音频图像视频——增加了其他专注于编码的模型无法匹敌的灵活性。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

派网:注册并领取高达10000 USDT
广告
分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接