普通推理 刚刚给前沿人工智能留下了最糟糕的报告。八个顶级模型,包括Claude、Grok、Gemini和GPT-5.4,都各自获得了一个虚拟资金池,并被要求在整个2023-24英超赛季中建立一种机器学习投注策略。
每一个模型都亏损了。几个模型彻底破产。
这个基准被称为KellyBench,以凯利准则命名,这是一种1956年提出的公式,告诉你在市场上有优势时该投注多少。每个模型都能够背诵凯利公式,但它们都无法真正使用它。
xAI的Grok 4.20在三次测试中均失败,一次彻底破产,在另外两次中中途退出。谷歌的Gemini Flash在下了大约273,000英镑的单一赌注后,放弃了三次中的两次——而这笔赌注也落空了。Claude Opus 4.6,Anthropic的最佳模型,平均亏损11%,并不知怎么地看起来像是屋子里的负责成年人。
事实上,研究论文提到,90年代末的旧Dixon-Coles在评估的多数前沿模型中表现更佳——在八个模型中有六个落后于它,即使数据有限。
研究人员指出:“Dixon-Coles是一个过时的2000年代基准,它没有充分利用所有可用数据,也没有以原理性方式考虑非平稳性。因此,许多前沿模型,例如Gemini 3.1 Pro,居然无法在KellyBench上超过或匹配它,这更加令人惊讶。”
这不仅仅与足球有关。今年早些时候,人工智能基准显示Claude可以通过价格操控、卡特尔协议和战略欺骗主导商业模拟。
这个决策过程涉及静态竞争、有限对手、明确评分等。而KellyBench正好相反:120个比赛日,不断变化的数据,每周都在变聪明的市场,以及没有任何历史记录的升降级球队。
研究人员称核心问题为“知识-行动差距”。它的意思正如字面所示。
商业决策大多基于固定条件,而体育赌博是一个更加流动和可变的市场,这让这些模型感到困难。“KellyBench要求代理在可能的数千个顺序决策中保持一致的意图,监控这些决策的后果,并在观察和行动之间关闭回路,”研究人员主张。
显然,我们还没有达到这个程度。
这些模型能够清楚表达正确的策略,诊断出何处出错,并识别亏损的原因,但却未能验证它们的代码是否真正实施了它们的计划,未能注意到执行与意图的偏离,并未能根据自己的发现采取行动。
GLM-5在运行过程中写了三份独立的自我批评文件。每一份都正确指出它硬编码的25%平局率和对主场优势的高估正在毁掉它的回报。某个时刻,在其资金池约为44,200英镑时,它注意到其预测的40%主场胜率在现实中只达到了30%。但它从未更改代码。它一直以相同的方式投注,直到资金耗尽。
Kimi K2.5则做了一件可以说更为显著和更加悲惨的事情。它写出了一个数学上正确的分数凯利投注函数——正确的公式,结构恰当。但它从未调用过它。一个格式错误导致模型连续发送了大约50次的损坏命令。它的推理指出了这个问题。然后它又发送了完全相同的损坏命令。一次意外的114,000英镑赌注——占其剩余资金的98%——在伯恩利与卢顿的比赛中完成了这一切。
GPT-5.4是最有条理的。它花费了160次工具调用来构建模型,然后才下了第一个赌注,随后计算出它的对数损失(0.974)几乎比市场(0.971)差,并得出它没有优势的结论。接下来的赛季都在下些小额赌注以保护资金。合理的推理。
OpenAI的模型平均亏损13.6%。仅仅一个种子就耗费了大约2,012美元。
普通推理的首席执行官、前Meta AI研究员Ross Taylor告诉金融时报,大多数人工智能基准在“非常静态的环境”中进行,与现实世界几乎没有相似之处。“对人工智能自动化的兴奋很多,但在长期真实环境中评估人工智能的尝试不多,”他说。
普通推理团队没有立即回复Decrypt的评论请求。
为了衡量策略质量超越原始回报,研究人员与定量博彩基金专家共同建立了一个44分的复杂性评分标准——涵盖特征开发、投注规模、非平稳性处理和执行等。Claude Opus 4.6的得分最高,为32.6%。可用分数的不到三分之一。这是最佳模型。
更高的复杂性得分显著预测了更低的破产率(p = 0.008),并与更好的整体回报相关。模型之所以失败并不是因为市场不可战胜,而是因为它们没有利用好自身拥有的东西。
这符合一个模式。去年发布的研究发现,人工智能模型在被告知最大化奖励时会发展出类似于赌博成瘾的现象——在模拟老虎机测试中破产的次数高达48%。另一个真实货币加密交易竞争在较长的时间内发现了相同的可靠性问题。
最佳表现的模型最终平均资金池为89,035英镑——在以标准化的100,000英镑起始赌注计算时净亏损10,965英镑。梯度提升、分数凯利投注、数月的英超足球、顶尖的表现……不过就是为了得到惨败。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。