里约热内卢的IplanRIO在6月13日发布了Rio 3.5。这座城市的IT机构称这是一个前沿级别的模型:3970亿个参数,具有宽松的开源许可证,由全球南方一座城市的市政府构建。
Rio 3.5的发布时机恰到好处:巴西正在进行他们的世界杯首场比赛,社交媒体已经火热。关于它的评论迅速从巴西传播到更远的地方。
但随着它的关注度迅速提升,关于到底是谁创造了这个模型的争议也随之而来。
最初的模型说明将Rio 3.5描述为Qwen 3.5 397B的后续训练,阿里巴巴的开源模型,上面添加了一层新的推理层,称为SwiReasoning。开发成本据报道为50万雷亚尔(里约未确认此说法),或近10万美元——大约比同类现成AI系统便宜30倍。
其架构为专家混合模型,这意味着在任何给定的令牌上大约只有3970亿参数中的170亿会被激活。这使得推理相比模型的总量更加便宜。该模型还支持视觉和文本,处理超过十种语言,并以完全开放的MIT许可证发布。
SwiReasoning是技术核心。它是一个无训练推理框架,能够在两种模式之间动态切换。当模型对下一个单词充满信心时——概率分布中的低熵——它使用简单的语言进行推理。当不确定时,它转向潜在推理,在隐藏的内部状态中思考,而不发出令牌。IplanRIO表示,Rio 3.5专门训练来利用这一点,这种收益在基准测试数字中表现出来。
自报的数据引人注目。Terminal-Bench 2.1——衡量自主终端命令执行的任务通过百分比——Rio 3.5的得分为70.8%,稍微超过了70.3%的Qwen 3.7 Plus和67.9%的强大DeepSeek v4 Pro。
在IMOAnswerBench,一个根据正确率评分的数学奥林匹克基准,Rio 3.5达到了89.5%。在HLE——人类最后的考试,一个近乎无法解决的多领域专家测试的得分为百分比——Rio 3.5得分为36.5%,领先于Qwen 3.7 Plus的34.7%。
一位市政府在最重要的旗舰模型上打败了最有意义的质量基准:这是传播的标题,尤其是在里约热内卢市长对此进行了推特评论之后。
“一个在里约训练的开源AI模型,过去一年由[里约市政府]公共资助,刚刚超越了所有其他模型,”爱德华多·卡瓦列里写道。“今天,世界正在谈论一个在里约训练的开源AI模型。”
然后Nex出现了
“在里约训练”被证明并不完全准确。
总部位于上海的开源AI联盟Nex-AGI在发布几天后在X上发布。开头是:“Rio 3.5模型本周打破了互联网。反转情节?本质上是我们开源模型Nex N2 Pro,换了个名字。”
他们分析了权重。数学是准确的:Rio 3.5 ≈ 0.6 × Nex N2 Pro + 0.4 × Qwen 3.5。接下来发布了一个验证脚本和完整的GitHub报告。
证据分为两部分。
第一,行为。Nex从部署模型中移除了硬编码的“你是里约”系统提示,并发送了120个身份问题。在没有掩码的情况下,Nex报告该模型"79.2%"的时间自称为"Nex,来自Nex-AGI"。它自称“里约”的时间为0%。Nex还表示该模型逐字复述了公司的具体背景故事,提到了“上海创新研究院”和“一个大型模型生态联盟”。这正是Nex自己的训练数据,出现在其他人的模型中。
第二,数学。在一个真实的权重合并中,新模型中的每个参数都位于两个源模型之间的直线上。Nex在所有60层中测量了这种共线性。结果返回为0.993。在同一参数空间中的两个无关模型随机得分接近于零。在每一层的得分达到0.993并非偶然。混合比例保持在α ≈ 0.571,精确到三位小数。
基本上,它几乎是60%的Nex,其余部分是基础Qwen模型。
“Rio中的每个权重张量,无论是经过数千个标准差,都是相同的0.6/0.4的Nex和Qwen的混合——跨越所有60层和网络的每个组件,”Nex写道。“没有无辜的解释。”
来源:Nex生态系统
这些数字也讲述了一个更安静的故事。在Rio 3.5发布前几天发布的Nex N2 Pro,Terminal-Bench 2.1中的得分为75.3%——高于Rio的70.8%。在GDPval,一个以Elo风格评分的经济预测基准,Nex的得分为1585,而Rio的得分为1533。如果Rio是60%的Nex,那么你会期望它在Nex自己的基准上得分低于Nex,结果确实是如此。
来源:Nex生态系统
IplanRIO回应
IplanRIO更新了Hugging Face模型卡——基准表被撤下,归属发生了变化。
“该模型是通过nex-agi/Nex-N2-Pro和Qwen/Qwen3.5-397B-A17B的合并构建的,之前进行了来自更强模型的政策蒸馏,”更新的说明中写道。“我们发现了之前版本中上传错误的问题,其中上传的是基础合并版本,而不是最终蒸馏模型。我们对造成的困惑表示歉意。”
IplanRIO没有发布其他公开声明。现在Nex得到了认可。
“错误上传”的解释是关键主张。IplanRIO表示,计划发布的是合并基础的蒸馏版本——而不是原始合并本身。政策蒸馏意味着更强的教师模型生成输出,学生在这些输出上训练,同时也生成自己的输出。相比于原始合并,这更昂贵,但仍然比从头开始训练便宜。如果这一步是真实的,那么它将代表在合并基础上进行的一些原创工作。
根据IplanRIO的说法,实际发货的是没有任何附加内容的合并基础。
社区观察者对此意义存在分歧。科技评论员拉斐尔·昆塔尼利亚给出了宽容的解读: 由于Nex N2 Pro本身是基于Qwen构建的,团队可能只对底层架构给出了信用,并且就此而言。他还指出该模型在世界杯比赛期间迅速传播,“不一定是‘适合公众消费’的。”
开发者及AI YouTuber卢卡斯·蒙塔诺指出“合并两个约400B类模型然后应用政策蒸馏并不简单”——同时承认了技术错误和沟通失误。
AI研究员迭戈·安布罗西奥的评价更为严厉。原始发布将Rio 3.5描述为“自主后训练和专有微调”的结果——这暗示了原创研究,而非合并。
法律?是的。伦理?好吧……
模型合并是完全合法的。Nex N2 Pro是Apache 2.0许可证——您可以使用、修改和重新分发它,只要您给予信用。Qwen 3.5也有开放许可证。这里没有人会打官司。
问题在于将输出呈现为独立开发的工作,而未提及所有源模型。开源社区以前见过这种情况。今年早些时候,Cursor的Composer 2被发现是建立在Moonshot的Kimi K2.5之上而未披露。反弹迅速且影响声誉——没有律师,只有截屏。
基于现有的开放模型构建是正常的。正如Decrypt的报道,堆叠和合并开放权重几乎形成了自己的亚文化。规范不是“不在他人的工作上构建。”规范是:说明您使用了什么。
之所以让这个事件比典型的归属错误更响亮,是因为其背后的机构包装。一个匿名开发者以自己的名字发布一个“拼凑的合并”是一码事。一个市政府利用它来宣称公共部门的AI主权——在世界杯期间——又是另一回事。“这是一种资源浪费,”一位巴西评论员写道。
Nex没有将其变成一场战争。“我们感到荣幸,里约市使用我们的工作来实现SOTA性能,”该公司在X上写道。“但在开源世界中,归属很重要。”
IplanRIO正在努力上传经过修正的、蒸馏的模型,并在其中完全归属。当这一步到位时,之前的检查将再次进行——社区将发现蒸馏是否确实改变了任何东西,或者它是否仍然主要是Nex,只是使用了不同的系统提示。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。