在大模型竞速进入推理才能深水区的密模 2025 年,一支奥秘的型推小模型团队悄然上台 。他们不是越R隐秘来自一线大厂的 AI Lab,也没有高调预热和融资造势,团队推理而是发布在 Hugging Face 低沉开源了一款 32B 的推理模型:AM-Thinking-v1。
令人惊奇的密模是,这个中等规划的型推小模型稠密模型,在多个要害推理评测中打败了 DeepSeek-R1,越R隐秘并与超大规划的团队推理 MoE 模型Qwen3-235B-A22B 、Seed1.5-Thinking 平起平坐。发布
这款模型背面的密模团队,是型推小模型国内一个从未对外发表的研讨团队——A-M-team。他们不依靠私有数据、越R隐秘不依靠海量核算资源 ,团队推理仅凭开源底座和练习管线的发布极致规划 ,就做出了敞开社区 32B 等级中最强的推理模型。
论文链接:https://arxiv.org/pdf/2505.08311。
功能全面逾越 DeepSeek-R1:32B 模型中的“黑马”。
在当时干流评测中,AM-Thinking-v1 也交出了极具冲击力的成果单,仅 32B 的结构在数学推理(AIME 系列)和代码生成(LiveCodeBench)中别离取得了 85.3 和 70.3 的高分 ,不只全面逾越了 DeepSeek-R1(671B MoE 架构) ,还迫临乃至追平了 Qwen3-235B-A22B 和 Seed1.5-Thinking 等超大规划 MoE 模型的成果。
把“小体积 ,大推理”的极限范式展示得酣畅淋漓。
值得注意的是 ,AIME 系列标题来自美国数学邀请赛,结构杂乱 、要求精准,向来是衡量模型逻辑思维才能的金规范;LiveCodeBench 则着重代码可履行性和稳健性 ,数据污染难度高,是实在场景下“考虑-编码-验证”链条的苛刻检测。
AM-Thinking-v1 模型测验得分表 。
AIME2024 不同模型标准作用比照;x 轴为模型标准,y 轴为分数。
LiveCodeBench 不同模型标准作用比照;x 轴为模型标准,y 轴为分数。
推特大 V Aran Komatsuzaki 也下场转发 ,并配文:AM-Thinking-v1 正以 32B 的规划推动着推理前沿功能的鸿沟。
分数之外 ,是更具实践意义的使命 。当研讨人员用 AM-Thinking-v1 去处理典型的“旋转三角形中红球反弹”问题时,AM-Thinking-v1 展示出了多步逻辑极强的了解,给出了完好的运动轨道模仿和关于小球磕碰的判别 。
而在逻辑推理使命中 ,AM-Thinking-v1 也能坚持十分安稳的考虑进程。
在长文本写作才能的测验中,AM-Thinking-v1 在表达逻辑和意象捕捉方面也展示出了开始的组织才能 。
32B 模型的新上限,是这样“训”出来的 。
与寻求超大规划和大数据堆叠不同,A-M-team 的要害打破在于如何用有限的核算和开源数据 ,最大化32B模型的推理才能 。
他们规划了一整套后练习(post-training)计划 ,其间包含冷启动式监督微调、经过率引导的数据挑选机制以及双阶段强化学习(Dual-stage RL)。
首先在监督微调(SFT)阶段,团队用了一个相对急进但作用很好的设置:把学习率拉到了 8e-5,batch size 也做了加大,还支撑最长 32K 的输入长度。练习样本被特别规划成“先考虑再答复”的格局。
这个规划协助模型建立了“先想清楚、再说话”的好习惯。并且,练习中还能显着看到模型越来越懂得操控长度 、防止烦琐——这些改变在均匀生成长度和停止率上都有反映。
其次在数据这块,团队彻底依托开源资源 ,从数学、代码 、科学推理到指令跟和顺通用对话 ,一共收拾出了五类中心使命的数据 。
他们花了很多时刻做清洗 :不只去重、改写问题,防止和评测集“撞题”,还对数学数据进行严厉验证,乃至用 DeepSeek-R1 和 o4-mini 来穿插比对规范答案 。生成的练习样本也经过层层挑选 ,比方用 PPL 算分、查看重复短语和结构完好性 ,终究留下的数据洁净又靠谱。
在最终的强化学习(RL)阶段,团队选用了 GRPO 这种轻量级算法 ,还特别搞了个“难度感知”的战略,意思是:先挑一些模型做得不太好的题来练,等熟练了 ,再参加一些通用对话和指令跟从使命来拓宽才能。
奖赏机制也挺考究 :数学和代码类的问题用规矩验证或许直接跑沙盒程序验证答案;而像 open-ended 答复这种,就让 LLM 来打分,从有用性、准确性、连贯性这三方面评价 ,确保模型在各方面都能前进 。
当然 ,为了让整个 RL 练习高效跑得动 ,A-M-team 还在工程上动了不少脑筋。比方他们把推理和练习分隔 ,用了 streaming rollout 的方法,还配了个前端负载均衡器,能依据每张 GPU 的实践压力动态分配使命 ,最大极限防止“有的卡闲着、有的卡累死”的状况 。不只练习稳,还能大大节省时刻和算力。
总的来说,尽管 AM-Thinking-v1 现已在推理上做得很超卓,但它现在还不支撑函数调用 、多模态输入