这项由复旦大学数据科学学院与上海数据科学重点实验室、蚂蚁集团联合开展的研究,以预印本形式于2026年5月8日发布在arXiv上,编号为arXiv:2605.07465。有兴趣深入了解的读者可以通过该编号查询完整论文。

**一 一个让AI越来越难被难倒的好主意**

你有没有注意到,当你用同一套练习题反复刷题,到了某个节点,你的成绩就很难再提高了?这不是因为你变笨了,而是因为那些题目对你来说已经太简单——你的大脑不再需要努力思考,成绩自然就到了天花板。

大型语言模型(也就是ChatGPT、Claude这类聊天AI背后的核心技术)面临的困境与此惊人地相似。当研究人员想要训练一个AI更好地"听懂并执行复杂指令"时,他们发现现有的两条路各有缺陷:一条路是请人类专家或更强大的AI来出题、打分,这既昂贵又难以持续扩大规模;另一条路是让AI自己练习,但练习用的题目是固定难度的,AI一旦掌握了这批题目的套路,就又碰到了天花板。

复旦大学的研究团队提出了一个听起来简单却颇为精妙的解法:让AI自己给自己出越来越难的题目,并在解题过程中不断变强。这套方法被命名为SEIF,全称是"Self-Evolving Reinforcement Learning for Instruction Following",可以理解为"用于指令遵循的自我进化强化学习"。这个名字有点学术味,但核心思想其实就像一个每天早起跑步的人——不是每天跑同样的距离,而是每次比昨天多跑一点点,逼着自己持续突破。

所谓"指令遵循能力",指的是AI在接到一个带有各种条件限制的任务时,能够准确理解并完整满足每一个条件的能力。举个例子,如果你要求AI"用三段话、不超过100个字、以第一人称、必须包含'责任'这个词来描述气候变化的影响",一个指令遵循能力强的AI会同时照顾到段数、字数、人称、关键词这四个要求;而一个能力弱的AI可能写了洋洋洒洒两百字,却忘了分段,或者通篇没有出现"责任"二字。

这种能力在现实使用中极为关键。当AI被部署在真实工作场景里——比如帮你写合规报告、完成特定格式的商业提案、或者配合特定工具执行多步骤任务——任何一个条件的遗漏都可能造成真实损失。

**二 四个角色,一台永不停歇的自我训练机器**

SEIF系统的核心设计可以用一个类比来理解:一所特殊的武道学校,里面有四个角色,分别承担出题、质检、练功和评分的职责,而且随着学员越来越强,出题人也要跟着升级,确保题目永远对学员保持挑战性。

第一个角色叫"Instructor",也就是出题人。它的工作是拿一道普通的基础题(研究者称之为"种子指令"),在上面附加各种限制条件,把它变成一道更难的题目。比如原题是"介绍一下电动汽车",出题人可能会加上"用三个子弹点、全部小写、必须包含'可持续性'和'排放'这两个词、且每个说话者不超过三句话"这样一批条件。

第二个角色叫"Filter",也就是质检员。它的工作是检查出题人出的题目有没有自相矛盾的地方。因为有时候加了太多条件,这些条件会产生内在冲突——比如同时要求"全部小写"和"第二段必须以大写字母Agreement开头",这两个条件根本无法同时满足。质检员会把这类逻辑上不可能完成的题目直接过滤掉,避免用无效题目训练AI。

第三个角色叫"Follower",也就是学员。它接收出题人生成的、经过质检员审核的复杂指令,然后尽力写出满足所有条件的回答。这是整套系统里最核心的"被训练者",最终要用于实际部署的也是这个角色。

第四个角色叫"Judger",也就是评分员。它的工作是逐条检查学员的回答是否满足了指令里的每一个限制条件,然后给出一个0到1之间的满意度分数——满足的条件越多,分数越高。这个分数会被反馈回系统,驱动学员的学习。

这四个角色是如何相互配合的呢?整个流程分两个阶段循环进行。第一阶段是训练出题人:质检员和评分员检查出题人出的题目是否有效、学员答得了多少,然后用"1减去学员的满意度分数"来奖励出题人。这意味着,出题人出的题目越难(学员越答不好),出题人得到的奖励越高,于是它会越来越倾向于出那些正好卡在学员能力边界上的难题。第二阶段是训练学员:用更新后的出题人生成一批新的复杂指令,让学员作答,评分员打分,然后用这个分数来直接奖励学员答得好的那些回答。学员因此学会了如何更好地满足复杂条件。

完成这两个阶段后,系统进入下一轮循环:质检员和评分员会被替换成当前最新版本的学员,确保它们的标准能跟上学员的进步。如此循环往复,出题人和学员在相互博弈中共同进化,这正是"自我进化"这个名字的由来。

**三 训练背后的数学:让AI用奖惩来学习**

SEIF使用了一种叫做GRPO(Group Relative Policy Optimization,组相对策略优化)的强化学习算法来驱动出题人和学员的进步。这个名字听起来很拗口,但原理其实相当直觉化。

当出题人针对同一道种子题生成多个版本的复杂指令时,系统会比较这些版本的奖励分数,然后通过对比奖励高低来决定哪种出题方向值得鼓励、哪种方向应该减弱。这避免了需要专门训练一个"评判AI好坏"的辅助模型,让整个流程更加自洽和高效。

出题人获得奖励的逻辑很清晰:如果它出的题目被质检员标记为"有逻辑冲突",直接得零分;如果题目通过了质检,就让当前的学员来作答,然后用"1减去学员的满意度"作为出题人的奖励。这意味着当学员轻松答对时,出题人只能得到接近零的奖励,而当学员答得一塌糊涂时,出题人可以得到接近满分的奖励——这驱动出题人持续产出对当前学员有足够挑战性的题目。

学员的奖励逻辑则相反且直接:对每一道指令里的每个限制条件,评分员分别判断是否满足,满足得1分,不满足得0分,最终所有条件的平均分就是学员的奖励。这种"逐条打分"的方式比"全部满足才得分、只要有一条不满足就得零分"的方式要宽容得多,也更能引导学员逐步改善,而不是因为偶尔满足不了某个条件就得不到任何正反馈。

同时,GRPO算法内置了一个"距离参照点不能太远"的约束机制(即KL散度正则化)。这防止了学员为了得高分而走极端——比如输出一段乱码碰巧满足了所有格式要求,却完全失去了正常语言模型的能力。这个约束确保了学员在变强的同时,仍然保持了原本作为语言模型的基本素养。

**四 一个关键的设计细节:质检员和评分员随学员一起成长**

这里有一个特别值得关注的设计决策,也是SEIF区别于许多其他自我训练方法的地方。

质检员和评分员并不是从头到尾固定不变的。在每一轮循环开始时,系统都会用当前最新版本的学员来重新实例化质检员和评分员——也就是说,判断题目是否有冲突、判断答案是否满足条件的"标准",会随着学员的进步而升级。

为什么这很重要?因为一个能力较弱的评分员可能会对一些模糊的条件满足情况过于宽松,而随着学员变强,更强的评分员能识别出更细微的条件不满足情况,从而提供更严格的反馈。如果评分员一直停留在初始水平,它可能逐渐无法准确判断一个越来越强的学员的回答质量,导致奖励信号失去意义。

研究团队用实验验证了这一设计的价值:当他们把质检员和评分员固定为最初的基础模型,不随学员升级时,系统的最终表现明显下降。具体来说,在IFEval这个基准测试上,固定评判标准的版本比自适应更新的版本低了1.8分,在CFBench基准上低了1分,在FollowBench基准上低了1.9分。这些数字背后的含义是:让评判标准和学员同步进化,对于维持有效训练信号至关重要。

**五 实验结果:五种模型、六个测评、三轮进化**

研究团队在五种不同规模和架构的语言模型上测试了SEIF系统,这五种模型分别是:参数量15亿的Qwen2.5-1.5B-Instruct、参数量70亿的Qwen2.5-7B-Instruct、Meta公司的Llama-3.1-8B-Instruct、参数量140亿的Distill-Qwen-14B,以及R1-0528-Qwen3-8B。

评测使用了六个不同角度的指令遵循基准,覆盖了格式约束满足(IFEval)、多约束复杂指令(CFBench)、多级细粒度约束(FollowBench)、写作导向任务(WritingBench)、智能体场景中的指令遵循(AgentIF),以及多轮多语言场景(Multi-IF)。

经过三轮自我进化训练后,每个模型的表现都出现了可观的提升。以Qwen2.5-7B为例,IFEval得分从73.9提升到78.6,提高了4.7分;CFBench从47.0提升到51.0,提高了4分;WritingBench从57.2提升到63.8,提高了6.6分。140亿参数的Distill-Qwen-14B在IFEval上达到了80.0分,比起点提高了5.1分,这个数字已经超过了许多专门优化过的7B到8B规模的指令遵循模型。

即便是最小的1.5B模型,也从SEIF中获得了稳定的收益。这个发现意味着自我进化训练并非大模型的专利,小模型同样可以通过这种机制突破自身能力边界,尽管绝对分数依然低于更大的模型。

与当时的顶尖前沿模型相比,SEIF训练后的7B模型虽然仍然不及Claude-Opus-4.7(IFEval 89.1)或GPT-4o(84.8),但已经超越了多个专门针对指令遵循任务优化的同规模模型,例如SPAR-8B-DPO(82.4)的部分指标,以及Crab-7B-DPO(57.7)、Conifer-7B-DPO(52.3)的绝大多数指标。

**六 与其他方法的横向比较:动态难度是关键变量**

研究团队还做了一组更直接的横向对比实验,将SEIF与多种同样不依赖外部强大模型或人工标注的自我训练方法进行了比较。这些方法包括基于指令反向翻译的Humpback、基于语言反馈进化的SELF、让模型自己评判答案质量的Self-Rewarding、以及在Self-Rewarding之上再加一层"评判评判"的Meta-Rewarding,还有让模型循环自我增强的I-SHEEP等。

结果显示,这些静态难度的自我训练方法在IFEval上最多能比基础模型提升2.7分(Meta-Rewarding达到76.6),但SEIF达到了78.6,超出了2分。更有说服力的是消融实验:当研究者把SEIF里出题人进化的部分去掉,只保留学员自我练习(相当于把SEIF降级为一种静态难度的自我训练方法),IFEval得分从78.6掉回了75.9。这一对比非常清晰地指向了一个结论:不是自我训练本身带来了大幅提升,而是"题目难度会随着学员成长而动态调整"这一设计才是关键。

此外,研究者还验证了SEIF并没有以牺牲通用能力为代价来换取指令遵循能力的提升。在GPQA-Diamond(研究生级别科学问答)、MMLU-Pro(综合知识理解)、BBEH(逻辑推理)以及AIME(数学竞赛题)这四个通用能力基准上,SEIF训练后的模型与基础模型相比,基本保持了原有水平,部分指标甚至有小幅提升。这说明SEIF是在做"加法",而不是"左右手互搏"。

**七 题目是怎么一步步变难的:从宏观到细节**

研究团队用数据可视化的方式展示了训练过程中题目分布的变化,结果颇为直观。他们把三轮训练中使用的所有指令提取成高维向量表示,然后用降维技术将其压缩到二维平面上进行观察。

在平面图上,三轮训练数据各自形成了一个点群(cluster),三个点群之间既有重叠也有明显的分离,且各自的"重心"位置逐轮移动。这说明SEIF不只是在反复使用同一批题目,而是每一轮都真正更新了训练数据的分布——同时保持了语义连续性,确保新题目和旧题目在主题上有传承,而不是完全割裂。

从限制条件类型的变化趋势来看,这种进化更加具体可感。在第一轮训练中,高频出现的条件类型集中在"段落数量"(占8.8%)、"句子数量"(8.3%)、"词数"(10.6%)、"元素限制"(9.3%)这类基础格式要求上。到了第三轮,这些简单格式条件的比例大幅下降,而"加亮显示特定内容"(从2.5%升至12.4%)、"子弹点数量"(从3.2%升至12.0%)、"词数精确控制"(从10.6%升至17.6%)、"定制格式"(从2.4%升至5.5%)、"基于角色的限制"(从0.4%升至3.1%)以及"面向特定受众"(从0.5%升至3.0%)这类更复杂、更结构化的条件占比显著上升。

这种趋势的内在逻辑是:当学员在第一轮已经学会了如何数段落、控制句子数之后,这类条件对它来说太简单了,出题人满足不了得高奖励的需求,于是被迫"创新",转向那些学员还没掌握好的更复杂条件类型。这个自然淘汰和替换的过程,正是系统自我进化的体现。

**八 早期打牢基础,晚期点到为止:一个实用的训练策略发现**

研究团队在分析训练策略时发现了一个值得关注的规律,这个规律对未来设计类似的自我进化系统具有参考价值。

他们比较了六种不同的训练轮次分配方案。用"第一轮训练几个Epoch(轮次)、第二轮几个、第三轮几个"来描述,比如"3-1-1"意味着第一轮训练3个Epoch,第二轮和第三轮各训练1个Epoch。对比结果显示,所有分配方案中,"3-1-1"(早期密集、后期节制)的方案在综合六个基准上的表现最好,而"1-1-3"(晚期密集)的方案表现明显更差。

为什么会这样?研究团队通过分析各轮次的奖励曲线找到了解释。采用早期密集训练的策略时,模型在第一轮就建立了扎实的基础能力,进入第二轮和第三轮时初始奖励更高,且随训练步骤稳步提升。而采用晚期密集训练的策略时,模型在第二轮的奖励动态明显更差,说明没有打好基础的学员在面对进化后的更难题目时,学习效率反而更低。

此外,过度训练后期演化出的指令(即题目已经变得非常复杂、角度非常特殊),可能会让模型过度适应一种局部的指令风格,反而在更广泛的测试场景下表现下滑——这是一种过拟合现象。相比之下,在后期保持节制,只做"小火慢炖"式的微调,既能吸收新题目带来的进阶信息,又不至于把早期打好的通用能力基础磨损掉。

这一发现用更日常的语言来表达,就是:在自我进化式的学习中,早期打好基础极为重要;越到后期,每一轮训练的边际收益越小,应该减少训练强度以避免矫枉过正。这和人类学习中"扎实打好地基、后期精进而非死磕"的经验不谋而合。

**九 质检员和评分员到底靠不靠谱?**

有一个显而易见的担忧:SEIF整个系统里,质检和评分都是由AI自己来做的,那这套自我评判机制够不够可靠?研究团队专门做了一组实验来回答这个问题。

他们从公开的VerInstruct数据集中抽取了400个样本,请三位人工标注员来做独立判断——一批用于评估质检员的过滤效果(人工判断题目是否有冲突),另一批用于评估评分员的打分效果(人工判断回答是否满足各个约束条件)。然后将AI的判断结果与人工标注进行比对。

结果显示,质检员在三轮训练中的准确率(Accuracy)稳定在0.79到0.80之间,F1分数(衡量准确率与召回率综合表现的指标)在0.78到0.80之间。评分员的准确率在0.73到0.74之间,F1分数在0.70到0.72之间。两个模块在三轮中的波动都很小,说明随着学员进化而更新的质检员和评分员,并没有出现"越来越偏离人类判断"的漂移现象。

评分员的准确率略低于质检员,这是预期中的——判断一个条件是否真的被"语义上"满足,比判断两个条件是否存在逻辑冲突要主观得多,本身就更难做到与人完全一致。研究团队认为0.73的准确率对于训练目的而言是可以接受的,因为在强化学习的训练场景下,重要的是信号的方向性(哪个更好)而非绝对精确度。

研究团队还进行了一次盲测式的人工偏好评估:从VerInstruct样本中抽取指令,分别让基础模型、SEIF模型、不含出题人进化的版本、Meta-Rewarding方法各生成一个回答,然后让标注员在不知道哪个回答来自哪个模型的情况下,判断哪个更好地遵循了指令。结果显示,SEIF的回答在62.8%的对比中优于基础模型,仅在19.7%的对比中落后;相比去掉出题人进化的版本,SEIF赢了56.5%;相比Meta-Rewarding,SEIF赢了53.5%。这些人工评估结果与自动基准测试的结论一致,说明SEIF的提升是真实的指令遵循质量改善,而非对自身评分体系偏见的过拟合。

**十 从三轮题目进化看AI如何逼自己成长**

为了让读者更直观地感受SEIF是怎么让题目越来越难的,研究论文中提供了多个案例,展示了同一道基础题在三轮训练中是如何被逐步加码的。

以一道"把餐厅关键信息转换成流畅英文句子"的任务为例,基础题是把餐厅名称、菜系、顾客评分、周边地标这四项信息写成一句话。第一轮出题人在上面加了三个限制:所有信息包含在一句话内、至少20个词、用Markdown斜体标注餐厅名和周边地标。这是基础格式控制要求。到了第二轮,限制条件有了微妙变化:最低词数提升到25词,标注格式从斜体换成了粗体,标注对象也从"地标"改成了"周边餐厅"——这要求模型区分得更精准。进入第三轮,条件数量增加到五个,内容难度大幅跃升:使用具体形容词描述餐厅氛围和服务质量(语义要求)、限制在30词以内(从最低要求变成了上限约束)、以过去时写作(时态限制)、提到餐厅附近的Café Rouge(词汇内容要求),以及加入一个关于印度菜系类型的从句(结构复杂性要求)。

从这个案例可以清楚地看到,题目的难度演化有几个典型模式:条件数量从3个增加到5个,单个条件的精确度要求提高(从"大约20词"到"不超过30词"),条件类型从格式扩展到语义、时态、风格,多个条件之间的潜在张力也在增大(既要有描述性形容词,又要控制在30词以内)。这种进化方式确保了题目始终比当前学员的舒适区更难,但又不至于完全不可能完成——就像一个好的健身教练,知道该把杠铃加到什么重量才能刺激肌肉生长,而不是直接让你举超出能力极限的重量造成受伤。

**说到底,这项研究在做什么**

归根结底,复旦大学的这个团队做了一件很有意思的事:他们把"让AI持续变强"这个问题,转化成了一个不需要外部帮助的内部循环。出题人和学员像两个互相较劲的棋友,一个不断想方设法出对方不会的题,另一个拼命学习解出这些题——两个人在博弈中共同进步,而不是其中一个始终扮演老师、另一个始终扮演学生。

这种思路对AI领域的长远发展有一定启发意义。当AI能力不断提升,依靠人类专家来持续提供反馈和训练信号的成本会越来越高,甚至在某些领域会超出人类的判断能力。如果一套系统能够在有限的外部输入基础上,自己产生越来越具有挑战性的训练环境,就为模型的持续改进提供了一条更具可扩展性的路径。

当然,这项研究也坦诚地承认了一个现有局限:真实世界里用户给AI的指令,可能远比训练数据里的复杂——动辄上千个单词,包含多种交织在一起的约束类型,甚至涉及外部文档的引用和隐含要求的理解。现有的SEIF版本在这些极度复杂的场景下还有成长空间。不过,系统在AgentIF(一个包含平均1723词、约12个约束条件的高复杂度测评集)上依然取得了改善,说明这条路有实际可行性。

对于想进一步了解技术细节的读者,完整论文和相关代码可以通过arXiv编号arXiv:2605.07465查询,相关代码和数据也已在GitHub上公开。

Q&A

Q1:SEIF的Instructor(出题人)和Follower(学员)是两个完全不同的模型吗?

A:不是。在SEIF系统里,Instructor和Follower都从同一个基础模型初始化,然后分别经过各自的训练目标进行优化。它们共享起点,但随着训练的推进,各自朝着不同的方向进化——Instructor被训练得越来越擅长出难题,Follower被训练得越来越擅长解难题。Filter(质检员)和Judger(评分员)则在每轮开始时直接复制当前最新的Follower参数,在训练过程中保持冻结,仅用于推理而不更新权重。

Q2:SEIF训练后的模型会不会在指令遵循以外的能力上变差?

A:从实验结果来看,总体上不会出现明显的能力退化。研究团队在GPQA-Diamond、MMLU-Pro、BBEH、AIME这四个通用能力测评上验证了这一点。Distill-Qwen-14B在通用基准上的平均分从59.4微升到60.3,Llama-3.1-8B从24.0小幅提升到24.4。不过,Qwen2.5-7B在GPQA-Diamond上从32.3小幅波动到32.8,属于正常区间。整体而言,SEIF是在原有能力基础上增强指令遵循,而非以牺牲其他能力为代价。

Q3:SEIF的三轮训练中,每轮训练多少步、用多少数据?

A:研究团队使用了5120条种子指令作为训练数据基础。在GRPO训练参数上,全局批次大小为96,每次推理采样5个候选回答(Rollout n=5),Rollout批次大小为384。在训练步数上,Instructor在每一轮(T1、T2、T3)各训练13步,而Follower在第一轮训练39步、第二轮和第三轮各训练13步——这正是论文中发现的"早期充分训练、后期节制训练"策略的体现。整个训练过程在8块H200 GPU上运行,另外4块H200用于vLLM推理服务。