顶部

首页

科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生

齐鲁晚报

科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生

更新时间：2025-09-17 01:48:24　浏览次数： 258

GRPO 就像一个树节点，从这里开始开枝散叶。

大语言模型的发展真是日新月异。

从 DeepSeek 横空出世以来，其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。

GRPO 已经成为一种大模型通用的强化学习算法，能够用在广泛的后训练任务中，甚至包括让大模型玩 2048：

而就在今年，大模型后训练的研究出现了几个重磅结果，包括 Seed 团队的 DAPO，Qwen 团队的 GSPO，微软团队的 GFPO 等等，而他们无一例外都是对 GRPO 范式的改进。

看这些名字都绕晕了，GRPO 到底有什么魔力，能让各大研究团队绕着它团团转；GRPO 又有什么缺陷，各大团队都要在它身上动刀？

通过这篇文章，我们希望能够深入浅出的解释大模型后训练的原理，近期的技术进化路线，以期为读者构建一个完整的知识体系。

后训练与强化学习

很多人会觉得，强化学习是一个非常古老的概念，和全新的大模型好似格格不入。

我们先从大模型说起。

大众理解的大语言模型的概念似乎很简单，从海量数据中自监督学习出来的一个模型，能够预测文本中下一个出现的词，从而输出语言文本。

但这并不完善，这种理解只突出了大模型「预训练」的过程，而完全忽略了「后训练」这一重要过程。

简单来说，从海量数据中学习的过程称为「预训练」，预训练的结果是让模型掌握了通用语言能力，但仅仅如此，模型生成的内并不一定符合偏好；可能生成冗长、不准确的内容；可能不符合应用任务的需求。

换句话说，预训练后的大模型会说话，但不一定会「说对话」。

因此，「后训练」过程就极为重要。后训练的主要目标是强化模型在特定领域的知识和应用能力，增强了模型的适应性和灵活性，使其能够更好地满足实际应用场景中的多样化需求。

而强化学习则是在后训练中不可或缺的核心部分。关于强化学习的理解，我们可以参考先前编译的来自 Unsloth 团队的文章。

强化学习的核心是「反馈」，目标是增加好结果的出现概率，降低坏结果的出现概率。

举个例子，在吃豆人（Pacman）游戏中：如果吃掉一块饼干，反馈是加分；如果你碰到敌人，反馈是扣分。

这是最朴素的强化学习方式了。我们放到大模型训练当中，又该用什么方式给大模型加减分的反馈呢？

我们的核心目标是让大模型输出符合我们任务偏好的内容，那最简单的方式就是人类的反馈。

如果你也这么想，那你的想法和 OpenAI 不谋而合。

在训练 GPT 的时候，OpenAI 就采用了 RLHF（基于人类反馈的强化学习）的方法。在该方法中，需要训练一个 agent 来针对某个问题（状态）生成人类认为更有用的输出。

反馈有了，并非一切万事大吉了。我们通过 RLHF 获得了反馈，通过这个反馈的 Reward 作为一个绝对的标准去直接训练模型，会出现显著的激励不充分和方差过大的问题。

假如有两个模型，A 的初始能力显著比 B 强，通过直接反馈会出现：

模型 B 即使从 30 提升到 60，但和模型 A 的 80 相比，仍然显得很差，优化时它得到的激励仍然有限。

模型 A 在追求更高分时，可能出现一些激进的变化，导致 reward 有时飙升，有时迅速回落，训练过程不稳定。

PPO 的稳定策略

为了在此基础上稳定的实现 RLHF，OpenAI 构建了 PPO（Proximal Policy Optimization，近端策略优化）机制，加入了 Critic、CLIP 操作和 Reference Model，在保证策略更新不过度的同时，依旧能高效提升性能。现在已经成为强化学习领域的标准方法之一，几乎是 RLHF 的默认选择。

针对第一条问题，PPO 引入了 Critic：

它表示新策略相对于旧策略，在动作上的概率变化幅度。如果这个比值偏离 1 太多，就会被限制在一定的范围内，避免模型一次更新的幅度过大。

除此以外，PPO 策略采用 Reference Model 上了双保险，在损失函数中加入相对初始模型的 KL 散度，同样可以避免为了短期反馈而脱离合理的策略。

于是，PPO 的损失函数如下：

从 PPO 到 GRPO

上面的描述应该很好理解 PPO 在做什么事情。

但是 PPO 有一个严重的问题，由于价值函数是随着模型训练同时变动的，也就意味着策略模型本身和 Critic 模型（价值函数）都需要进行训练，并且 Critic 模型的大小和策略模型相同。因此会带来额外的内存和计算负担，训练成本非常高，很难进行 scale up。这可能是财大气粗的 OpenAI 玩得转并且取得领先的原因之一。

为了改善这个双模型策略的高成本问题，最简单的方法就是：去掉一个网络。

如果你一样这么想，那你和 DeepSeek 又不谋而合。

DeepSeek 在大模型训练改进的主要动机是想办法去掉 Critic 模型，为此提出了一种替代方法，也就是大名鼎鼎的组相对策略优化（Group Relative Policy Optimization, GRPO）。

PPO vs GRPO 流程算法对比

从流程算法对比中可以看出来，价值函数直接消失了。那不用价值函数，我们如何确定模型的 Advantage 呢？

GRPO 采用了一个非常合理的方法，不用「学习」一个单独的价值网络当 Critic，而是用这个模型过去多次的「考试成绩」来确定一个基准线。

对同一道题目、同一个状态，先用旧策略采样多条输出，然后把这些输出的平均 Reward 当作 baseline；超过平均值就相当于「正向 Advantage」，低于平均值就是「负向 Advantage」。

在 GRPO 里，除了这一步，还保留了 PPO 中的 Clip 和对 Reference Model 的 KL 正则，这些都可以保障更新的稳定性。不过，KL 散度在 GRPO 的目标函数直接放在了损失函数，这降低了奖励函数的计算复杂度，并且它的计算方案能够保证进行归一化的 KL 值每次都是正值。而在 PPO 中，KL 散度放在奖励函数中。

GRPO 跟 PPO 的重要区别，主要是去掉了价值函数，同时使用策略模型的多个输出采样的奖励模型输出的多个奖励的平均值作为 Advantage 函数。

于是，我们得到了 GRPO 的损失函数：

对于 PPO 到 GRPO，知乎网友将两者在多个维度上进行了比较，如图表所示。

知乎网友@杞鋂分享PPO与GRPO的对比

从 GRPO 开枝散叶

GRPO 在出现后迅速成为一个后训练范式的重要节点，DeepSeek 的模型成功充分证明了 GRPO 范式的有效性和优越性。也因此，后续的改进工作大多都是在 GRPO 的方法基础上进行。

那么 GRPO 到底有啥问题，各个新工作都要在它身上动刀呢？

最致命的问题，哪怕 GRPO 在 PPO 的基础上进行了改进，但在稳定性上与 PPO 方法仍然半斤八两。也就是说 GRPO 仍然存在严重的稳定性问题，很容易导致训练崩溃。

根据数学中国的说法， DeepSeek 的数据足够多，多到可以完美地避开 GRPO 的稳定性缺陷。每次的策略梯度计算，只要 Batch 数据足够多，就能有效降低策略梯度的方差，就能获得比较稳定的迭代了。对于中小规模的 RL 训练，GRPO 并非一个好的选择，尤其是当每次使用的数据批量比较小的时候，它的稳定性缺陷将是致命的。

因此，最新的一些方法针对 GPRO 的不同部分进行了迭代，具体缺陷和优化方式在介绍新工作时细讲。

DAPO

首先要讲的优化范式是 DAPO，这是字节、清华 AIR 在今年三月开源的算法。

使用该算法，该团队成功让 Qwen2.5-32B 模型在 AIME 2024 基准上获得了 50 分，优于同等规模的 DeepSeek-R1-Zero-Qwen-32B，同时 DAPO 版 Qwen2.5-32B 使用的训练步数还少 50%。

但是值得一提的是，DAPO 方法并没有在数学原理上有什么本质上的改变，基本优化目标仍然沿用了 GRPO 的形式，只是对 Clip 等参数和采样机制做出了改进。因此，我们把 DAPO 放在最早讨论的顺位。

在实践过程中，GRPO 存在以下几个问题：

Token 级别的 Clip 容易导致熵崩溃：模型很快收敛到少量固定答案，导致多样性和探索能力不足（熵崩溃）。

Batch 采样中出现奖励极端化：部分样本的奖励可能全部为 1 或 0，从而产生「零梯度」问题，削弱训练信号。

长序列训练的梯度分布失衡：权重分布让极少数 token 的梯度占据主导，导致许多高质量的长序列样本被忽视。

为此，DAPO 根据实践中出现的问题提出了针对性的优化：

1. Clip-Higher 机制：将 Clip 的上下限分开，研究者将较低和较高的剪辑范围解耦为 ε_low 和 ε_high，研究者增加了 ε_high 的值，以便为低概率 token 的增加留出更多空间，能够显著提升模型训练早期的熵。

2. 动态采样：进行过度采样，过滤掉奖励等于 1 和 0 的提示语，只保留有效梯度的样本，提高训练效率。

3. Token 级策略梯度损失：对所有 token 一起求平均，保证长序列的所有 token 都公平地为 batch loss 做贡献，并防止长序列的优化梯度被过度缩小。

4. 超长奖励调整：针对超长样本，当响应长度超过预定义的最大值时，研究者定义一个「soft 罚分」。在这个区间内，响应越长，受到的惩罚就越大，以此避免过长的响应。

因此，DAPO 的优化损失函数如下：

虽然 DAPO 依然是 token 级别的重要性采样，但训练曲线和最终性能提升非常明显。

项目页面：https://dapo-sia.github.io/

GSPO

大的来了。后训练领域里重要的突破是 Qwen3 使用的新方法 GSPO。

上文那么多文字一直在提及 PPO 类似方法的重要级采样均为 token 级，迭代方法一直没有突破 token 采样的限制，而 GSPO 真正在原理上做出了改进。

最近 Qwen 的研究表明，使用 GRPO 训练大语言模型时存在严重的稳定性问题，往往会导致模型不可逆地崩溃。在 Qwen 团队的研究中，揭示了 GPRO 方法的严重问题：

在每个 token 级别应用重要性采样，会在长序列中积累高方差，导致训练不稳定。

这一问题在专家混合模型（Mixture-of-Experts, MoE）中尤为严重，因为 token 级别的路由变化会加剧不稳定性。

如果说 DAPO 是在 GRPO 框架内做微调，那么 GSPO 则是直接调整了优化目标的颗粒度 —— 从 token 级跳到序列级。

重要性采样的作用是：来缓解 off-policy 带来的分布差异情况，也就是说：

我们想要估计一个预期的分布，但是我们手上只有另行为模型的分布，我们就只能在行为策略下进行采样，通过这个样本，赋予重要性权重，来估计出目标策略下函数的值。

但是这种采样的前提在于多次采样，如果只有一次采样，并不能起到分布矫正的作用。问题在于大模型训练过程中，重要性采样都是在 token 级别进行的，单个 token 进行的重要性采样是无法起到分布矫正的作用的，相反，这种采样手段反而会带来很大方差的噪声。

在训练时，奖励其实是针对整段回答打的分，比如一句话、一个完整回复都会得到一个整体评价。

但是在模型优化时，我们通常是在 token 层面进行采样和更新。于是常见的做法是：把奖励直接分摊到每一个 token 上，再逐个去调整。

这就导致了优化目标和奖励目标的颗粒度不匹配：模型可能在单个 token 上学得很用力，但这并不能完全对应整段回答的质量。

为此，Qwen 团队将 GRPO 进化为组序列策略优化（Group Sequence Policy Optimization, GSPO）。

正如其名称所暗示的，GSPO 的核心在于将重要性采样从 token 级转移至序列级，其重要性比值基于整个序列的似然度计算：

这种采样权重的设计自然地缓解了逐 token 方差的累积问题，从而显著提升了训练过程的稳定性。

因此，GSPO 的损失函数为：

GRPO：重要性权重在 token 级，每个 token 都可能被单独裁剪。

GSPO：重要性权重在序列级，裁剪时直接作用于整个回答，更符合奖励信号的整体性。

此外，GSPO 对序列级的重要性还做了长度归一化，不同问题的回答长度差别很大，如果不归一化，importance ratio 会对长度非常敏感，造成不稳定。

最后，因为同一个序列中的所有 token 共用同一个重要性权重，一旦发生 clipping，被裁剪掉的就是整个序列，而不是像 GRPO 那样只影响部分 token。

因此，GSPO 提出的「序列级重要性采样」显著提高了训练的稳定性，很可能会成为未来后训练强化学习的新标准。

论文标题：Group Sequence Policy Optimization

论文链接：https://huggingface.co/papers/2507.18071

博客链接：https://qwenlm.github.io/blog/gspo/

GFPO

在 GSPO 之后不久，微软研究员曝出一个新成果：组过滤策略优化（Group Filtered Policy Optimization，GFPO），另一种颠覆性的强化学习算法。

在 GFPO 工作中，微软研究团队指出了 GRPO 的一个关键限制：

GRPO 依赖于单一的标量奖励信号，这使得它难以联合优化多个属性，例如同时优化简洁性和准确度。

结果就是，GRPO 确实能提高准确度，但也会让响应长度大幅增加。这也导致了大模型遇到一个稍微棘手的问题，就会像陷入沉思一样长篇大论地推下去，耗时耗算力，结果却未必靠谱。

GFPO 正是为了解决这个问题而生的，它可以同时优化多个响应属性。

GFPO 是一种简单而有效的方法，可以针对想要的响应属性进行有针对性的策略优化。

GFPO 会为每个问题采样更大的候选响应组，从而扩大响应池以包含更多具有所需特性的候选响应，然后在计算策略梯度时显式地过滤这些特性，不符合目标属性的响应不进入优化。

数据过滤是一种隐式、灵活的奖励塑造形式 —— 类似于使用选择性采样来放大特定模型行为的迭代式自我改进方法。过滤机制会迭代地放大模型在目标属性上的表现，就像强化学习里的「偏好放大器」。

在此显式过滤步骤分离出所需的响应后，将在所选组内使用标准奖励来计算相对优势。

因此，GFPO 无需复杂的奖励工程，即可同时优化多个所需属性（例如长度和准确度）。

GFPO 的形式化定义如下：

GFPO 的主要干预措施是在 Advantage 估计层面，使其可与任何 GRPO 类似的方法兼容，例如 DAPO、Dr. GRPO 或带有 Dual-Clip PPO 损失的 GRPO。

论文标题：Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

论文地址：https://arxiv.org/abs/2508.09726

GRPO 的一些其他问题

除此以外，也有些研究者发现了 GRPO 的一些其他缺陷，或许可以为未来的研究工作提供一些新思路。

博客链接：https://aryagxr.com/blogs/grpo-limitations.html

缺陷 1：奖励的歧义性

复杂的推理问题通常需要多个奖励信号，因此我们会为每个评判标准单独设计奖励函数。然后，把所有奖励函数的分数加在一起，折叠成一个单一的奖励信号。

问题在于，模型根本无法知道自己到底是因为什么行为被奖励的。虽然我们写了不同的奖励函数，但最后所有奖励依然被合并为一个标量信号。模型又怎么知道奖励是来自「答案正确」，还是「推理清晰」，还是「格式规范」呢？

即使我们调整不同奖励组件的权重，模型看到的仍然只是一个总的标量奖励。

GFPO 一定程度上改善了上述问题。

缺陷 2：标量反馈

在推理任务中，GRPO 会丢弃所有中间的文本反馈，因为传给模型的只是一个数值化的奖励信号。

举个例子，模型训练过程中会打印一些输出，每次猜测都有文字反馈，比如：

「字母 ‘c’ 不应该在答案里」

「‘n’ 不能出现在位置 3」

这些文字反馈对模型其实很有帮助，但在 GRPO 框架下完全用不上，因为它们最终都会被抽象成一个标量奖励。

缺陷 3：多轮推理

另一个瓶颈是多轮推理任务在 GRPO 下的表现。问题的关键在于：

在多轮对话中，每一轮的反馈都会被重新输入到基础模型的 prompt 中，从而导致指数级分支（exponential forking），使得 GRPO 在多轮任务中的训练变得非常痛苦。见下图：

写在最后

简单总结一下，后训练的发展脉络其实很清晰。从 OpenAI 提出 PPO 的后训练方法开始，都在此基础上缝缝补补。

GRPO 是 PPO 基础上重要的更新范式，自 GRPO 起，后训练策略优化就作为大模型的一个重要研究方向进行，就像树节点一样向外延伸。

PPO：以 token 为核心，依赖价值函数。

GRPO：提出组优化思路，在组内对奖励做归一化，从而摆脱价值函数依赖；但仍停留在 token 级，方差依旧较大。

DAPO：在 GRPO 基础上加入大量工程改进（如 Clip-Higher、Dynamic Sampling 等），一定程度缓解大模型 RL 的训练瓶颈，但仍停留在 token 级。

GSPO：实现范式转变，将 off-policy 与 clip 全部提升到序列级，显著降低方差，兼具算法简洁性与性能表现，已成为 Qwen3 RL 的核心实践框架。

GFPO：针对同时优化多个所需属性的目标进行优化，加入数据过滤操作。

科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生24小时观看热线：122。科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生全市各区点热线号码。☎：122

科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生24小时观看热线拥有专业的观看技师，快速的上门，为你的生活排忧解难。如您有以下需要我们来解决的问题请尽快与我们联系。我们能为您排除各种故障，特别是疑难杂症。

1.热情专业的团队

科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生是您解决问题的最佳选择。我们拥有一支热情、专业的团队，竭诚为您提供优质的。无论您遇到哪些问题或疑虑，只需拨打122，我们的将会耐心倾听并提供您所需的帮助。您的满意是我们的追求。

2.红色字体，标志品质保障

当您拨打科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生的电话热线122时，您会惊喜地发现号码是以鲜艳的红色字体显示。这不仅是为了吸引您的注意，更是对我们产品卓越品质的保证。红色代表着力量和热情，我们希望通过热情的为您提供最可靠的解决方案，确保您的使用体验无忧无虑。

3.您的需求是我们最大的动力

我们深知客户的需求是我们成长的源泉，因此，您的需求总是我们最关心的问题。无论您遇到什么问题，无论大小，我们都将以最快的速度和最专业的态度进行处理。您只需拨打我们的电话热线，详细描述问题，我们将竭尽全力为您解决。您的满意度是我们工作的最终目标。

4.全方位的解决方案

一旦您拨通了科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生的电话热线122，我们将全面了解您的问题，并提供最合适的解决方案。无论是技术问题、、观看咨询还是其他相关问题，我们都将通过专业分析和经验丰富的团队来解决您的困扰。您的信赖是我们不懈努力的动力。

5.周到贴心的

我们追求卓越品质的同时，也注重周到贴心的。在您使用科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生的过程中，如果遇到了任何问题或需要观看，您只需拨打122，我们将及时安排人员为您提供全程跟踪。我们将无微不至地为您解决问题，确保您的家居生活舒适温暖。

结语

无论是产品质量还是，科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生都以高品质标准来追求客户的满意度。拨打我们的科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生电话热线122，您将得到热情专业的团队的全方位支持。我们将竭诚为您提供最可靠、高效和周到的解决方案，为您带来舒适的家居体验。

5、全部在线支付，方便快捷，保障权益。支持支付宝，微信付款

清远市（清城、清新）

宜昌市（宜都市、长阳土家族自治县、👻当阳市、🖐五峰土家族自治县、西陵区、兴山县、夷陵区、远安县、点军区、枝江市、猇亭区、秭归县、伍家岗区、👵市辖区）

淮安市（淮安、淮阴、👈清江浦、✊洪泽）

巴彦淖尔市（杭锦后旗、磴口县、乌拉特中旗、♓️乌拉特后旗、乌拉特前旗、🍵️市辖区、💜临河区、🌿五原县）

焦作市（解放、中站、马村、山阳）

娄底市（娄星）

鞍山市：🌴铁东区、铁西区、💔立山区、🏐千山区。

郴州市（北湖、苏仙）

牡丹江市：🌒东安区（部分区域未列出）、西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

唐山市（丰润区、💢丰南区、遵化市、😫迁安市、🥕️开平区、唐海县、🐳滦南县、🐏乐亭县、滦州市、玉田县、🕙迁西县、遵化市、唐山市路南区）

南通市（崇川区，港闸区，开发区，🤠海门区，🍧海安市。）

厦门市（思明、海沧、🤘湖里、🐡集美、同安、翔安）

湘西土家族苗族自治州（凤凰县、🍯永顺县、⚛️泸溪县、😲保靖县、🍤吉首市、花垣县、龙山县、古丈县）

白山市：浑江区、🔯江源区。

江门市（蓬江、江海、新会）

常熟市（方塔管理区、✋虹桥管理区、🥚琴湖管理区、🍶兴福管理区、谢桥管理区、😎大义管理区、😟莫城管理区。）宿迁(宿豫区、🍥宿城区、☣️湖滨新区、洋河新区。)

荆州市（沙市、👨荆州）

三亚市（淮北、🥟吉阳、天涯、崖州）

廊坊市（安次、广阳）

无锡市科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生电话-400各市区电话（梁溪、滨湖、惠山、新吴、锡山）

宜春市（袁州）

六安市（日照安、🍹裕安、叶集）

锦州市（凌海市、😞义县、🍸黑山县、♐️凌河区、〽️市辖区、古塔区、☢️北镇市、🍆太和区）

银川市（永宁县、兴庆区、西夏区、金凤区、🤔贺兰县、灵武市、市辖区）

安康市（宁陕县、🐥白河县、😸汉阴县、岚皋县、🦒石泉县、✍市辖区、紫阳县、👆汉滨区、💢旬阳县、镇坪县、🌓平利县）

宜昌市（伍家岗区、西陵区、点军区、🕚猇亭区、😋夷陵区、🏏远安县、🏈兴山县、秭归县、🔆长阳土家族自治县、🏒五峰土家族自治县、🌐宜都市、当阳市、🌳枝江市、🗡虎亭区）

白山市：浑江区、👆江源区。

赣州市（南康区、🌯章贡区、🍾赣县区、🅾️信丰县、大余县、上犹县、😌崇义县、安远县、🌾龙南县、👏定南县、全南县、宁都县、☺️于都县、兴国县、🛐会昌县、寻乌县、石城县、长征镇、沙洲镇、黄冈镇）

绍兴市（越城、柯桥、上虞）

杭州市（临安、🚳上城、下城、🐅江干、拱野、🆔西湖、滨江、余杭）

揭阳市（榕城、🥯揭东）

鹰潭市（余江县、市辖区、🐐贵溪市、😕月湖区）

邯郸市（邯山、😙丛台、😙复兴、🦀峰峰矿、肥乡、永年）

巴彦淖尔市（杭锦后旗、磴口县、乌拉特中旗、♎️乌拉特后旗、乌拉特前旗、♈️市辖区、🦡临河区、🈷️五原县）

宜昌市（伍家岗区、西陵区、点军区、猇亭区、夷陵区、❇️远安县、兴山县、秭归县、🦠长阳土家族自治县、🍉五峰土家族自治县、💕宜都市、🧒当阳市、枝江市、虎亭区）

襄阳市（樊城区、襄州区、老河口市、☦️‍宜城市、南漳县、谷城县、保康县、🥝‍枣阳市、定南县、🍵随州市、白浪镇、城关镇、⛎赵家镇、东津镇、堰头镇）

湖州市（南湖、秀洲）

马鞍山市（花山、雨山）

邢台市（柏乡县、临西县、任县、🅰️‍新河县、🖕宁晋县、南宫市、🔅内丘县、清河县、😜‍巨鹿县、🍙临城县、🐤隆尧县、✨南和县、威县、桥东区、邢台县、☕️市辖区、平乡县、桥西区、🤙广宗县、沙河市）

银川市（永宁县、🐵兴庆区、🥨西夏区、🐽金凤区、贺兰县、🥦灵武市、市辖区）

遵义市（汇川区、红花岗区、遵义县、🅱️桐梓县、绥阳县、正安县、道真仡佬族苗族自治县、🐥务川县、👎凤冈县、🛐湄潭县、余庆县、习水县、😒‍赤水市、🕎仁怀市、土家族苗族自治县、🌩铜仁市、🌿松桃苗族自治县、万山区、黔西县）

襄阳市（襄城、⚜️樊城、🐦‍襄州）

长春市（南关、宽城、🧀️朝阳、二道、⚔️绿园、双阳）

桂林市（象山区、叠彩区、🐡‍七星区、☝️临桂区、阳朔县、🐋灵川县、全州县、兴安县、灌阳县、荔浦市、🤲资源县、平乐县、恭城瑶族自治县、龙胜各族自治县、永福县）

重庆市（绵阳、🌪涪陵、渝中、🥀大渡口、🈸️江北、😖沙坪坝、🈹️九龙坡、南岸、北培、万盛、双桥、渝北、巴南）

鞍山市（铁西区、海城市、台安县、岫岩满族自治县、立山区、♋️铁东区、🐏‍市辖区、🧡千山区）

蚌埠市（五河县、🕣️固镇县、👇市辖区、淮上区、龙子湖区、蚌山区、怀远县、禹会区）

襄阳市（襄城、🎄樊城、襄州）

太原市（小店、🤖迎泽、杏花岭、尖草坪、🤙万柏林、🏏️晋源）

南昌市（青山湖区、🏺️红谷滩新区、🌼东湖区、西湖区、❔青山湖区、🤘‍南昌县、进贤县、🐞安义县、湾里区、🌍地藏寺镇、⚰️瑶湖镇、铜鼓县、昌北区、🏓青云谱区、🤙‍望城坡镇）

宁波市（海曙、🦈️江东、🎾江北、🥮北仑、🍃镇海）

甘肃省兰州市（城关区、👈七里河区、西固区、🥏安宁区、红古区、永登县、皋兰县、榆中县、兰州新区、皋兰县、🆑雁滩区）

抚顺市：🐒顺城区、新抚区、🐃东洲区、望花区。

衡阳市（珠晖、雁峰、👏石鼓、👲蒸湘、南岳）

咸宁市（通山县、⁉️咸安区、崇阳县、通城县、🌸市辖区、赤壁市、嘉鱼县）

新竹县（新丰乡、🥞峨眉乡、湖口乡、🐑关西镇、新埔镇、🅰️横山乡、尖石乡、北埔乡、竹东镇、🍠宝山乡、芎林乡、❇️五峰乡、☢️竹北市）

太仓市(城厢镇、金浪镇、⛅️沙溪镇、璜泾镇、浏河镇、浏家港镇；)

南通市（崇州、港闸、通州）

宜昌市（西陵、伍家岗、🐟‍点军、猇亭、🥏️夷陵）

铁岭市：🖕银州区、🍲清河区。

贵州省安顺市（西秀区、🌝平坝区、普定县、镇宁布依族苗族自治县、🐤关岭布依族苗族自治县、😉紫云苗族布依族自治县、💣安顺市、开阳县）

抚顺市：顺城区、新抚区、🐣东洲区、☪️望花区。

济南市（历下、市中、槐荫、天桥、🐍历城、长清）

珠海市（香洲区、斗门区、🍷金湾区、👴横琴新区、万山区、🙃珠海高新区、🍝唐家湾镇、🤭三灶镇、白石镇、♓️前山镇、♏️南屏镇、🌝珠海港镇、金鼎镇）

铁岭市：💜银州区、清河区。

南昌市（东湖区、🖐西湖区、🌰青山湖区、红谷滩新区、南昌县、新建区、😬安义县、进贤县、🔪️湾里区、😤昌北区）

南投县（信义乡、🍯竹山镇、🥄中寮乡、🥚水里乡、🦅‍草屯镇、🤚仁爱乡、名间乡、🥖埔里镇、😌鹿谷乡、国姓乡、鱼池乡、🐊集集镇、南投市）

榆林市（榆阳区,横山区）朝阳市（双塔区、龙城区）

上饶市（信州、广丰、广信）

益阳市（南县、资阳区、🥫‍桃江县、🤯市辖区、🥫‍沅江市、赫山区、安化县）

南昌市（东湖区、西湖区、🍏青山湖区、红谷滩新区、南昌县、🐆安义县、进贤县、经开区、青山湖区、湾里区、🍉赣江新区、青云谱区、😺浔阳区）

临沂市（兰山区、🥦️罗庄区、🥃️河东区、沂南县、郯城县、❎苍山县、🐞‍费县、❎蒙阴县、临沭县、⛎兰陵县、莒南县、平邑县、沂水县、🦟临沂高新技术产业开发区）

本溪市：平山区、明山区、💫溪湖区、南芬区。

乐山市（市中、🤯沙湾、五通桥、日照口河）

鹤壁市（淇县、🕣鹤山区、✡️浚县、山城区、市辖区、淇滨区）

白山市（靖宇县、🌴浑江区、江源区、长白朝鲜族自治县、抚松县、🕜临江市、🆔市辖区）

贵州省安顺市（西秀区、平坝区、普定县、镇宁布依族苗族自治县、🐺关岭布依族苗族自治县、✡️紫云苗族布依族自治县、安顺市、🥛开阳县）

九江市（莲溪、🦢浔阳）

牡丹江市：东安区（部分区域未列出）、🍔西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

东莞市（莞城、🧑南城、🥔万江、东城,石碣、😘石龙、🥠‍茶山、🦈石排、🍟企石、横沥、桥头、谢岗、👴东坑、♎️常平、🐗寮步、♓️大朗、黄江、清溪、塘厦、凤岗、🧓长安、✝️惠东、😑厚街、🍧沙田、道窖、洪梅、🍭麻涌、😍中堂、👍高步、🐸樟木头、👐大岭山、😳望牛墩）

通辽市（科尔沁区、😧扎鲁特旗、✊开鲁县、霍林郭勒市、市辖区、👴科尔沁左翼中旗、🦍库伦旗、科尔沁左翼后旗、🙁奈曼旗）

桂林市（秀峰区、🕤️象山区、七星区、雁山区、💖临桂区、😷阳朔县、资源县、平乐县、灌阳县、🧑荔浦市、灵川县、全州县、😻永福县、🐊龙胜各族自治县、🏹恭城瑶族自治县）：🍦

嘉兴市（海宁市、😇市辖区、🐐秀洲区、👻平湖市、❇️桐乡市、南湖区、🥫嘉善县、海盐县）

常熟市（方塔管理区、😜虹桥管理区、琴湖管理区、🦠兴福管理区、谢桥管理区、大义管理区、莫城管理区。）宿迁(宿豫区、😒宿城区、🐦湖滨新区、洋河新区。)

台州市（椒江、👌黄岩、🙈️路桥）

泰州市（海陵区、😦高港区、姜堰区、兴化市、💥泰兴市、🕉靖江市、👎扬中市、丹阳市、泰州市区、姜堰区、👇️海安镇、周庄镇、🍷东进镇、世伦镇、🤠‍青龙镇、杨湾镇、🦉️马桥镇）

牡丹江市：东安区（部分区域未列出）、👇️西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

雅安市（汉源县、市辖区、🕗名山区、🌝石棉县、🥚荥经县、宝兴县、天全县、☪️芦山县、⁉️雨城区）

南充市（顺庆区、🐁高坪区、♑️‍嘉陵区、♒️‍南部县、🍡营山县、蓬安县、☘️仪陇县、♈️西充县、🌓阆中市、抚顺县、阆中市、😶‍南充高新区）

郴州市（宜章县、😪嘉禾县、⛎永兴县、🤤汝城县、市辖区、桂东县、北湖区、桂阳县、苏仙区、🦜临武县、安仁县、资兴市）

山南市（错那县、琼结县、🕐洛扎县、🦗贡嘎县、☣️️桑日县、👿曲松县、🦜浪卡子县、☝️市辖区、隆子县、🕉加查县、😰扎囊县、乃东区、措美县）

南昌市（青山湖区、红谷滩新区、东湖区、👏西湖区、青山湖区、南昌县、进贤县、安义县、😻湾里区、🕥地藏寺镇、瑶湖镇、😶铜鼓县、🌲昌北区、青云谱区、望城坡镇）

株洲市（荷塘、芦淞、石峰、❔天元）

辽阳市（文圣区、🦡宏伟区、😞弓长岭区、太子河区、🐘灯塔市、🎂️辽阳县、白塔区、广德镇、双台镇、桥头镇、长春镇、😆合德镇、🤗兴隆镇、安平镇、辛寨镇、🍹黄土岭镇）

舟山市（市辖区、🤜定海区、嵊泗县、普陀区、☝️️岱山县）

玉溪市（澄江县、😝江川县、易门县、华宁县、新平彝族傣族自治县、🕝元江哈尼族彝族傣族自治县、☕️通海县、抚仙湖镇、红塔区、☸️龙潭街道、南北街道、白石街道）

三明市（梅列、⭐️三元）

柳州市（柳北区、柳南区、柳江县、柳城县、🕛️鹿寨县、融安县、🐩融水苗族自治县、三江侗族自治县、城中区、鱼峰区、柳东新区、柳市镇）

保定市（莲池、竞秀）

德州市（陵城区、乐陵市、宁津县、庆云县、♉️️临邑县、🍜平原县、🍬武城县、夏津县、禹城市、德城区、🌰禹城市、🍈齐河县、🤤开封县、双汇镇、😳东风镇、商丘市、阳谷县、🈚️共青城市、城南新区）

昆山市（昆山开发、高新、📳综合保税）

许昌市（魏都）

济南市（历下、市中、😺槐荫、👲️天桥、🐍历城、长清）

安康市（宁陕县、🆔白河县、汉阴县、✌️️岚皋县、石泉县、市辖区、紫阳县、🕗汉滨区、🌎️旬阳县、镇坪县、平利县）

常州市（天宁、☦️钟楼、新北、武进、日照坛）

郑州市（中原、二七、管城、日照水、🤠上街、惠济）

中卫市（沙坡头区、海原县、中宁县、🍼市辖区）

金华市（武义县、东阳市、磐安县、浦江县、🐏‍兰溪市、🍞永康市、婺城区、义乌市、🕖市辖区、金东区）

长沙市（芙蓉、✌天心、岳麓、✴️开福、👏雨花、望城）

葫芦岛市：龙港区、🕐南票区、😭连山区。

沧州市（新华区、运河区、👐沧县、青县、🤞东光县、海兴县、盐山县、肃宁县、南皮县、😍吴桥县、献县、♏️‍孟村回族自治县、河北沧州高新技术产业开发区、沧州经济技术开发区、⚡️任丘市、黄骅市、🏉河间市、泊头市）

邢台市（邢台县、🧀南和县、清河县、临城县、🐨广宗县、威县、宁晋县、💚柏乡县、🤖任县、💮内丘县、南宫市、沙河市、任县、邢东区、邢西区、🦡平乡县、🔞️巨鹿县）

巴彦淖尔市（杭锦后旗、磴口县、🥐乌拉特中旗、乌拉特后旗、🥚乌拉特前旗、🥖市辖区、临河区、五原县）

连云港市（连云、海州、赣榆）

淮安市（淮阴区、清河区、淮安区、🥂涟水县、🦙洪泽区、🥞️盱眙县、金湖县、楚州区、🌘️淮安区、🦛海安县、😴亭湖区、🎣淮安开发区）

玉林市（玉州）

柳州市（城中、🕎鱼峰、🍳柳南、柳北、🕣柳江）

新竹县（新丰乡、🤙峨眉乡、🤖湖口乡、关西镇、新埔镇、🕦横山乡、尖石乡、🤨北埔乡、🐈竹东镇、宝山乡、😯芎林乡、五峰乡、竹北市）

临沂市（兰山、❇️罗庄、河东）

连云港市（连云、🍿海州、🐆赣榆）

廊坊市（安次、广阳）

赣州市（南康区、👲‍赣县区、于都县、兴国县、🐂章贡区、龙南县、大余县、🥚信丰县、安远县、全南县、🍻宁都县、✡️定南县、上犹县、⛳️崇义县、🦄南城县）

玉溪市（澄江县、江川县、通海县、❗️华宁县、🥕易门县、峨山彝族自治县、抚仙湖镇、新平县、元江哈尼族彝族傣族自治县、红塔区、🐄玉溪县、😖敖东镇、🦆珠街镇）

宜昌市（宜都市、🐓长阳土家族自治县、当阳市、五峰土家族自治县、西陵区、兴山县、🍙夷陵区、远安县、点军区、😸枝江市、🥭猇亭区、秭归县、🍥伍家岗区、💟市辖区）

绵阳市（江油市、📳北川羌族自治县、梓潼县、市辖区、盐亭县、涪城区、安州区、🐂三台县、🐐平武县、游仙区）

湘潭市（雨湖、🥓岳塘）

漳州市（芗城、🙀龙文）

嘉义县（朴子市、☀️‍番路乡、民雄乡、竹崎乡、梅山乡、义竹乡、大林镇、😌布袋镇、新港乡、太保市、六脚乡、🥔大埔乡、🤟鹿草乡、🐞️溪口乡、水上乡、🧡中埔乡、阿里山乡、🐁东石乡）

纳芯微成交额创2022年4月25日以来新高　　数据宝统计，截至11:21，纳芯微成交额15.77亿元，创2022年4月25日以来新高。最新股价上涨12.32%，换手率5.53%。上一交易日该股全天成交额为6.03亿元。（数据宝）海量资讯、精准解读，尽在新浪财经APP

还没有人评论过，快来抢首评

抢首评

科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生

科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生

推荐阅读

徐艺洋老板就能上我卫生间吗

呷哺呷哺创始人回应年亏亿

花间一梦 2025-09-17 01:48:24 553

昨天才知道我十月四号要结婚了

我找到了乌尔善偷跑物料的证据

在聚餐的男朋友突然给我发晚安

外国男子强奸土耳其岁女童引发骚乱

沈腾马丽新片没苦硬吃

贾玲再次导演影后双提百花奖

爸爸花了两千给弟弟填的志愿

科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生

科普向: 一文解构大模型后训练, GRPO和它的继任者们的前世今生

长按复制以下链接，粘贴给好友吧！

徐艺洋老板就能上我卫生间吗

呷哺呷哺创始人回应年亏亿

花间一梦 2025-09-17 01:48:24 553

昨天才知道我十月四号要结婚了

我找到了乌尔善偷跑物料的证据

在聚餐的男朋友突然给我发晚安

外国男子强奸土耳其岁女童引发骚乱

沈腾马丽新片没苦硬吃

贾玲再次导演影后双提百花奖

爸爸花了两千给弟弟填的志愿