· · ·

2026世界杯赔率

2026世界杯赔率

B·体育世界杯(中国)官方网站 VeRL-Omni: 面向扩散和全模态生成模子的通用RL后训诫框架

发布日期:2026-05-28 04:53 来源:未知 作者:admin 浏览次数:

B·体育世界杯(中国)官方网站 VeRL-Omni: 面向扩散和全模态生成模子的通用RL后训诫框架

VeRL-Omni 是一个面向多模态生成模子的通用 RL 后训诫框架,由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。遮掩扩散 transformer(Qwen-Image)、羼杂 AR-DiT(Qwen-Omni)、结伙相识 + 生成(BAGEL、HunyuanImage-3.0)等架构。

多模态 rollout 走 vLLM-Omni 的异步高浑沌 serving,VLM-as-judge / OCR 奖励模子走 vLLM 推理,并与 rollout、训诫 overlap。Qwen-Image OCR FlowGRPO 演示中,把奖励模子放到零丁 GPU 可将每步 wall-clock 时分缩短约 14%。

VeRL-Omni 架构

代码: github.com/verl-project/verl-omni

文档: verl-omni.readthedocs.io

vLLM 官方博客:vllm.ai/blog/verl-omni

为什么需要 VeRL-Omni

RL 依然成为把大型生成模子对皆到东谈主类偏好与下流任务奖励的有劲时代。当年一年 LLM 的 RL 训诫栈马上演进,但多模态生成 RL—— 遮掩图像 / 视频 / 音频相识与生成的扩散和全模态模子 —— 还有几个要津缺口:

扩散与全模态扩张:把 verl 的机动性和性能蔓延到多模态、非自回首 RL 训诫的天下,包括扩散 transformer 骨干(Qwen-Image)、羼杂 AR-DiT 架构(Qwen-Omni)、结伙相识 + 生成模子(BAGEL、HunyuanImage-3.0);

异构 rollout 活水线:Rollout 是汇注 latent 空间里的去噪轨迹,而不是 token 序列;单次 rollout 还可能调用多个异构模子组件、走多阶段活水线(text encoder → DiT → VAE);

复杂的负载转机:多模态 RL 训诫的奖励函数自己便是多模态模子(VLM judge、OCR scorer 等),多模态生成 rollout 的峰值显存又比文本生成高得多,把这些职责流编排好并不简便。

要津特质

高效的多模态 rollout: 集成 vLLM-Omni 的异步高浑沌多模态生成 serving,精度与 diffusers 握平。VeRL-Omni 与 vLLM-Omni 协同,通过 step-wise continuous batching、embedding caching 等握续优化 rollout 成果。

机动的奖励引擎: 同期复旧基于规定的奖励与基于模子的奖励(如 VLM-as-judge for OCR)。集成 vLLM 用于高效的 VLM / LLM 奖励模子推理。奖励计较与 rollout、训诫经过 overlap,缩短端到端延迟。

模块化训诫后端: 提供多种 trainer(DiffusersFSDP / Megatron / VeOmni),针对扩散和全模态模子内置优化,便于接入不同并行计策(FSDP / USP / TP)。

开阔的硬件兼容: 同期复旧 NVIDIA GPU 和昇腾 NPU,部署可在多种硬件后端之间机动切换。

端到端训诫 recipe 与基准: 提供参考性能截止;成绩于上述特质,训诫浑沌不错作念得很高。

算法与模子复旧

环球体育官网登录入口

上手指南

装配

详见装配文档:

https://verl-omni.readthedocs.io/en/latest/start/install.html

训诫扩散模子

examples 目次(https://github.com/verl-project/verl-omni/tree/main/examples)提供了不同 RL 算法 trainer 的启动剧本,遮掩图像 / 音频 / 视频相识与生成任务。训诫性能与截止不错通过 wandb 追踪。

Demo:Qwen-Image FlowGRPO 后训诫

在 flowgrpo 示例中,团队用 OCR 奖励任务训诫 Qwen-Image。奖励模子聘请 Qwen3-VL-8B-Instruct,通过读取生成图像里的渲染笔墨、与数据集 ground truth 比对,对生成图像评分。

flowgrpo 示例:https://github.com/verl-project/verl-omni/tree/main/examples/flowgrpo_trainer

算法回想

FlowGRPO 算法浮现

FlowGRPO 浮现

FlowGRPO 是面向 flow-matching 模子的在线计策步调。它通过 diffusion policy 模子作念多步 SDE 采样以消释高效 RL 探索,并聘请基于模子的奖励评估生成质料。

训诫经过主要分四步:

Rollout 生成: 扩散 policy 模子生成样本 rollout,B·体育世界杯(中国)官方网站集结 log probability 和生成图像的轨迹。

奖励模子打分:奖励模子给每个生成样本打分,用于计较 trajectory advantage。

计策优化:用 FlowGRPO CLIP-style loss 更新计策,基于 advantage 优化奖励。

权重同步:依期把 trainer 最新的计策权重同步到 rollout worker,确保生成样本反馈最新计策。

LoRA 微调

NVIDIA H800 GPU 上的训诫浑沌如下:

把奖励模子放到零丁 GPU 上,与计策训诫 overlap,每步 wall-clock 时分缩短约 14%。

全模子微调

团队还考据了 non-CFG 全模子 Qwen-Image OCR 训诫,在 4×NVIDIA H200 上达到 0.510 images/GPU/s,每步约 250 s。

底下不错看到,仅 120 步训诫后,生成图像的笔墨渲染质料已有显赫提高。

底下是参考训诫弧线,critic reward 与 validation reward 都不停适应。

好意思满训诫主见说高见 Training Metrics 文档。

文档地址:https://verl-omni.readthedocs.io/en/latest/start/metrics.html

后续门道图

VeRL-Omni 仍处于活跃迭代的预发布阶段,扩散 RL 中枢栈依然适应。门道图聚焦在扩张模子 / 算法复旧,并不时推动高效多模态 RL 训诫的规模。

模子复旧扩张: 跟进开源的扩散和全模态模子,遮掩图像 / 视频 / 音频生成任务以及结伙相识 + 生成任务;

算法复旧扩张: 握续集成适应、先进的 RL 算法(如 DiffusionNFT);

全异步 RL: 在 actor、rollout、reward 之间走端到端异步活水线,超出刻下的异步奖励规模,进一步提高训诫浑沌和 GPU/NPU 诈欺率;

与 vLLM-Omni 协同优化: 生成 rollout 在训诫时分中占比很大,将通过更精细的 vLLM-Omni 集成(并行、量化、batching、转机优化等)不时加快多模态 rollout;

高效全模态 trainer: 在 DiffusersFSDPTrainer 除外,打算放出更多针对全模态与扩散模子的高度优化 trainer 引擎,基于 Megatron-core 与 VeOmni;

更广的硬件复旧: 不时打磨昇腾 NPU 旅途,并通过 hardware plugin 系统接待更多硬件后端。

扩散和全模态 RL 后训诫仅仅个运行。VeRL-Omni 团队正在握续复旧更多架构与算法B·体育世界杯(中国)官方网站,接待全部塑造畴昔。