Skywork-R1V 2.0版本再开源!最强高考数理解题利器、实现多模态推理再进化

2025-04-24 15:15:50     来源:

3 月 18 日,昆仑万维正式开源首款工业界多模态思维链推理模型 Skywork-R1V,开启多模态思考新时代。继 Skywork-R1V 首次成功实现“强文本推理能力向视觉模态的迁移”之后,昆仑万维再度发力,今天正式开源多模态推理模型的全新升级版本 —— Skywork-R1V 2.0(以下简称 R1V 2.0) 。

01

R1V 2.0 性能全面提升并开源,视觉与文本推理能力双管齐下

Skywork-R1V 2.0 是当前最均衡兼顾视觉与文本推理能力的开源多模态模型,该多模态模型在高考理科难题的深度推理与通用任务场景中均表现优异,真正实现多模态大模型的“深度 + 广度”统一。升级后的 R1V 2.0 模型颇具亮点:

-中文场景领跑:理科学科题目(数学/物理/化学)推理效果拔群,打造免费AI解题助手;

-开源巅峰:38B 权重 + 技术报告全面开源,推动多模态生态建设;

-技术创新标杆:多模态奖励模型(SkyworkVL Reward) 与 混合偏好优化机制(MPO),全面提升模型泛化能力;选择性样本缓冲区机制(SSB),突破强化学习“优势消失”瓶颈。

在多个权威基准测试中,R1V 2.0 相较于 R1V 1.0 在文本与视觉推理任务中均实现显著跃升。无论是专业领域任务,如数学推理、编程竞赛、科学分析,还是通用任务,如创意写作与开放式问答,R1V 2.0 都呈现出极具竞争力的表现:

-在 MMMU 上取得 73.6 分,刷新开源 SOTA 纪录;

-在 Olympiad Bench 上达到 62.6 分,显著领先其他开源模型;

-在 MathVision、MMMU-PRO 与 MathVista 等多项视觉推理榜单中均表现优异,多项能力已可媲美闭源商业模型,堪称当前开源多模态推理模型中的佼佼者。

在与开源多模态模型的对比中,R1V 2.0 的视觉推理能力(在众多开源模型里)脱颖而出。

如下图所示,R1V2.0 也展现出媲美商业闭源多模态模型的实力。

而在文本推理方面,在 AIME2024 和 LiveCodeBench 等挑战中,R1V 2.0 分别取得了78.9 分和 63.6 分,展现出了人类专家级数学与代码理解能力。在与专用文本推理模型对比中,R1V2.0 同样展现出卓越的文本推理能力。

02

技术亮点一:推出多模态奖励模型 Skywork-VL Reward,全面开源

自 R1V 1.0 开源以来,昆仑万维团队收获了来自全球开发者与研究者的广泛反馈。在模型推理能力显著提升的同时,团队也发现,过度集中于推理任务的训练,会限制模型在其他常规任务场景下的表现,影响整体的泛化能力与通用表现。

为实现多模态大模型在“深度推理”与“通用能力”之间的最佳平衡,R1V 2.0 引入了全新的「多模态奖励模型 Skywork-VL Reward」及「规则驱动的混合强化训练机制」。在显著增强推理能力的同时,进一步稳固了模型在多任务、多模态场景中的稳定表现与泛化能力。

Skywork-VL Reward,开启多模态强化奖励模型新篇章:

当前,行业中多模态奖励模型的缺乏,已成为强化学习在 VLM(Vision-Language Models)领域进一步发展的关键瓶颈。

现有奖励模型难以准确评价跨模态推理所需的复杂理解与生成过程。为此,昆仑万维推出了 SkyworkVL Reward模型,既可为通用视觉语言模型(VLM)提供高质量奖励信号,又能精准评估多模态推理模型长序列输出的整体质量,同时也可以作为并行线上推理最优答案选择的利器。

这种能力使得 Skywork-VL Reward 模型在多模态强化学习任务中具有广泛的适用性,促进了多模态模型的协同发展:

-跨模态引领者:率先提出多模态推理与通用奖励模型,推动多模态强化学习;

-榜单标杆:在视觉奖励模型评测中名列第一,7B 权重与技术报告全面开源;

-信号全覆盖:支持从短文本到长序列推理的多元化奖励判别。

Skywork-VL Reward 在多个权威评测榜单中表现优异:在视觉奖励模型评测榜单 VL-RewardBench 中取得了 73.1 的SOTA成绩,同时在纯文本奖励模型评测榜单 RewardBench 中也斩获了高达 90.1 的优异分数,全面展示了其在多模态和文本任务中的强大泛化能力。

为回馈社区和行业,团队也将 Skywork-VL Reward 完整开源。

03

技术亮点二:引入多重优化策略提升核心效果

长期以来,大模型训练面临“深度推理提升”与“通用能力保持”的难以兼得难题。为解决这一“推理–通用”的能力跷跷板问题,以及解决通用问题没有直接可验证的答案的挑战,R1V 2.0 引入了 MPO(Mixed Preference Optimization,混合偏好优化) 机制,并在偏好训练中充分发挥 Skywork-VL Reward 奖励模型的指导作用。

和 R1V 1.0 思路类似,我们使用提前训练好的 MLP 适配器,直接将视觉编码器 internVIT-6B 与原始的强推理语言模型 QwQ-32B 连接,形成 R1V 2.0-38B 的初始权重。这样一来,R1V 2.0 在启动即具备一定的多模态推理能力。

在通用任务训练阶段,R1V 2.0 借助 Skywork-VL Reward 提供的偏好信号,引导模型进行偏好一致性优化,从而确保模型在多任务、多领域下具备良好的通用适应能力。实验证明,Skywork-VL Reward 有效实现了推理能力与通用能力的协同提升,成功实现“鱼与熊掌兼得”。

在训练深度推理能力时,R1V 2.0 在训练中采用了 基于规则的群体相对策略优化GRPO(Group Relative Policy Optimization) 方法。该策略通过同组候选响应之间的相对奖励比较,引导模型学会更精准的选择和推理路径。

R1V 2.0 所采用的多模态强化训练方案,标志着大模型训练范式的又一次重要革新,也再次验证了强化学习在人工智能领域无法撼动的地位。通过引入通用性更强的奖励模型 Skywork-VL Reward,以及高效稳定的样本利用机制 SSB,我们不仅进一步提升了R1V系列模型在复杂任务中的推理能力,同时也将开源模型跨模态推理泛化能力提升到了全新高度。

R1V 2.0 的诞生,不仅推动了开源多模态大模型在能力边界上的突破,更为多模态智能体的搭建提供了新的基座模型。

04

面向AGI的持续开源

最近一年以来,昆仑万维已陆续开源多款核心模型:

开源系列

1. Skywork-R1V 系列:38B 视觉思维链推理模型,开启多模态思考时代;

2. Skywork-OR1(Open Reasoner 1)系列:中文逻辑推理大模型,7B和32B最强数学代码推理模型;

3. SkyReels系列:面向AI短剧创作的视频生成模型;

4. Skywork-Reward:性能卓越的全新奖励模型。

这些项目在 Hugging Face 上广受欢迎,引发了开发者社区的广泛关注与深入讨论。

我们坚信,开源驱动创新,AGI 终将到来。

正如 DeepSeek 等优秀团队所展现的那样,开源模型正逐步弥合与闭源系统的技术差距,乃至实现超越。R1V 2.0 不仅是当前最好的开源多模态推理模型,也是我们迈向 AGI 路上的又一重要里程碑。昆仑万维将继续秉持“开源、开放、共创”的理念,持续推出领先的大模型与数据集,赋能开发者、推动行业协同创新,加速通用人工智能(AGI)的实现进程。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

金融科技助力创新,农业银行 “滨创贷” 破解企业难题
金融服务推动电梯产业升级
克慕勒阿尔法AH680龙焱创世全球首发 ——百年英伦定制与东方文明共鸣,重构高端出行新方式
长城混动重卡价格引热议,或卖 90 万硬刚斯堪尼亚
深度剖析:2025国内前十贵金属交易软件最新排名解读
维达集团加入联合国全球契约组织,锚定可持续未来
益企行科技产业服务集团获批“北京(中关村)国际知识产权服务大厅工作站”
亚钾国际2024年财报:于逆境中凸显实力,获老挝税收优惠助力长期发展
第六届国际金融论坛(IFF)全球绿色金融奖2025年度全球招募正式启动
贵金属交易平台怎么选?2025十大知名品牌
2025现货黄金交易平台Top10排名,助力投资者掌握市场波动
CIBF2025:全球新能源的"中国方案"——相约深圳共赴零碳未来
智启未来 光耀全球 2025宁波国际照明展览会赋能照明产业新生态
「天誉国际」黄金暴跌牛市终结?3大信号揭"逆势抄底"财富密码
Zoho CRM发布两大AI智能体,智能筛选加实战陪练重构销售工作流
中润光能:促量产调结构,2024年四季度盈利能力提升
戴德梁行发布《Z世代重构办公空间新生态》报告
商用车三大首发!卡尔动力携地平线、禾赛、宁德时代发布全球首款未来运输机器人 全行业全场景通用 开拓60万亿全球化市场
三晖电气成立具身智能控股公司
艾迪格设计 | 好房巡礼,设计迭新
践行公募使命担当,鹏华基金积极拥抱个人养老金时代
腾讯汤道生:云图为基、车云一体 构建智慧出行新基建
技术破界 × 空气革命:绿岛风以数智化生态重构新风行业价值坐标
你的账户里“含科量”够吗?
怎样下载万洲金业app软件?IOS及安卓下载指南!
让校服采购变得干净简单
从「能洗」到「敢存」:慧曼洗碗机N*7天7夜无残菌破解母婴餐具焦虑链‌
汉嘉设计转型后迎来曙光,一季度净利润大增294%
兆讯传媒发布2024年可持续发展报告 I 加速高铁媒体价值释放,激活经济发展新动能
广博文创 × 猫福珊迪,可爱文创风暴席卷这个春夏