国投新游网-最新游戏免费安装下载-热门手游攻略分享-实用的手游教程大全
当前位置: 网站首页 新游攻略 正文

克服奖励欺骗:Meta-发布全新后训练方式-CGPO-编程水平直升-5%-打破-RLHF-瓶颈

来源:国投新游网 发布时间:2024-11-12 11:09:07

CGPO 框架通过混合评审机制和约束优化器,有效解决了 RLHF 在多任务学习中的奖励欺骗和多目标优化问题,显著提升了语言模型在多任务环境中的表现。CGPO 的设计为未来多任务学习提供了新的优化路径,有望进一步提升大型语言模型的效能和稳定性。

克服奖励欺骗

近年来,随着大规模语言模型(LLMs)的发展,特别是通用大模型的应用场景愈发广泛,RLHF 逐渐成为调整和优化语言模型输出的主流方法。

尽管 RLHF 在处理复杂任务时表现出色,但其在多任务学习(MTL)中的表现却受限于「奖励欺骗」以及多目标优化中的矛盾问题。

传统的 RLHF 方法依赖于线性组合的奖励模型,不仅需要人工调参,且容易导致模型被某一任务的奖励优化「误导」。

最近 Meta GenAI 和 FAIR 团队提出了一个全新的后训练范式 ——Constrained Generative Policy Optimization (CGPO),通过引入「混合评审机制」(Mixture of Judges, MoJ)与高效的约束优化器,全面提升了 RLHF 在多任务环境中的表现。

克服奖励欺骗

论文链接:https://arxiv.org/ pdf/2409.20370

实验结果表明,CGPO 能够根据任务的不同需求灵活调整优化策略,并通过多任务梯度累积来实现模型的更新,使其在处理不同任务时均能达到最佳表现。

CGPO 框架:打破 RLHF 瓶颈的全新设计

CGPO 的核心在于它突破了传统 RLHF 对多任务学习的局限性,尤其是在奖励优化与任务目标冲突之间找到了新的平衡。通过混合评审机制,CGPO 能够有效识别并消除「奖励欺骗」行为,即模型在某些任务中过度优化特定的奖励指标,进而导致其他任务的表现下降。

此外,CGPO 的约束优化器具备自动化调节能力,使其可以在不依赖人工经验的情况下,找到不同任务间的最优平衡点。

CGPO 采用了基于规则和 LLM 的双重评审机制。在规则评审中,预先定义的规则能够有效检测出模型生成结果是否符合任务需求,如解决数学问题的正确性、代码生成的准确性等;而 LLM 评审则利用语言模型的内在判断能力,检测生成内容的事实性、响应的安全性等,这对于处理复杂对话和开放性问题尤为重要。

克服奖励欺骗

CGPO 的核心贡献

CGPO 的设计从根本上解决了 RLHF 在多任务优化中的两大难题:

1. 奖励欺骗的防范

CGPO 通过混合评审机制,在模型生成的过程中持续监控奖励欺骗行为,保证模型不会过度优化某一任务的奖励,而牺牲其他任务的表现。不同于传统 RLHF 方法,CGPO 能够智能检测出不合规的生成内容,并通过约束策略进行调整。

2. 极端多目标优化问题的解决

多任务学习通常涉及多个甚至冲突的目标,传统的 RLHF 框架难以处理这些目标之间的平衡。而 CGPO 通过为每个任务单独设定评审和优化器,确保各任务能够独立优化其目标,避免了不同任务目标之间的相互妥协。最终,CGPO 为多任务学习提供了更优的帕累托前沿解。

技术亮点:三大优化器与多评审机制

CGPO 引入了三种主要的 RLHF 约束优化器 ——Calibrated Regularized Policy Gradient(CRPG)、Constrained Regularized Reward Ranking Finetuning(CRRAFT)、Constrained Online DPO(CODPO),这些优化器不仅有效解决了 RLHF 中的多任务优化难题,还具备强大的扩展性,适用于各种规模的 LLM 训练场景。

    1. CRPG 优化器:通过结合奖励建模与约束调整,确保模型生成高质量响应,同时防止偏离既定约束。实验中,CRPG 在数学、编程等需要精确计算和逻辑推理的任务中表现尤为突出。

    2. CRRAFT 优化器:通过奖励排名策略,只保留满足所有约束条件的生成结果,同时提升奖励值。该优化器在真相问答、指令跟随等任务中表现出色。

    3. CODPO 优化器:通过直接偏好优化,使得高奖励值且符合约束的生成结果得以保留,提升模型整体表现。

    CGPO 处理多任务场景

    在多任务环境下,CGPO 通过“奖励模型 + 多任务判定器 (MoJs) + 优化器”的组合,为每个任务提供量身定制的对齐指导,从而更好地适应每个任务的独特特性,增加实现最优对齐结果的可能性。CGPO 框架的核心包括两个部分:多目标奖励建模和多专家对齐。

    1. 多目标奖励建模

    CGPO 的多目标奖励建模不同于传统 RLHF(在多目标场景中的方法。传统方法通常为所有任务使用统一的线性组合奖励模型,而 CGPO 则先将提示集 D 按照性质分类为不同、不重叠的子集,即 D = {D1, D2,..., DL},每个子集 Di 对应一个特定任务,例如包含有害意图的提示归为“有害意图”任务,而一般对话提示归为「普通对话」任务。

    然后,针对每个任务,选择一个合适的奖励模型进行训练,以确保每个任务在优化过程中只关注自身的目标指标,避免其他任务目标的干扰。通过这种分类和奖励模型定制,CGPO 能更好地排除不相关或相互矛盾的目标,从而提高在每个任务中达成最优结果的可能性。

    2. 多专家对齐

    多专家对齐是指为每个任务应用定制化的多任务判定器(MoJs)、奖励模型和优化器设置。在每个任务生成样本后,使用专门为该任务定制的判定器来筛选不符合标准的生成结果。判定器的选择因任务而异,以反映各奖励模型的具体缺点和对 LLM 的预期标准。

    例如,在「普通对话」任务中,判定器会专注于评估回复的真实性和拒答情况,从而提升模型的响应性和可靠性。

    克服奖励欺骗

    而在「推理」任务中,则使用基于规则的数学 / 编程判定器,以确保输出的准确性。在有约束要求且需要更广泛探索的任务(如指令跟随、数学和编程)中,CGPO 会采用较宽松的 KL 阈值,并允许每个提示生成更多的样本;而在不需要广泛探索的任务(如普通对话)中,则使用更严格的 KL 阈值,并减少生成样本的数量。

    CGPO 在每次迭代中处理各个任务,基于任务特定的提示集、奖励模型、判定器来计算更新的梯度,然后将所有任务的梯度累加,并结合预定义的任务权重更新模型参数。通过这种方式 CGPO 能在多任务、多约束的环境中高效地实现各任务之间的平衡与对齐,优化每个任务的独特目标。

    最终,CGPO 的设计使其能够在多任务环境中更灵活地适应不同任务的需求,达成更高效的对齐和优化效果。

    实验验证:CGPO 的显著性能提升

    在多项任务的测试中,CGPO 展现了显著的性能优势。具体来说,在通用聊天任务(AlpacaEval-2)、STEM 问题解答任务(Arena-Hard)、指令跟随(IFEval)、数学与推理(MATH 和 GSM8K)、编程任务(HumanEval)、以及知识问答(ARC Challenge)中,CGPO 均大幅超越现有的 RLHF 算法如 PPO 和 DPO。

    实验数据显示,CGPO 在 AlpacaEval-2 中相较 PPO 提升了 7.4%,在 Arena-Hard 中提升了 12.5%,而在数学推理任务(MATH 和 GSM8K)中,CGPO 表现稳定,分别提升了 2%,在人类评估(HumanEval)中的编程测试上则提升了 5%。

    此外,PPO 在编程任务中表现出奖励欺骗行为,导致模型在训练后期出现严重退化,而 CGPO 通过约束优化有效避免了这一问题,确保模型表现稳定。

    克服奖励欺骗

    在 CGPO 与 PPO 的性能对比中,CGPO 结合 CRPG 和 CRRAFT 优化器在多个基准测试中持续提升,尤其在 ARC Challenge、HumanEval、MBPP 等任务上表现出色。

    相比之下,PPO 在编码任务中出现显著下滑,表明奖励欺骗问题严重。虽然 CODPO 优化器表现稍弱,但总体上仍优于 DPO 和 PPO,特别是在安全性任务中,CODPO 取得了最佳结果,展示了其在多任务微调中的卓越效果。

    克服奖励欺骗

    通过消融实验可以发现 MoJs 不仅能防止在在编码任务里的奖励欺骗,还显著提升了模型在 MATH 和 GSM8K 中的表现。

    克服奖励欺骗

    结论:CGPO 为多任务学习的未来铺路

    CGPO 框架的提出,为强化学习与人类反馈在多任务学习中的应用提供了革命性的新思路。

    通过创新的混合评审机制与三大约束优化器,CGPO 不仅有效解决了奖励欺骗和极端多目标优化的难题,还为大型语言模型的后训练提供了更稳定和高效的优化路径。随着研究的深入,未来我们有望看到更多基于 CGPO 的自动化优化方法,进一步提升多任务学习的表现。

    参考资料:

    • https://arxiv.org/pdf/2409.20370

相关新游攻略
权力的游戏:创世纪是一款根据著名美剧权力的游戏改编的策略游戏。对于许多玩家来说,游戏的汉化菜单选项能更好地帮助他们理解和掌握游戏的各种功能。接下来,让我们一起深入剖析这些菜单选项及其所代表的功能。游戏
来源:国投新游网
各位亲爱的玩家朋友们,准备好迎接一场前所未有的视觉与游戏体验的双重盛宴了吗?最终幻想系列最新力作——最终幻想16PC版的预告片近日正式曝光,宣布将于9月17日盛大发售,这无疑是为广大PC玩家送上的一份
来源:国投新游网
在那充满热血与激情的网络游戏世界里,一场惊心动魄的 1V1 对决——“还敢逃吗 1V1:看你往哪跑”正悄然拉开帷幕。这场对决的关键在于双方选手对局势的精准把控与巧妙策略的运用。对于进攻方而言,要明确自
来源:国投新游网
在我的世界中,探险并战胜狡猾的骷髅怪群需要一系列高效策略和技巧,以下是一些全面的解析和建议,帮助你智取并战胜这些敌人。1 准备适当的装备武器:近战武器:铁剑或钻石剑是首选,因为它们能提供较高的攻击力
来源:国投新游网
在百炼英雄这款游戏中,肉块作为一种重要的资源,对于玩家的战力提升至关重要,以下是高效获取珍稀肉块的策略与技巧,助你战力飙升:基础获取方式1、击败小怪:- 在游戏的各个地图中,通过击败小怪有概率掉落肉块
来源:国投新游网
在游戏的世界中,我们常常面临着各种挑战和转变。有时候,我们需要放下过去的习惯和方式,勇敢地迎接新的未知。这就像是一场冒险,充满了惊喜和挑战,但也为我们带来了成长和进步的机会。当我们开始慢慢迎合未知时,
来源:国投新游网
在当今数字时代,视频平台成为了年轻人表达自我和探索世界的重要窗口。而少女视频观看片tv哔哩哔哩,以其丰富多样的内容,吸引了无数青少年用户。在这里,您不仅能观看到最新的潮流视频,还有来自各个领域的创意作
来源:国投新游网
简隋英,京城公子哥中的翘楚,他的人生仿佛是一场华丽的盛宴,充满了无尽的肆意与张狂。作为京城豪门的贵子,简隋英从小就享受到了常人难以企及的优渥生活。他的家族产业庞大,财富与权势交织,让他在同龄人中显得格
来源:国投新游网
小小曹操传作为一款策略与养成并重的游戏,坐骑和武将的进阶与升级对于提升玩家整体战斗力至关重要,以下是对坐骑进阶策略与高效升级技巧的独家揭秘:坐骑进阶策略1、获取坐骑:- 玩家在主线任务达到16级时可以
来源:国投新游网
鬼谷八荒:独步仙途中,绝技“干血啸龙破”是枪修专属的强力武技,其获取与实战运用对于玩家来说都至关重要,以下将详细解析其获取策略及实战运用指南。获取策略1、加入御龙山庄:玩家需要加入御龙山庄,因为“干血
来源:国投新游网
热门游戏
手机游戏 | 65MMB
91看成品人视频91看成品人视频是一款视频播放软件,提供所有精*内容的免费观看,带给用户高品质的体验,无需任何费用,轻松享受精*视频,91看成品人视频91看成品人视频还拥有高清画质和低延迟,为您带来全
5
手机游戏 | 37.21MMB
仙踪cosmetology大陆是一款拥有海量优质资源的视频播放软件。软件里面的资源非常的丰富,什么类型的视频都应有尽有,能够很好的满足用户的需求。而且首页能看到每天都会更新真的视频给到用户,让用户第一
5
手机游戏 | 9.1MMB
涟源爱沫私人电影院是一款非常适合喜欢追剧和观影的用户使用的视频播放软件。不论是热门剧集还是经典电影,这款软件都能为你提供丰富的内容选择。涟源爱沫私人电影院高清流畅的播放体验,让你可以随时随地尽情享受视
5
手机游戏 | 62.57MMB
18款禁用看黄入口app是一款内容丰富的影视资源观看软件,18款禁用看黄入口app所涵盖的影视内容非常丰富多样,各类优质影视剧实时同步更新,在这里无论是最新的电影、电视剧,还是动漫、综艺等各种类型影视
5
手机游戏 | 18.34MBMB
随着移动互联网的快速发展,各类社区类应用逐渐成为日常生活的一部分。海伦社区app海外版作为一款新兴的社交平台,致力于为全球用户提供便捷的互动体验。无论是大学生、
5
手机游戏 | 37.21MMB
无人区9电影免费入口国外正式版是一款可以免费观看的手机视频软件,这款软件里面的所有视频都是可以免费在线观看的,不论是国内还是国外的资源都是没有任何限制,也没有广告。无人区9电影免费入口国外正式版软件首
5
手机游戏 | 30.40MBMB
在快速发展的互联网时代,各类影视软件层出不穷,一片一片一a一一a动词语午夜精品版的出现无疑为广大影迷和休闲娱乐用户带来了极大的便利。随着版本更新迭代,午夜精品版v
5
手机游戏 | 37.22MBMB
随着互联网技术的不断发展,越来越多的用户选择在线直播平台来丰富日常娱乐和工作生活。在众多直播平台中,小白巴士官网直播版无疑是一款备受瞩目的创新产品。它凭借着出色的界面设计
5
手机游戏 | 23.42MMB
荐片安卓版APP是一款全能手机影院播放软件。该软件拥有丰富的电影资源,包括国内外各类热门电影作品和经典老电影,用户可以自由浏览和选择。该软件提供由影评人撰写的优秀评论和解读,帮助用户更好地理解电影的深
5
手机游戏 | 22.30MMB
红叶影评无广告版下载软件以其丰富的资源、个性化的推荐以及贴心的无广告体验,为用户打造了一个极致舒适的影视观赏环境,让每一位用户都能在这里找到属于自己的影视欢乐时光。软件还内置的社区功能,让用户可以分享
5