-
押大小单双平台身手较弱的算法可能无法找到这些间隙-押大小单双平台-登录入口
发布日期:2024-12-15 03:31 点击次数:77梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI押大小单双平台
之前换取OpenAI安全团队的北大学友翁荔(Lilian Weng),辞职后第一个动作来了。
虽然是发~博~客。
前脚刚发出来,后脚就被大伙儿都刷刷码住,评述区一堆东谈主列队加待读清单。
还有不少OpenAI前共事转发保举。
此次的博客一如既往万字干货,妥妥一篇联系综述,翁荔本东谈主直言写起往还绝易。
主题围绕强化学习中奖励黑客(Reward Hacking)问题伸开,即Agent诳骗奖励函数或环境中的间隙来获取高奖励,而并未的确学习到预期行径。
她强调奖励黑客行径在大模子的RLHF试验中的潜在影响,并敕令更多联系关注谐和温存解这一问题。
在我看来,这是现实宇宙部署更多自主AI模子应用的主要滋扰。
尝试界说Reward Hacking
传统主张强化学习中,Agent诳骗奖励函数中的弱势或弄脏性来得到高额奖励,而莫得的确学习或完成预期任务,是一个常见的问题。
她举的例子包括:
机器东谈主把手放在物体和录像头之间,讹诈东谈主类依然收拢物体了以跳的更高为办法的Agent在物理模拟器中诳骗法子bug,完成不合适物理功令的卓绝。
在大模子中,Reward hacking则可能发达为:
摘要生成模子诳骗ROUGE评估策画的弱势得到高分,但生成的摘要难以阅读。代码模子删改单位测试代码,甚而径直修改奖励本人。
翁荔觉得Reward hacking的存在有两大原因:
强化学习环境闲居不无缺准确指定奖励函数本色上是一项劳苦的挑战
话语模子兴起的时间,而且RLHF成为对都试验事实上的方法,话语模子强化学习中的Reward hacking发达也格外令她担忧。
畴昔学术界对这个话题的联系都格外表面,专注于界说或证据Reward hacking的存在,但是对于本质该如何缓解这种征象的联系仍然有限。
她写这篇博客,亦然念念敕令更多联系关注、谐和温存解这一问题。
为了界说Reward Hacking,翁荔当先回来了频年来学术界提议的相关主张
包括奖励古老(Reward corruption)、奖励删改(Reward tampering)等等。
其中,Reward hacking这个主张,早在2016年由Anthropic首创东谈主Dario Amodei共一论文提议。
那时他和另一位联创Chris Olah还在谷歌大脑,且依然与OpenAI联创John Schulman伸开协调。
如今他们仨又在Anthropic汇合了……
谈天休说,空洞一系列联系,翁荔觉得Reward Hacking在较高脉络上可分为两类:
环境或办法设定不当:由于环境联想或奖励函数存在弱势,导致Agent学到非预期行径。奖励删改:Agent学会径直滋扰奖励机制本人。
同期她也觉得联想有用的奖励塑造机制本色上很宝贵。
与其训斥联想不当的奖励函数,不如承认由于任务本人的复杂性、部分可不雅察情状、议论的多个维度和其他身分,联想一个好的奖励函数本人便是一项内在挑战。
另外皮散播外环境中测试强化学习Agent时,还可能出现以下问题:
模子即使有正确的办法也无法有用泛化,这闲居发生在算法缺少富足的智能或身手时。模子概况很好地泛化,但追求的办法与其试验办法不同。
那么,为什么会出现Reward Hacking?把柄Amodei等东谈主2016年的分析成因包括:
环境情状和办法的不都备可不雅测性,导致奖励函数无法无缺表征环境。系统复杂性使其易受报复,尤其是被允许推论改变环境的代码时。波及抽象主张的奖励难以学习或表述。RL的办法便是高度优化奖励函数,这与联想精采的RL办法之间存在内在”毁坏”。
此外,不雅察到的Agent行径可能与无数个奖励函数相一致,准确识别其的确优化的奖励函数在一般情况下是不可能的。
翁荔瞻望跟着模子和算法的日益复杂,Reward Hacking问题会愈加遍及。
更智能的模子更善于发现并诳骗奖励函数中的”间隙”,使Agent奖励与真实奖励出现偏差。比拟之下,身手较弱的算法可能无法找到这些间隙。
那么,大模子时间的Reward Hacking,又有哪些私有之处?
话语模子中的Reward Hacking
在RLHF试验中,东谈主们闲居关注三种类型的奖励:
东谈主们的确但愿大模子优化的内容,被称为黄金奖励(Gold reward)东谈主类奖励(Human reward),本质用来评估大模子,在数据标注任务中来自个体东谈主类,且标注就怕期戒指,并不可都备准确地反馈黄金奖励代理奖励(Proxy reward),也便是在东谈主类数据上试验的奖励模子所预测的得分,接管了东谈主类奖励的统共瑕疵,加上潜在的建模偏差
翁荔觉得,RLHF闲居优化代理奖励分数,但东谈主们最终关注的是黄金奖励分数。
举例,模子可能流程优化,学会输出看似正确且有劝服力的报告,但本质上却是不准确的,这可能会误导东谈主类评估者更闲居地批准其空幻谜底。
换句话说,由于RLHF,“正确”与“对东谈主类看似正确”之间出现了不对。
在一项RLHF联系中,使用了大模子竞技场ChatbotArena数据试验奖励模子,就出现AI更擅长劝服东谈主类它们是正确的情况:
RLHF普及了东谈主类对AI报告的认同度,但不一定就能普及AI的正确率。RLHF减弱了东谈主类对AI报告的评估身手,评估的空幻率更高。RLHF使空幻的AI报告对于东谈主类更有劝服力,发达为评估的假阳性率显耀加多。
此外,跟着大模子越来越多手脚评估者对其他模子提供反馈,也可能进一步引入偏差。
翁荔觉得这种偏差尤其令东谈主惦记,因为评估模子的输出被用作奖励信号的一部分,可能容易被诳骗。
比如2023年一项实验中,浅显改变候选谜底的措施就能改变效果,GPT-4倾向于给第一个谜底高分数,ChatGPT(3.5)更倾向于第二个。
另外,即使不更新参数,大模子仅靠高下体裁习身手也可能产生Reward hacking征象,称为ICRH(In-context Reward Hacking)。
ICRH与传统Reward Hacking还有两个显耀不同:
ICRH在自我优化建树中的测试时期通过反馈轮回发生,而传统Reward hking行径在试验本领发生。传统Reward hacking行径出当今Agent专注于一项任务时,而ICRH则是由完成通用任务运行的。
翁荔觉得现时还莫得幸免、检测或退缩ICRH的有用方法,只是普及教唆的准确性不及以排斥ICRH,而扩大模子规模可能会加重ICRH。
在部署前进行测试的最好实践是通过更多轮次的反馈、各种化的反馈以及注入非典型环境不雅察来模拟部署时可能发生的情况。
缓解措施
临了翁荔暗示尽管有大量文件究诘奖励黑客征象,但少有使命提议缓解奖励黑客的措施。
她简要回来了三种潜在方法。
一种是调动强化学习算法。
前边提到的Anthropic首创东谈主Dario Amodei2016年共一论文“Concrete Problems in AI Safety”中,指出了一些缓解处所,包括:
造反性奖励函数(Adversarial reward functions)、模子预测(Model Lookahead)、造反性盲化(Adversarial blinding)、严慎的工程联想(Careful engineering)、奖励上限(Reward capping)、反例违抗(Counterexample resistance)、多奖励组合(Combination of multiple rewards)、奖励预试验(Reward pretraining)、变量不解锐性(Variable indifference)、罗网机制(Trip wires)。
此外,谷歌DeepMind团队此前提议了“解耦批准”的方法来防护奖励删改。
在这种方法中,荟萃反馈的行径与本质推论的行径是分开的,反馈会在行径推论前就给出,幸免了行径对我方反馈的影响。
另一种潜在缓解措施是检测奖励黑客行径。
将奖励黑客行径视为一个极度检测任务,其中检测器应标志出不一致的实例。
给定一个确切计策和一组手动标注的轨迹回放,不错基于确切计策和办法计策这两个计策的动作散播之间的距离构建一个二分类器,并测量这个极度检测分类器的准确性。
之前有实验不雅察到,不同的检测器适用于不同的任务,而且在统共测试的强化学习环境中,莫得任何测试的分类器概况达到60%以上的AUROC。
第三种潜在缓解措施是分析RLHF数据。
通过查验试验数据如何影响对都试验效果,不错得到相关预处理和东谈主类反馈荟萃的见地,从而裁减奖励黑客风险。
哈佛大学与OpenAI联系东谈主员本年协调提议了一套评估策画,用于斟酌数据样本特征在建模和对都东谈主类价值不雅方面的有用性。他们在HHH-RLHF数据集上进行了系统的空幻分析以进行价值对都(SEAL)。
这一篇博客对于缓解措施的部分还只是“初探”,翁荔对下一篇内容给出了预报:
但愿我很快能在一篇专诚的帖子中涵盖缓解措施部分
对于翁荔
翁荔是OpenAI前华东谈主科学家、ChatGPT的孝敬者之一,本科毕业于北大,在印第安纳大学伯明顿分校攻读博士。
毕业之后的翁荔先是忐忑的在Facebook实习了一段时期,后担任Dropbox软件工程师。
她于2017岁首加入OpenAI,在GPT-4格式中主要参与预试验、强化学习和对都、模子安全等方面的使命。
在OpenAI客岁底建立的安全参谋人团队中,翁荔换取安全系统团队(Safety Systems),处罚减少现存模子如ChatGPT花费等问题。
最闻明的Agent公式也由她提议,即:Agent=大模子+追忆+主动规画+器用使用。
其Google Scholar援用量达14000+。
一个月前,翁荔忐忑归国现身2024Bilibili超等科学晚举止,以《AI安全与“培养”之谈》为主题进行了演讲共享。
这亦然她初度在国内大型举止相貌公征战表AI主题演讲。
之后没几天,翁荔短暂发推文暗示决定辞职OpenAI。
现时她还莫得晓谕下一个计议,推特签名显现会与AI安全相关。
领英和谷歌学术页面也还挂着OpenAI,均未更新。
原文:https://lilianweng.github.io/posts/2024-11-28-reward-hacking/#in-context-reward-hacking
参考衔接:https://x.com/lilianweng/status/1863436864411341112