基于人类反馈的强化学习

基于人类反馈的强化学习（英語：，简称），包括基于人类偏好的强化学习（），是一种直接根据人类反馈训练“奖励模型”的机器学习技术，并使用该模型作为强化学习中的奖励函数，再通过近端策略优化等算法以优化智能体（agent）策略。[1]奖励模型在进行策略优化之前预先训练，以预测给定的输出是好（高奖励）还是坏（低奖励）。RLHF可以提高强化学习智能体的鲁棒性（robustness）和探索性（exploration），尤其适用于奖励函数稀疏或有噪声（不确定性）的情形。[2]

人类反馈最常见的收集方式是要求人类对智能体行为的实例进行偏好排序。[3][4][5]之后可以通过Elo等级分等方式利用排序结果对输出进行评分。[1]虽然这种偏好判断被广泛采用，但还有其他类型的人类反馈可以提供更丰富的信息，例如数字反馈、自然语言反馈和编辑率等。

标准RLHF假设人类偏好遵循成对比较的布拉德利-特里模型或者多重比较的普拉斯基特-卢斯模型（Plackett–Luce model），并通过最小化交叉熵损失以学习奖励模型。[6]在训练完奖励模型之后，RLHF根据学习到的奖励模型对语言模型进行进一步微调，使模型与人类偏好保持一致。

RLHF适用于模型输出的质量难以用算法清晰定义；但人类可以轻松判断的任务。例如，如果模型的任务是生成一个引人入胜的故事，人类可以对人工智能生成的不同故事的质量进行评分，而模型可以利用人类的反馈来提高其生成新故事的能力。

RLHF已应用于自然语言处理的各个领域，例如对话、文本摘要和自然语言理解。在普通的强化学习中，智能体根据“奖励函数”从自己的行为中学习。但在自然语言处理任务中，奖励通常不容易定义或测量，特别是在处理涉及人类价值观或偏好的复杂任务时尤其如此。在RLHF的帮助下，语言模型能够提供与这些复杂价值观相符的答案，生成更为详细的回复，同时拒绝不适当或超出模型知识空间的问题。[7] 经RLHF训练的语言模型包括OpenAI开发的ChatGPT及其前身InstructGPT[4]、DeepMind的Sparrow等。

除自然语言处理外，RLHF还被应用于视频游戏机器人开发等其他领域。例如，OpenAI和DeepMind训练的智能体能基于人类喜好来玩Atari游戏。[8][9]这些智能体在多种测试环境中都表现出色，经常能超越人类的水平。[10]

参考文献

Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. . huggingface.co. [4 March 2023]. （原始内容存档于2023-03-16）.
MacGlashan, James; Ho, Mark K; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. . Proceedings of the 34th International Conference on Machine Learning - Volume 70 (JMLR.org). 6 August 2017: 2285–2294 [2023-12-11]. arXiv:1701.06049 . （原始内容存档于2023-03-04）.
Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina. . Thirty-Sixth Conference on Neural Information Processing Systems: NeurIPS 2022. 31 October 2022 [2023-12-11]. arXiv:2203.02155 . （原始内容存档于2023-03-15）（英语）.
Edwards, Benj. . Ars Technica. 1 December 2022 [4 March 2023]. （原始内容存档于2023-03-15）（美国英语）.
Abhishek, Gupta. . VentureBeat. 5 February 2023 [4 March 2023]. （原始内容存档于2023-03-20）.
Zhu, Banghua; Jordan, Michael; Jiao, Jiantao. . Proceedings of the 40th International Conference on Machine Learning (PMLR). 2023-07-03: 43037–43067 [2023-12-11]. （原始内容存档于2023-10-27）（英语）.
Wiggers, Kyle. . TechCrunch. 24 February 2023 [4 March 2023]. （原始内容存档于2023-03-16）.
. openai.com. [4 March 2023]. （原始内容存档于2023-06-18）.
. www.deepmind.com. [4 March 2023]. （原始内容存档于2023-03-19）（英语）.
Christiano, Paul F; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario. . Advances in Neural Information Processing Systems (Curran Associates, Inc.). 2017, 30 [4 March 2023]. （原始内容存档于2023-03-19）.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[huggingface-1] Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. . huggingface.co. [4 March 2023]. （原始内容存档于2023-03-16）.

[2] MacGlashan, James; Ho, Mark K; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. . Proceedings of the 34th International Conference on Machine Learning - Volume 70 (JMLR.org). 6 August 2017: 2285–2294 [2023-12-11]. arXiv:1701.06049 . （原始内容存档于2023-03-04）.

[3] Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina. . Thirty-Sixth Conference on Neural Information Processing Systems: NeurIPS 2022. 31 October 2022 [2023-12-11]. arXiv:2203.02155 . （原始内容存档于2023-03-15）（英语）.

[ars-4] Edwards, Benj. . Ars Technica. 1 December 2022 [4 March 2023]. （原始内容存档于2023-03-15）（美国英语）.

[5] Abhishek, Gupta. . VentureBeat. 5 February 2023 [4 March 2023]. （原始内容存档于2023-03-20）.

[6] Zhu, Banghua; Jordan, Michael; Jiao, Jiantao. . Proceedings of the 40th International Conference on Machine Learning (PMLR). 2023-07-03: 43037–43067 [2023-12-11]. （原始内容存档于2023-10-27）（英语）.

[7] Wiggers, Kyle. . TechCrunch. 24 February 2023 [4 March 2023]. （原始内容存档于2023-03-16）.

[8] . openai.com. [4 March 2023]. （原始内容存档于2023-06-18）.

[9] . www.deepmind.com. [4 March 2023]. （原始内容存档于2023-03-19）（英语）.

[10] Christiano, Paul F; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario. . Advances in Neural Information Processing Systems (Curran Associates, Inc.). 2017, 30 [4 March 2023]. （原始内容存档于2023-03-19）.

机器学习与

范式监督学习無監督學習線上機器學習元学习半监督学习自监督学习强化学习基于规则的机器学习量子機器學習
问题统计分类生成模型迴歸分析聚类分析降维密度估计异常检测数据清洗自动机器学习关联规则学习語意分析结构预测特征工程表征学习排序学习语法归纳本体学习多模态学习
监督学习 (分类 · 回归) 学徒学习决策树学习集成学习 Bagging 提升方法随机森林 k-NN 線性回歸朴素贝叶斯人工神经网络邏輯斯諦迴歸感知器相关向量机（RVM）支持向量机（SVM）迁移学习微调
聚类分析 BIRCH CURE算法层次 k-平均 Fuzzy 期望最大化（EM） DBSCAN OPTICS 均值飘移
降维因素分析 CCA ICA LDA NMF PCA PGD t-SNE SDL
结构预测圖模式貝氏網路條件隨機域隐马尔可夫模型
异常检测 RANSAC k-NN 局部异常因子孤立森林
人工神经网络自编码器認知計算深度学习 DeepDream 多层感知器 RNN LSTM GRU ESN 储备池计算受限玻尔兹曼机 GAN SOM CNN U-Net Transformer Vision transforme 脉冲神经网络 Memtransistor 电化学RAM（ECRAM）
强化学习 Q学习 SARSA 时序差分（TD）多智能体 Self-play RLHF
与人类学习主动学习众包 Human-in-the-loop
模型诊断学习曲线
数学基础内核机器偏差–方差困境计算学习理论经验风险最小化奥卡姆学习 PAC学习统计学习 VC理论
大会与出版物 NeurIPS ICML ICLR ML JMLR
相关条目人工智能术语机器学习研究数据集列表机器学习概要