隆重推出 ChatGPT

隆乳假体取出后可能需要重新塑造乳房形态 #生活知识# #科技生活# #健康生活技巧# #整容手术#

加载音频时出错

我们训练了一款名为 ChatGPT 的模型，它可以通过对话方式进行交互。这种对话形式使 ChatGPT 能够回答后续问题、承认错误、质疑错误前提，以及拒绝不当请求。

ChatGPT 是 InstructGPT⁠ 的兄弟模型，经过训练能按照提示中的指令提供详细回复。

我们很高兴推出 ChatGPT 以获取用户反馈，了解其优势与不足。在研究预览期间，ChatGPT 可免费使用。立即登录 chatgpt.com⁠（在新窗口中打开）试试吧。

示例

方法

我们采用人类反馈强化学习 (RLHF) 训练该模型，方法与 InstructGPT⁠ 相同，但在数据收集设置上略有差异。我们通过监督微调训练初始模型：由人类 AI 训练员师提供对话数据，他们在对话中同时扮演用户和 AI 助手两种角色。我们向训练员提供模型编写建议，帮助他们撰写回复。我们将这一新的对话数据集与 InstructGPT 数据集混合，并将其转换为对话格式。

为了创建用于强化学习的奖励模型，我们需要收集对比数据，其中包括两个或多个按质量排序的模型响应。为了收集这些数据，我们选取了 Al 训练员与聊天机器人的对话记录。我们随机选择一条由模型编写的信息，抽取多个备选回复，并让 AI 训练师对它们进行排序。利用这些奖励模型，我们可以使用近端策略优化⁠对模型进行微调。我们对这一过程进行了多次迭代。

ChatGPT 在 GPT‑3.5 系列模型的基础上进行微调，该模型于 2022 年初完成训练。您可以在此处⁠（在新窗口中打开）了解有关 3.5 系列的更多信息。ChatGPT 和 GPT‑3.5 在 Azure AI 超级计算基础设施上完成训练。

局限性

ChatGPT 有时会写出看似合理实则不正确或无意义的答案。解决这个问题具有挑战性，因为：(1)在 RL 训练过程中，目前没有真相来源；(2)训练模型更加谨慎，导致模型拒绝本可正确回答的问题；(3)监督训练可能误导模型，因为理想答案⁠（在新窗口中打开）取决于模型自身的知识，而不是人类示范者的认知。ChatGPT 对输入措辞的调整或多次尝试相同的提示非常敏感。例如，对于某个提问表述，模型可能声称无法回答，但稍加改写后却能给出正确答案。模型经常过于冗长，并过度使用某些短语，例如反复声明它是由 OpenAI 训练的语言模型。这些问题源于训练数据的偏差（训练师更倾向于看似更全面的长答案）和众所周知的过度优化问题。1、2理想情况下，当用户提供模棱两可的查询时，模型会提出澄清性问题。相反，我们目前的模型通常是猜测用户的意图。虽然我们已尽力让模型拒绝不当请求，但它有时也会对有害指令做出响应或表现出偏见行为。我们正在使用 Moderation API⁠ 对某些类型的不安全内容进行警告或拦截，但目前系统仍存在一定的误判（包括漏报和误报）。我们诚挚征集用户反馈，以帮助我们持续改进该系统。

迭代部署

本次发布的 ChatGPT 研究版本是 OpenAI 采用迭代部署⁠方式逐步完善 AI 系统安全性与实用性的最新进展。从 GPT‑3 和 Codex 等早期模型的部署中，我们汲取了许多经验教训，为本版本的安全缓解措施提供了依据，其中包括通过使用人类反馈强化学习（RLHF）大幅减少有害及不实输出。

我们知道，上述讨论的诸多局限性依然存在，并计划通过定期模型更新持续改进这些方面。但我们也希望，通过为 ChatGPT 提供可访问的界面，我们能就尚未意识到的问题获得宝贵的用户反馈。

我们鼓励用户通过用户界面对有问题的模型输出提供反馈，也欢迎对外部内容过滤器（也是界面的一部分）的误报/漏报提出意见。我们尤其关注在真实、非对抗性情况下可能出现的有害输出的反馈，以及有助于我们发现和理解新型风险和可能应对措施的反馈。您可以选择参加 ChatGPT 反馈竞赛⁠（在新窗口中打开）[[fnn:3]]，有机会赢得最高 500 美元的 API 积分。A 参赛作品可通过 ChatGPT 界面链接的反馈表提交。

我们很高兴能将此次发布的经验教训应用到更多功能系统的部署中，正如之前的部署也为本次发布提供了重要借鉴一样。

ChatGPT2022

脚注

无需购买，在禁止购买的地区无效。必须年满 18 周岁方可参与。有关比赛详情，请参阅正式规则⁠（在新窗口中打开）。

参考资料

斯蒂农 (Stiennon)、尼桑 (Nisan) 等人“学会利用人类反馈进行总结⁠（在新窗口中打开）。”神经信息处理系统进展 33（2020 年）： 3008-3021。

高磊 (Gao)、里奥 (Leo)、约翰·舒尔曼 (John Schulman)、雅各布·希尔顿 (Jacob Hilton)。“奖励模型过度优化的缩放规律⁠（在新窗口中打开）。”arXiv预印本 arXiv:2210.10760（2022 年）。

本次竞赛的灵感部分来自肯威 (Kenway, Josh)、卡米耶·弗朗索瓦 (Camille François)、萨沙·科斯坦萨-乔克 (Sasha Costanza-Chock)、伊尼奥卢瓦·黛博拉·拉吉 (Inioluwa Deborah Raji)、乔伊·布拉姆维尼 (Joy Buolamwini) 的作品。针对算法危害的漏洞悬赏？网络安全漏洞披露对算法危害的发现、披露和补救的启示。华盛顿特区：算法正义联盟。2022 年 1 月。参见 https://ajl.org/bugs⁠（在新窗口中打开）。另见布鲁姆代奇 (Brundage)、迈尔斯 (Miles)、阿文 (Avin)、沙哈尔 (Shahar)、王茉莉 (Jasmine Wang)、贝尔菲尔德 (Belfield)、海登 (Haydn)、格雷琴·克鲁格 (Gretchen Krueger)等人的著作。“迈向可信人工智能开发：支持可验证主张的机制”，2020 年 4 月。参见 https://arxiv.org/abs/2004.07213⁠（在新窗口中打开）。参见 HackerOne 上此类竞赛的早期实例。2021b。“推特算法偏见”。HackerOne。https://hackerone.com/twitter-algorithmic-bias?type=team⁠（在新窗口中打开）。最后，参见鲁比诺维茨 (Rubinovitz, JB) 关于该主题的早期研究：“以偏见悬赏计划对抗 AI 偏见的方法”，2018 年 8 月。参见 https://rubinovitz.com/2018/08/01/bias-bounty-programs-as-a-method-of-combatting⁠（在新窗口中打开）。

致谢

John Schulman、Barret Zoph、Christina Kim、Jacob Hilton、Jacob Menick、Jiayi Weng、Juan Felipe Ceron Uribe、Liam Fedus、Luke Metz、Michael Pokorny、Rapha Gontijo Lopes、Shengjia Zhao、Arun Vijayvergiya、Eric Sigler、Adam Perelman、Chelsea Voss、Mike Heaton、Joel Parish、Dave Cummings、Rajeev Nayak、Valerie Balcom、David Schnurr、Tomer Kaftan、Chris Hallacy、Nicholas Turley、Noah Deutsch、Vik Goel、Jonathan Ward、Aris Konstantinidis、Wojciech Zaremba、Long Ouyang、Leonard Bogdonoff、Joshua Gross、David Medina、Sarah Yoo、Teddy Lee、Ryan Lowe、Dan Mossing、Joost Huizinga、Roger Jiang、Carroll Wainwright、Diogo Almeida、Steph Lin、Marvin Zhang、Kai Xiao、Katarina Slama、Steven Bills、Alex Gray、Jan Leike、Jakub Pachocki、Phil Tillet、Shantanu Jain、Greg Brockman、Nick Ryder、Alex Paino、Qiming Yuan、Clemens Winter、Ben Wang、Mo Bavarian、Igor Babuschkin、Szymon Sidor、Ingmar Kanitscheider、Mikhail Pavlov、Matthias Plappert、Nik Tezak、Heewoo Jun、William Zhuk、Vitchyr Pong、Lukasz Kaiser、Jerry Tworek、Andrew Carr、Lilian Weng、Sandhini Agarwal、Karl Cobbe、Vineet Kosaraju、Alethea Power、Stanislas Polu、Jesse Han、Raul Puri、Shawn Jain、Benjamin Chess、Christian Gibson、Oleg Boiko、Emy Parparita、Amin Tootoonchian、Kyle Kosic、Christopher Hesse

示例

方法

局限性

迭代部署

脚注

参考资料

致谢

相关内容

随便看看

最新乐趣

热点乐趣

专题

推荐乐趣