天才一秒记住【长江书屋】地址:https://www.cjshuwu.com
gpt-3
模型(又称为
gpt-3.5)微调后开发出来的对话机器人。
chatgpt
引入了
rlhf(基于人类反馈的强化学习)方法,
方法分为三个步骤:
1)有监督地调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的
prompt
列表生成输出的有监督的策略(sft
模型);2)模拟人类偏好:标注者们对相对大量的
sft
模型输出进行投票,创建一个由比较数据组成的新数据集,训练建立模型(rm);
3)近端策略优化(ppo):使用
rm
作为强化学习的优化目标,利用
ppo算法微调
sft
模型。
我们认为,chatgpt
的成功展示出
ai
大模型的应用潜力,新方法的引入有望加速
nlp
算法及
ai
行业发展。
3、巨头坚定投入,开启
ai
新浪潮2023
年
1
月
18
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!