长江书屋

第39章 关于ChatGPT的一些解读中(第2页)

天才一秒记住【长江书屋】地址:https://www.cjshuwu.com

gpt-3

模型(又称为

gpt-3.5)微调后开发出来的对话机器人。

chatgpt

引入了

rlhf(基于人类反馈的强化学习)方法,

方法分为三个步骤:

1)有监督地调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的

prompt

列表生成输出的有监督的策略(sft

模型);2)模拟人类偏好:标注者们对相对大量的

sft

模型输出进行投票,创建一个由比较数据组成的新数据集,训练建立模型(rm);

3)近端策略优化(ppo):使用

rm

作为强化学习的优化目标,利用

ppo算法微调

sft

模型。

我们认为,chatgpt

的成功展示出

ai

大模型的应用潜力,新方法的引入有望加速

nlp

算法及

ai

行业发展。

3、巨头坚定投入,开启

ai

新浪潮2023

1

18

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)


新书推荐

当反派绑定了女主系统赤骨天梯师妹疯癫一笑,对方生死难料豪门拖油瓶,我靠画符爆红全网玄学大佬只想当咸鱼总裁大人超给力漫兽竞技场韶光艳武林店小二我当大圣姐姐这些日子,操碎了心龙符抢救大明朝侯门嫡女,相公宠上瘾绝色占卜师:爷,你挺住!明婚暗恋懒妻教育得当,三胞胎有事就喊爹传奇篮神古代小户之家奋斗史凌天至尊太古神王大话之神枭门邪妻替身养猪去了[快穿]神农别闹快穿之路人不炮灰