Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
文章
63
分类
4
标签
36
历史归档
文章分类
文章标签
Github
About Me
友链
开往
目录
0%
1. 训练 Reward 模型
1. 1 训练数据格式
1.2. 改造现有的LLM
1.3. Reward 模型的 Loss
2. PPO 模型的训练
2.1 训练数据
2.2 RLHF中的四个重要角色
2.2.1 Actor Model (演员模型)
2.2.2 Reference Model(参考模型)
2.2.3 Critic Model(评论家模型)
2.2.4 Reward Model(奖励模型)
3. RLHF 中 PPO 的 loss 计算
3.1 Actor loss
3.1.1 直观设计
3.1.1 引入优势(动作价值 - 状态价值)
3.1.2 重新设计
3.1.3 重新设计优势
3.1.4 PPO-epoch: 引入新约束
3.2 Critic loss
4.完整流程
1. RLHF (基于 PPO 的标准流程)
阶段 1:生成 (Generation) - Experience Collection
阶段 2:准备 (Preparation) - 优势估算与回报计算
阶段 3:学习 (Learning) - 梯度更新
2. GRPO (Group Relative Policy Optimization)
阶段 1:生成 (Generation)
阶段 2:准备 (Preparation) - 组内优势计算
阶段 3:学习 (Learning)