Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
SimonSun
文章
63
分类
4
标签
36
历史归档
文章分类
文章标签
Github
About Me
友链
开往
目录
0%
1. 训练 Reward 模型1. 1 训练数据格式1.2. 改造现有的LLM1.3. Reward 模型的 Loss2. PPO 模型的训练2.1 训练数据2.2 RLHF中的四个重要角色2.2.1  Actor Model (演员模型)2.2.2  Reference Model(参考模型)2.2.3  Critic Model(评论家模型)2.2.4 Reward Model(奖励模型)3. RLHF 中 PPO 的 loss 计算3.1 Actor loss3.1.1 直观设计3.1.1 引入优势(动作价值 - 状态价值)3.1.2 重新设计 3.1.3 重新设计优势3.1.4 PPO-epoch: 引入新约束3.2 Critic loss4.完整流程1. RLHF (基于 PPO 的标准流程)阶段 1:生成 (Generation) - Experience Collection阶段 2:准备 (Preparation) - 优势估算与回报计算阶段 3:学习 (Learning) - 梯度更新2. GRPO (Group Relative Policy Optimization)阶段 1:生成 (Generation)阶段 2:准备 (Preparation) - 组内优势计算阶段 3:学习 (Learning)
2023-2026SimonSun.

Blog de Simon🫣 | Internet Malou, LLM Rookie, Bug Maker🤧

Powered byNotionNext 4.9.5.2.