Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
文章
63
分类
4
标签
36
历史归档
文章分类
文章标签
Github
About Me
友链
开往
目录
0%
一、GRPO:基于Token独立加权的梯度
二、GSPO:基于序列统一加权的梯度
2.1 GSPO在计算重要性权重的时候为什么用几何平均值,不用算数平均?
三、DAPO:基于解耦裁剪与全局Token加权的梯度
3.1 核心创新与机制分析
四、SAPO:基于软自适应门控的梯度
4.1 SAPO 机制分析