Blog de Simon🫣
历史归档
文章分类
文章标签
Github
About Me
友链
开往
文章
15
分类
4
标签
32
历史归档
文章分类
文章标签
Github
About Me
友链
开往
LLM
💡
总结:PPO GRPO GSPO Loss 分析
LLM
2025-8-6
llm
算法
🏄♂️
GSPO vs GRPO
LLM
2025-7-30
llm
算法
🌪️
最近的开源模型汇总(8.06)
LLM
2025-7-29
llm
记录
🐦
Agent 框架汇总
LLM
2025-7-4
agent
记录
Framework
🤔
思考:Agent 项目的核心挑战与难点是什么?
LLM
2025-7-4
agent
RAG
Framework
🪸
强化学习(3) DPO
LLM
2025-6-25
RM
llm
🚄
VLLM 部署常用参数解释&脚本
LLM
2025-3-18
推理
llm
🪸
PPO(1)算法详解
LLM
2025-2-28
RM
llm
🕍
LLM训练数据格式
LLM
2025-1-16
数据
llm
🪸
PPO(0)强化学习基础
LLM
2024-12-23
RM
llm
🛻
自定义special_tokens
LLM
2024-12-16
llm
model
🏍️
deepspeed训练显存消耗
LLM
2024-8-28
分布式
deepspeed
train
1
2
SimonSun
Internet Malou, LLM Rookie, Bug Maker🤧
文章
15
分类
4
标签
32
最新发布
总结:PPO GRPO GSPO Loss 分析
2025-8-7
最近的开源模型汇总(8.06)
2025-8-7
GSPO vs GRPO
2025-8-6
谈阅读:如何做一个好的读者
2025-8-4
conda poetry 全面迁移到 uv
2025-7-29
思考:Agent 项目的核心挑战与难点是什么?
2025-7-29
公告
🙌README🙌
🤯There is nothing left
in my right brain,
🤯and there is nothing right
in my left brain...
⭐I wish you every success⭐