读A.I. Should Elevate Your Thinking, Not Replace It 有感

vibe coding 一年小结

token 焦虑症

vibecoding skill 集合使用历程记录

Attention Residuals 残差进化史

vibe coding for 前端心路历程

openclaw 飞书配置踩坑记

MoE 模型的路由重放 → R3

创业灵感挖掘与验证指南

最近思考：少即是多

Verl vs AReaL

扫盲 reward hacking 和 熵坍缩

扫盲 Online / Offline &  On-policy / Off-policy

扫盲KL散度和交叉熵

扫盲 Monte Carlo (MC) 和 Temporal Difference (TD)

总结：PPO GRPO GSPO RLOO Loss 分析

GRPO → GSPO → DAPO → SAPO

RAG技术汇总（4）高级检索方法

RAG技术汇总（3）上下文与内容丰富 

Agent 框架汇总

思考：Agent 项目的核心挑战与难点是什么？

谈阅读：如何做一个好的读者

强化学习（3） DPO

RAG技术汇总（2）查询增强

RAG技术汇总（1）基础RAG技术

昇腾 310_P3 Qwen2.5 LLM VLM Emb Rerank部署

昇腾 910_P4 Qwen2.5 LLM VLM Emb Rerank部署

VPS 详叙

关于叙事和价值观的思考

跟模型聊天约等于向老天许愿

叔本华的钟

VLLM 部署常用参数解释&脚本

相机入门记录（1）购物篇

实用网站-工作提速大礼包

PPO（1）算法详解

conda poetry 全面迁移到 uv

LLM训练数据格式

郁闷记

Last Day of 2024

PPO（0）强化学习基础

自定义special_tokens

2024北京初雪

2024年秋🍂

docker hub

秦皇岛

deepspeed训练显存消耗

网络爬虫库学习笔记

Notion Next 嵌入网易云音乐

CO-STAR Prompt 

Nvidia DGX-1 拓扑结构

多模态入门记录

The Last Emperor

Graph RAG: 知识图谱结合 LLM 的检索增强

服务器从零到 personal workspace

PDF解析工具汇总

2023 春节

Last Day of 2023

2023北京初雪

卖身光年

记一次肠胃炎

百年孤独

百度云4机A800测试

技术分享

闲隙碎笔

历史归档

文章分类

文章标签

Github

About Me

友链

开往

碎笔

前端

vibecoding

算法

开发

环境

password

icon

date

type

slug

status

title

summary

Config

Table

Post Board

Post Gallery

类型为Notice的文章将被显示为公告

公告

2.2.2  Reference Model（参考模型）

2.2.3  Critic Model（评论家模型）

3.1.1 引入优势（动作价值 - 状态价值）

阶段 1：生成 (Generation) - Experience Collection

阶段 2：准备 (Preparation) - 优势估算与回报计算

阶段 3：学习 (Learning) - 梯度更新

2. GRPO (Group Relative Policy Optimization)

阶段 2：准备 (Preparation) - 组内优势计算

Tools

建站

Blog de Simon🫣 

胡说八道

记录

Framework

分布式

agent

recommend

Linux

观后感

部署

Knowledge Graph

含英咀华

爬虫

prompt

测试

多模态

deepspeed

train

docker

游记

model

数据

推理

框架

论文