-
Notifications
You must be signed in to change notification settings - Fork 223
Open
Labels
Description
Tinker 全量放开后,做了个简单的 RL 测试。
- Countdown-4 任务,也就是给四个数字比如 [90, 48, 12, 12],让模型得出目标数 88 的表达式[90 - (48 / (12 + 12)) = 88],类似于小时候玩的24点。
- 基础模型选用 Qwen3-4B,未训练的正确率是42%(限制3K tokens 输出)
- 使用默认的 RL 算法,200 steps,每个step(batch) 64 group,每个group 4 rollout。
总共花费 $45(tinker 赠金 $150),这个任务在4090 本地这个数据量得跑好几天,用tinker的话4个小时左右。
效果很明显,超过 Qwen3-235B。
Reactions are currently unavailable