Tinker RL 测试（含代码库） #148

Open

Labels

opened

on Dec 25, 2025

Tinker 全量放开后，做了个简单的 RL 测试。

Countdown-4 任务，也就是给四个数字比如 [90, 48, 12, 12]，让模型得出目标数 88 的表达式[90 - (48 / (12 + 12)) = 88]，类似于小时候玩的24点。
基础模型选用 Qwen3-4B，未训练的正确率是42%（限制3K tokens 输出）
使用默认的 RL 算法，200 steps，每个step(batch) 64 group，每个group 4 rollout。

总共花费 $45（tinker 赠金 $150），这个任务在4090 本地这个数据量得跑好几天，用tinker的话4个小时左右。

效果很明显，超过 Qwen3-235B。

代码库：https://github.com/ninehills/tinker-countdown

Metadata

Assignees

No one assigned

Labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests