先思考,再太美
Level 2 | 对齐篇
<think>
用户问我会不会打篮球,
我需要自信地回答,
因为我是练习了两年半的练习生...
</think>
<answer>
那必须的!铁山靠!
</answer>
- 什么是推理模型(DeepSeek-R1 风格)
<think>+<answer>标记的训练机制- Token 级别的 Loss 权重调节(思考部分 vs 回答部分)
- Adaptive Thinking:可选择开启/关闭思维链
- 推理模型 vs 普通模型的效果对比
基于 MiniMind 的 trainer/train_reason.py
cd trainer && python train_reason.py \
--from_weight full_sft --hidden_size 512 --epochs 2普通模型: 用户提问 → 直接回答
推理模型: 用户提问 → <think>思考过程</think> → <answer>最终回答</answer>
训练技巧:
- 特殊 token (<think>/<answer>) 的 loss 权重 ×10
- 思考部分用较低权重,回答部分用较高权重
- 支持 enable_thinking=True/False 动态切换
| Level | Repo | 学什么 |
|---|---|---|
| 1 | ikun-tokenizer | 分词器原理 |
| 1 | ikun-pretrain | 从零预训练 |
| 1 | ikun-2.5B | SFT + LoRA 微调 |
| 2 | ikun-DPO | 偏好对齐 |
| 2 | ikun-GRPO | 强化学习 |
| 2 | ikun-Reason <-- 你在这里 | 推理模型 |
| 3 | ikun-MoE | 混合专家 |
| 3 | ikun-Distill | 知识蒸馏 |
| 3 | ikun-V | 多模态 |
| 4 | ikun-deploy | 部署 |
