GitHub - ikun-llm/ikun-Reason: 推理模型训练 | Reasoning with chain-of-thought 🧠

ikun-Reason

先思考，再太美
_{Level 2 | 对齐篇}

<think>
用户问我会不会打篮球，
我需要自信地回答，
因为我是练习了两年半的练习生...
</think>
<answer>
那必须的！铁山靠！
</answer>

你将学到

什么是推理模型（DeepSeek-R1 风格）
<think> + <answer> 标记的训练机制
Token 级别的 Loss 权重调节（思考部分 vs 回答部分）
Adaptive Thinking：可选择开启/关闭思维链
推理模型 vs 普通模型的效果对比

核心代码

基于 MiniMind 的 trainer/train_reason.py

cd trainer && python train_reason.py \
    --from_weight full_sft --hidden_size 512 --epochs 2

推理模型的关键设计

普通模型: 用户提问 → 直接回答
推理模型: 用户提问 → <think>思考过程</think> → <answer>最终回答</answer>

训练技巧:
- 特殊 token (<think>/<answer>) 的 loss 权重 ×10
- 思考部分用较低权重，回答部分用较高权重
- 支持 enable_thinking=True/False 动态切换

系列导航

Level	Repo	学什么
1	ikun-tokenizer	分词器原理
1	ikun-pretrain	从零预训练
1	ikun-2.5B	SFT + LoRA 微调
2	ikun-DPO	偏好对齐
2	ikun-GRPO	强化学习
2	ikun-Reason <-- 你在这里	推理模型
3	ikun-MoE	混合专家
3	ikun-Distill	知识蒸馏
3	ikun-V	多模态
4	ikun-deploy	部署

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ikun-Reason

你将学到

核心代码

推理模型的关键设计

系列导航

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

ikun-Reason

你将学到

核心代码

推理模型的关键设计

系列导航

About

Topics

Resources

Code of conduct

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages