Skip to content

ikun-llm/ikun-Reason

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 

ikun-Reason

先思考,再太美
Level 2 | 对齐篇


<think>
用户问我会不会打篮球,
我需要自信地回答,
因为我是练习了两年半的练习生...
</think>
<answer>
那必须的!铁山靠!
</answer>

你将学到

  • 什么是推理模型(DeepSeek-R1 风格)
  • <think> + <answer> 标记的训练机制
  • Token 级别的 Loss 权重调节(思考部分 vs 回答部分)
  • Adaptive Thinking:可选择开启/关闭思维链
  • 推理模型 vs 普通模型的效果对比

核心代码

基于 MiniMindtrainer/train_reason.py

cd trainer && python train_reason.py \
    --from_weight full_sft --hidden_size 512 --epochs 2

推理模型的关键设计

普通模型: 用户提问 → 直接回答
推理模型: 用户提问 → <think>思考过程</think> → <answer>最终回答</answer>

训练技巧:
- 特殊 token (<think>/<answer>) 的 loss 权重 ×10
- 思考部分用较低权重,回答部分用较高权重
- 支持 enable_thinking=True/False 动态切换

系列导航

Level Repo 学什么
1 ikun-tokenizer 分词器原理
1 ikun-pretrain 从零预训练
1 ikun-2.5B SFT + LoRA 微调
2 ikun-DPO 偏好对齐
2 ikun-GRPO 强化学习
2 ikun-Reason <-- 你在这里 推理模型
3 ikun-MoE 混合专家
3 ikun-Distill 知识蒸馏
3 ikun-V 多模态
4 ikun-deploy 部署

About

推理模型训练 | Reasoning with chain-of-thought 🧠

Topics

Resources

Code of conduct

Contributing

Security policy

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors