作者你好,我在第一阶段align时,已经用interleaved 数据训练了embeding层,在这个模型基础上,希望继续训练multitask任务。看论文里的介绍,MI阶段的训练数据是chatml格式的,训练loss是只计算目标token。 我的疑问是: 1. MI任务是sft还是cpt?训练的是网络中哪些层的权重呢? 2.MI任务的数据都需要构造成chatml格式么,user interleaved数据看起来不是chatml的,是如何加到MI任务训练的呢?