多特征合并,然后由统一的ip qkv计算会不会造成注意力分散现象,因为我测试了下在脸部还原度上跟instantID比起来还是有差距的,instantID他相对集中就是处理脸部,而storyMaker他会连同身体甚至服装部分都会纳入计算,是否会导致参数调整无法集中细节,而导致细节还原度就没那么理想,纯属个人的潜解,希望解惑。