多特征合并，然后由统一的ip qkv计算会不会造成注意力分散现象

多特征合并，然后由统一的ip qkv计算会不会造成注意力分散现象，因为我测试了下在脸部还原度上跟instantID比起来还是有差距的，instantID他相对集中就是处理脸部，而storyMaker他会连同身体甚至服装部分都会纳入计算，是否会导致参数调整无法集中细节，而导致细节还原度就没那么理想，纯属个人的潜解，希望解惑。