几点疑问或建议

1，利用cpp进行加速，如llama.cpp那样，你们也可以搞个mixtral.cpp，支持mixtral-8x7b和mixtral-7b在f32，f16等精度上的灵活切换
2，全参数的训练、提示学习微调代码，及其对应的数据json格式