-
+
diff --git a/about/index.html b/about/index.html index ee280a70..5dbb37e5 100644 --- a/about/index.html +++ b/about/index.html @@ -5,13 +5,13 @@ - + -
基于Decoder-Only架构,对FFN和Attention做出了改进
传统MHA:需要 $2 \ast len \ast nhead \ast d_{nhead}$ 的空间存储 KV Cache
MLA: 将K和V进行低秩联合压缩,以减少KV缓存,类似LoRA。将KV以低维度缓存,使用时再通过投影层变换回去。减少内存占用的同时丢失部分精度。
旋转位置编码:待补充
MoE: 混合专家模型,在本模型架构中主要是在FFN层体现
将专家分为共享专家与路由专家,以token为粒度:
专家级负载平衡:减少路由崩溃的风险
设计理念:既希望每个专家能够均衡负载,又需要考虑每个专家的贡献(负载均衡+贡献均衡)。
1 | scores_for_aux = scores |
设备级负载平衡:将专家分为D组,分配到D个设备上,类似于专家损失,此时负载差异值的计算仍是以专家为单位,只不过计算了每个设备上专家负载的均值
代码实现:
1 | # TODO: 实现device_loss,假设按顺序将专家分组 |
通信级负载平衡:保证各设备的通信均衡,每个设备接收到的token数量也应该保持均衡
1 | # TODO: 实现comm_loss |
三个负载平衡机制层次由低至高,从底层的专家平衡、到中层的设备平衡、再到顶层的通信平衡共同作用,旨在优化MoE系统的资源利用并解决专家崩溃等问题,实现了强大的性能。
]]> +基于Decoder-Only架构,对FFN和Attention做出了改进
传统MHA:需要 $2 \ast len \ast nhead \ast d_{nhead}$ 的空间存储 KV Cache
MLA: 将K和V进行低秩联合压缩,以减少KV缓存,类似LoRA。将KV以低维度缓存,使用时再通过投影层变换回去。减少内存占用的同时丢失部分精度。
旋转位置编码:待补充
MoE: 混合专家模型,在本模型架构中主要是在FFN层体现
将专家分为共享专家与路由专家,以token为粒度:
专家级负载平衡:减少路由崩溃的风险
设计理念:既希望每个专家能够均衡负载,又需要考虑每个专家的贡献(负载均衡+贡献均衡)。
1 | scores_for_aux = scores |
设备级负载平衡:将专家分为D组,分配到D个设备上,类似于专家损失,此时负载差异值的计算仍是以专家为单位,只不过计算了每个设备上专家负载的均值
代码实现:
1 | # TODO: 实现device_loss,假设按顺序将专家分组 |
通信级负载平衡:保证各设备的通信均衡,每个设备接收到的token数量也应该保持均衡
1 | # TODO: 实现comm_loss |
三个负载平衡机制层次由低至高,从底层的专家平衡、到中层的设备平衡、再到顶层的通信平衡共同作用,旨在优化MoE系统的资源利用并解决专家崩溃等问题,实现了强大的性能。
]]>