这是一个关于PD分离的分析工具,它分析了KV cache传输时间、Prefill执行时间和Decode执行时间。你只需要在两个分析文件的开头输入from your_model import *和硬件参数并按示例补充your_model.py文件,即可计算理论推理时延。我们考虑了TP/PP/EP三种并行方式,但这些仅为理论值,不明确与实际实验数据有多大差距。
| 文件 | 功能 |
|---|---|
| Hardware.py | 硬件参数 |
| LLaMA2_7B.py | LLaMA模型参数 |
| LLaMA2_70B.py | LLaMA模型参数 |
| PDratio.py | 分析最优PD实例配比 |
| time_analysis.py | 分析TTFT和TPOT |