Skip to content

这是一个关于PD分离的分析工具,它分析了KV cache传输时间、Prefill执行时间和Decode执行时间。你只需要在分析文件的开头输入你的模型参数和硬件参数,即可一键计算理论推理时延。

Notifications You must be signed in to change notification settings

shijuzhao/How_fast_is_your_LLM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

How_fast_is_your_LLM

这是一个关于PD分离的分析工具,它分析了KV cache传输时间、Prefill执行时间和Decode执行时间。你只需要在两个分析文件的开头输入from your_model import *和硬件参数并按示例补充your_model.py文件,即可计算理论推理时延。我们考虑了TP/PP/EP三种并行方式,但这些仅为理论值,不明确与实际实验数据有多大差距。

文件描述

文件 功能
Hardware.py 硬件参数
LLaMA2_7B.py LLaMA模型参数
LLaMA2_70B.py LLaMA模型参数
PDratio.py 分析最优PD实例配比
time_analysis.py 分析TTFT和TPOT

About

这是一个关于PD分离的分析工具,它分析了KV cache传输时间、Prefill执行时间和Decode执行时间。你只需要在分析文件的开头输入你的模型参数和硬件参数,即可一键计算理论推理时延。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages