Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Dev/use vllm #1053

Merged
merged 7 commits into from
Mar 13, 2025
Merged

Dev/use vllm #1053

merged 7 commits into from
Mar 13, 2025

Conversation

qi-hua
Copy link

@qi-hua qi-hua commented Mar 7, 2025

目前使用 vllm 的 AsyncLLMEngine 加速推理

增加了 cosyvoice.llm.llm_vllm.VllmQwen2LM ,其他文件主要是简单修改;

VllmQwen2LM目前支持多任务推理,并发需对原接口适当修改;

使用trt的情况下,加速后效果 rtf 能够达到 0.1-0.15

qi-hua added 6 commits March 7, 2025 20:26
- 新增基于队列和线程的异步推理机制
- 优化同步推理接口,使用新机制实现
- 删除了 LLM 类中的 async_llm_inference 方法
- 该方法尚未使用,且再在loop_thread之外运行后会导致 vllm 崩溃,因此将其移除
- 新增 speed_test.ipynb 文件,用于测试 CosyVoice2模型的性能
- 包含测试环境配置、默认情况下的使用示例、使用 vllm 加速 LLM 推理的步骤
- 移除任务队列和单任务处理限制
- 使用 asyncio.run_coroutine_threadsafe() 在后台线程中运行推理任务
@wang-TJ-20
Copy link

wang-TJ-20 commented Mar 8, 2025

@qi-hua 你好,感谢你的分享,我尝试你这个分支,想问下需要多少显存可以呢。gpu_memory_utilization在代码的哪块加呢
image

@qi-hua
Copy link
Author

qi-hua commented Mar 8, 2025

@qi-hua 你好,感谢你的分享,我尝试你这个分支,想问下需要多少显存可以呢。gpu_memory_utilization在代码的哪块加呢 !

vllm需要大概3-4G的显存就可以了,gpu_memory_utilization的设置目前放在了cosyvoice/llm/llm_vllm.py:39 ENGINE_ARGS中,还没有暴露设置的位置,需要手动修改。

- 在 Frontend 中,恢复原本逐个生成文本令牌
- 在 Model 类中,移除了不必要的日志信息和断言,简化了文本令牌的处理流程
@wang-TJ-20
Copy link

@qi-hua 你好,感谢你的分享,我尝试你这个分支,想问下需要多少显存可以呢。gpu_memory_utilization在代码的哪块加呢 !

vllm需要大概3-4G的显存就可以了,gpu_memory_utilization的设置目前放在了cosyvoice/llm/llm_vllm.py:39 ENGINE_ARGS中,还没有暴露设置的位置,需要手动修改。

哦哦,感谢感谢,另外,我发现一个问题是,我按下面的测试脚本测试出现了下面的错误,
image
image
根据报错提示改成下面的调用方式就可以了,请问是vllm版本实现中启动了多进程吗
image

@qi-hua
Copy link
Author

qi-hua commented Mar 9, 2025

我不了解这两种方式的区别,但默认会启动很多的进程。

@aluminumbox
Copy link
Collaborator

@lyblsgo 麻烦帮忙看一下这个代码

@lyblsgo lyblsgo merged commit 00b454c into FunAudioLLM:dev/Comet Mar 13, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

4 participants