llama.cpp生成的量化模型，如何在仿openai中使用？ #338

sipingxiaozi · 2023-10-12T07:03:22Z

sipingxiaozi
Oct 12, 2023

想知道在如下脚本命令中，
$ python scripts/openai_server_demo/openai_api_server.py --base_model /path/to/base_model --only_cpu
如何指定一个生成好的量化gguf文件？
base_model只能指定一个文件目录，而生成的量化目录里同时有gguf文件和原始bin文件。

另外，这里openai不支持mac的gpu吧？调用gpu会在响应时报错：
RuntimeError: Placeholder storage has not been allocated on MPS device!

airaria · 2023-10-12T08:11:53Z

airaria
Oct 12, 2023

scripts/下的脚本不支持gguf格式的模型，只能加载bin格式的模型

1 reply

sipingxiaozi Oct 12, 2023
Author

那有支持gguf格式的方式吗？因为首页显示仿openai API接口支持量化。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llama.cpp生成的量化模型，如何在仿openai中使用？ #338

{{title}}

Replies: 1 comment 1 reply

{{title}}

{{title}}

Select a reply

llama.cpp生成的量化模型，如何在仿openai中使用？ #338

sipingxiaozi Oct 12, 2023

Replies: 1 comment · 1 reply

airaria Oct 12, 2023

sipingxiaozi Oct 12, 2023 Author

sipingxiaozi
Oct 12, 2023

Replies: 1 comment 1 reply

airaria
Oct 12, 2023

sipingxiaozi Oct 12, 2023
Author