单机多卡训练 #101

kg-nlp · 2023-09-20T08:32:10Z

🐛 bug 说明

请问微调模型是否支持单机多卡

Python Version

None

wangyuxinwhy · 2023-10-07T03:58:17Z

支持的，各种单机多卡的策略都可以支持

Bannerli · 2024-01-25T01:57:40Z

大佬您好，我想问下可以单击多卡进行finetuing吗，我在FineTuner这个类没有找到gpu设置的参数项。

wangyuxinwhy · 2024-02-26T07:04:08Z

单机多卡的 finetuning 是通过 accelerate 包来支持的，你需要参考 accelerate 的方式来使用

yangxudong · 2024-06-16T08:39:29Z

单机多卡的 finetuning 是通过 accelerate 包来支持的，你需要参考 accelerate 的方式来使用

你好，请问给出一个单机多卡的 finetuning 的Demo代码吗？谢谢！

zazd · 2024-06-26T08:28:36Z

@yangxudong 提供一个参考案例给你，希望有帮助, 因为只是简单体验uniem，可能有理解不对的地方。假设你已经跑通单机finetune的情况下，

通过accelerate启动多卡:
a.生成一个config.yaml文件，复制以下配置: (其中num_processes:4 --表示4卡跑任务，其他配置自行查找accelerate配置)
compute_environment: LOCAL_MACHINE
distributed_type: MULTI_GPU
downcast_bf16: 'no'
gpu_ids: all
machine_rank: 0
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 4
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false
b. 执行命令: accelerate launch --config_file your_dir/config.yaml your_py_file.py
因为我是别人提供gpu集群，我提交任务的方式，所以到此就可以跑起来了，你如果不是，可能需要研究一下gpu多卡启动；
但是到这里还是无法跑起来，主要原因后面会遇到报错，如:
Parameter indices which did not receive grad for rank 2: 197 198 , 类似https://www.cnblogs.com/fireinstone/p/17352130.html 这个。原因是你定义的模型layer没有全部参与到loss计算，在单机下可以跑，但是分布式，涉及多卡更新，所以会catch这个情况并且报错；
简单看了下uniem的代码实现，主要问题是在:
embedder = create_uniem_embedder('uer/chinese_roberta_L-12_H-128', pooling_strategy='cls')
这里pooling用的是cls，而bert/roberta的最后一层，可能是BertPooler层，uniem的几个pooling策略，好像都是用的cls的输出(也有其他的)，但是最后BertPooler没有用，从而导致分布式更新时候有问题，具体可以看

uniem/uniem/model.py

Line 106 in f76acf9

class ClsEmbedder(UniemEmbedder):

因此为了可以分布式跑起来，要么把BertPooler去掉，要么计算loss时候用上BertPooler的输出，也就是pooler_output。
我用的是后者，参考代码:
a.PoolingStrategy加入新的策略pooler_output
class PoolingStrategy(str, Enum):
cls = 'cls'
last_mean = 'last_mean'
first_last_mean = 'first_last_mean'
embedding_last_mean = 'embedding_last_mean'
last_weighted = 'last_weighted'
pooler_output = 'pooler_output'
b. 在uniem/model.py添加新的类
class PoolerOutput(UniemEmbedder):
pooling_strategy: ClassVar[PoolingStrategy] = PoolingStrategy.pooler_output

def forward(self, input_ids: torch.Tensor, attention_mask: torch.Tensor | None = None) -> torch.Tensor:
if attention_mask is None:
attention_mask = create_attention_mask_from_input_ids(input_ids, self.pad_token_id)
embeddings = self.encoder(input_ids, attention_mask=attention_mask).pooler_output
return embeddings
c.embedder = create_uniem_embedder('uer/chinese_roberta_L-12_H-128', pooling_strategy='pooler_output')

到这里应该能跑起来了，当然你可能还会遇上pytorch版本问题，分布式跑也可能有坑，见招拆招吧。

kg-nlp added the bug Something isn't working label Sep 20, 2023

kg-nlp assigned wangyuxinwhy Sep 20, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

单机多卡训练 #101

单机多卡训练 #101

kg-nlp commented Sep 20, 2023

wangyuxinwhy commented Oct 7, 2023

Bannerli commented Jan 25, 2024

wangyuxinwhy commented Feb 26, 2024

yangxudong commented Jun 16, 2024

zazd commented Jun 26, 2024 •

edited

Loading

单机多卡训练 #101

单机多卡训练 #101

Comments

kg-nlp commented Sep 20, 2023

🐛 bug 说明

Python Version

wangyuxinwhy commented Oct 7, 2023

Bannerli commented Jan 25, 2024

wangyuxinwhy commented Feb 26, 2024

yangxudong commented Jun 16, 2024

zazd commented Jun 26, 2024 • edited Loading

zazd commented Jun 26, 2024 •

edited

Loading