Version4版本的Dataloader运行极为缓慢 #55
-
我使用的环境和设备是:Docker、Ubantu、Pytorch2.1,16 Cores CPU、128G RAM 、1*A100 GPU. |
Beta Was this translation helpful? Give feedback.
Replies: 2 comments 2 replies
-
这是符合预期的。v4 新增了一组 CPU 计算量较大的 feature,导致 CPU 很可能会压过 GPU 成为训练时的瓶颈资源。 另外可以尝试减少 file_batch_size 来让 workload 变得更均匀一些,减少资源浪费,不过需要的总计算量还是不变的。 |
Beta Was this translation helpful? Give feedback.
-
在我的环境下DataLoader瓶颈造成了15%左右的总体速度损失。我注意到即使设置了num_workers = 16之后CPU的总体利用率仍然不高,有30%左右的时间因为iter没有触发而处于空闲状态。如果FileDatasetsIter类能支持一些look ahead功能应该可以提高CPU的利用率。 |
Beta Was this translation helpful? Give feedback.
这是符合预期的。v4 新增了一组 CPU 计算量较大的 feature,导致 CPU 很可能会压过 GPU 成为训练时的瓶颈资源。
另外可以尝试减少 file_batch_size 来让 workload 变得更均匀一些,减少资源浪费,不过需要的总计算量还是不变的。