pytorch使用DataParallel并行化负载不均衡问题

程序员俊江技术 2022年11月6日

0 收藏 462 点赞 260 浏览 791 个字

使用DataParallel进行并行化时的结构如下：

在上图第一行第四个步骤中，GPU-1 其实汇集了所有 GPU 的运算结果。这个对于多分类问题还好，但如果是自然语言处理模型就会出现问题，导致 GPU-1 汇集的梯度过大，直接爆掉。

那么就要想办法实现多 GPU 的负载均衡，方法就是让 GPU-1 不汇集梯度，而是保存在各个 GPU 上。这个方法的关键就是要分布化我们的损失函数，让梯度在各个 GPU 上单独计算和反向传播。这里又一个开源的实现：https://github.com/zhanghang1989/PyTorch-Encoding。这里是一个修改版，可以直接在我们的代码里调用：地址。实例：

from parallel import DataParallelModel, DataParallelCriterionparallel_model = DataParallelModel(model)             # 并行化model
parallel_loss  = DataParallelCriterion(loss_function) # 并行化损失函数predictions = parallel_model(inputs)      # 并行前向计算
                                          # "predictions"是多个gpu的结果的元组
loss = parallel_loss(predictions, labels) # 并行计算损失函数
loss.backward()                           # 计算梯度
optimizer.step()                          # 反向传播
predictions = parallel_model(inputs)

如果你的网络输出是多个，可以这样分解：

output_1, output_2 = zip(*predictions)

如果有时候不想进行分布式损失函数计算，可以这样手动汇集所有结果：

gathered_predictions = parallel.gather(predictions)

下图展示了负载均衡以后的原理：

函数多个损失是一个梯度

程序员俊江

贡献者

上一篇：路径规划: PRM 路径规划算法 (Probabilistic Roadmaps 随机路标图)

下一篇： Django框架深入了解_01(Django请求生命周期、开发模式、cbv源码分析、restful规范、跨域、drf的安装及源码初识)

相关推荐

python开发_常用的python模块及安装方法

adodb：我们领导推荐的数据库连接组件bsddb3：BerkeleyDB的连接组件Cheetah-1.0：我比较喜欢这个版本的cheeta…

程序员润宾技术

日期：2022-11-24 点赞：878 阅读：9,087

Educational Codeforces Round 11 C. Hard Process 二分

C. Hard Process题目连接：http://www.codeforces.com/contest/660/problem/CDes…

程序员春广技术

日期：2022-11-24 点赞：807 阅读：5,562

下载Ubuntn 17.04 内核源代码

zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…

程序员峰军技术

日期：2022-11-24 点赞：569 阅读：6,412

可用Active Desktop Calendar V7.86 注册码序列号

可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…

程序员天赐技术

日期：2022-11-24 点赞：733 阅读：6,185

Android调用系统相机、自定义相机、处理大图片

Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式，并且由于涉及到要把拍到的照片显…

程序员爱鹏技术

日期：2022-11-24 点赞：512 阅读：7,821

Struts的使用

一、Struts2的获取　　Struts的官方网站为：http://struts.apache.org/　　下载完Struts2的jar包,…

程序员红卫技术

日期：2022-11-24 点赞：671 阅读：4,905

个人收藏笔记记录

开通VIP