使用多机多卡进行训练

将工程文件复制到每一台机器上

scp -r root@10.10.90.7:/root/ZhouHua/ ./
scp -r root@10.10.90.2:/root/ZhouHua ./
scp -r root@10.10.90.67:/root/ZhouHua/ ./

在每一台机器上启动训练进程

pytroch

python -m torch.distributed.launch --nproc_per_node 8 --nnodes 3 --node_rank 0 --master_addr=10.10.90.7 --master_port='29500' /root/ZhouHua/CrossformerXL/main.py
python -m torch.distributed.launch --nproc_per_node 8 --nnodes 3 --node_rank 1 --master_addr=10.10.90.7 --master_port='29500' /root/ZhouHua/CrossformerXL/main.py
python -m torch.distributed.launch --nproc_per_node 8 --nnodes 3 --node_rank 2 --master_addr=10.10.90.7 --master_port='29500' /root/ZhouHua/CrossformerXL/main.py

pytorch-lightning

MASTER_ADDR=10.10.90.7 MASTER_PORT=27500 WORLD_SIZE=3 NODE_RANK=0 LOCAL_RANK=0 python /root/ZhouHua/CrossformerXL/main.py --num_nodes 3
MASTER_ADDR=10.10.90.7 MASTER_PORT=27500 WORLD_SIZE=3 NODE_RANK=1 LOCAL_RANK=0 python /root/ZhouHua/CrossformerXL/main.py --num_nodes 3
MASTER_ADDR=10.10.90.7 MASTER_PORT=27500 WORLD_SIZE=3 NODE_RANK=2 LOCAL_RANK=0 python /root/ZhouHua/CrossformerXL/main.py --num_nodes 3

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...