Slurm作业管理系统常用命令和教程

slurm ( simple linux utility for resource management )是开源的、具有容错性和高度可扩展大型和小型 linux集群资源管理和作业调度系统。超级计算系统可利用 slurm 进行资源和作业管理,以避免相互干扰,提高运行效率。所有需运行的作业无论是用于程序调试还是业务计算均必须通过交互式并行 srun、批处理式 sbatch 或分配式 salloc 等命令提交,提交后可以利用相关命令查询作业状态等。
同时北鲲云超算平台也是使用的slurm作业管理系统,熟悉slurm作业管理系统的同学可以快速上手北鲲云进行计算,不熟悉的也没关系,一是可以学,我们有完整的教程以及技术支持服务,另外就是平台还提供模板提交方式,无需it基础也可以快速进行计算。直接按照模板提示提交作业即可。多种软件覆盖多个行业,欢迎lai'shi'yi's
一. 常用命令​
sinfo #查看分区状态squeue #查看队列中的作业scontrol #查看作业详细信息scancel #取消已经提交的作业sbatch #批处理式提交作业salloc #分配式运行作业  
1. 查看分区状态​
sinfo  
cpu分区命名规则为c-核心数-每核心内存大小,如c-8-4:表示单节点规格为8核,每核心有4g内存,即节点规格为8核32g。
gpu分区命名规则为g-卡号-每节点卡数,如g-v100-2:表示有两张显卡型号为tesla v100的gpu节点。
2. 查看作业队列​
squeue  
jobid:作业号。
st:状态 (r:运行中;cf:配置中;pd:排队中)。
3. 查看所有作业详细信息​
scontrol show jobs
4. 取消作业号为20的作业​
scancel 20  
二. 提交作业的方式​
1. 使用sbatch批处理模式提交作业​
sbatch命令可以提交任务至一个或多个计算节点,实现并行计算。
sbatch命令的一些常用选项:
参数 功能
-n 申请的节点数量
-p 指定计算节点规格,使用sinfo查看所支持的规格
-n 指定任务数,即并行程序运行多少个进程
-c 每进程使用的cpu核心数
参考运行程序:demo.sh
#!/bin/bashsleep 6000  
提交示例:
使用2个4核心节点启动8个并行任务。
sbatch -n 2 -p c-4-1 -n 8 -c 1 demo.sh  
1个4核心节点启动4个并行任务。
sbatch -n 1 -p c-4-1 -n 4 -c 1 demo.sh  
1个4核心节点启动4个并行任务。
sbatch -p c-4-1 -n 4 demo.sh  
1个4核心节点启动1个并行任务, 该任务使用4个cpu核心。
sbatch -p c-4-1 -n 1 -c 4 demo.sh  
2个4核心节点启动2个并行任务, 每个任务使用4个cpu核心。
sbatch -p c-4-1 -n 2 -c 4 demo.sh  
2. 使用salloc分配模式提交作业​
salloc命令可以用来分配节点,用户可以在获取分配的计算节点后,ssh进入直接运行相关计算程序,主要用来调式程序执行。
使用步骤(案例):
step1. salloc申请计算节点;
salloc -n 1 -p c-8-2 &  
step2. ssh登录到分配的计算节点;
ssh c-8-2-worker0001  
step3. 调试或运行程序;
./demo.sh  
step4. 结束程序运行后释放分配的节点;
scancel 17


函数的参数
得捷电子与矽递科技合作推出用于Seeeduino Lotus的Grove入门套件
细数动力电池焊接的工艺难点
三星q9f评测 重新思考电视存在的方式和价值
超过1亿台物联网设备容易受到“Z-Wave降级攻击”的影响
Slurm作业管理系统常用命令和教程
如何判断和测量电动机温度异常
董明珠收购银隆,牵扯出“万亿市场”?
ios10.3即将发布,你还敢信苹果吗?还是赶紧ios10.2越狱降级吧!
CSS基础知识和基本用法的详细说明
手电筒IC AP9232输入0.9-6V输出2.0-4V
mt6573处理器
在rfid基础上的温度检测是怎样设计的
智能家居全屋配齐 成新房装修的流行趋势
服务型机器人抗击疫情,黑科技迎来高光期
什么是理想无源元件
超强新品诞生!TCL P12G量子点电视,色彩满级同价位无对手
通用将投200亿美元 专注研发自动驾驶技术
智慧构思:智能合约技术精髓与价值转化 ——华为云BCS区块链服务
5G车联网正成为创新热点和汽车产业发展的战略制高点