Systm PBS na farm goli Jan vec svecjfzu
Systém PBS na farmě goliáš Jan Švec <svecj@fzu. cz> 27. 11. 2003
Systém PBS (1) ● Portable batch system – ● ● http: //www. particle. cz/farm/dokumentace/pbs_user_guid e. pdf tři základní komponenty: – PBS server – PBS mom – PBS scheduler dočasné (scratch) adresáře na worker nodech
Systém PBS (2) ● ● Open. PBS 2. 3. 16 -> LCG – PBS server – ce. farm. particle. cz – PBS moms – golias 28 – golias 30 PBSPro 5. 2. 2 -> zbytek farmy – PBS server – golias. farm. particle. cz – PBS moms – golias 01 – golias 24
Struktura PBS na goliáši ● ● řazení podle priorit – funguje na nově spouštěné joby – zatím nefunguje checkpointing 6 front – obecné – pro daný experiment ● shortq ● d 0 ● normalq ● atlas ● longq ● alice
Management jobů ● qsub - zadání jobu ● qdel - smazání jobu ● qstat ● qalter - modifikace parametrů jobu ● qorder - přehození jobů ve frontě ● qmove - přesunutí jobu do jiné fronty ● qhold/qrls -h - pozastavení/uvolnění jobu - přehled běžících jobů
xpbsmon
xpbs
Příklad zadání jobu 1) qsub -o $HOME/pbs_output -e $HOME/pbs_error -m abe -q shortq /home/svecj/jobs/pokus 1. sh 2) qsub -o $HOME/pbs_output -e $HOME/pbs_error -m abe -q shortq -l nodes=4: giga: ppn=5: cpp=2 ~/jobs/pokus 1. sh – ppn != processors per node ale processes per node – cpp=1 => 1 proces použije 1 CPU (1 proces může běžet 1 thread) – všechny vlastnosti jsou globálně nadefinovány ve frontách
Zjišťování informací o jobech (1) – příkaz qstat – stavy jobu: E-exiting, H-held, Q-queued, R-running, Wwaiting for time, S-suspended – qstat -Q (příp. -Qf) - vypíše fronty, jejich vlastnosti a status – qstat -f <job> - vypíše podrobnosti o jobu – qstat -u <user> - vypíše joby daného uživatele – qstat -n - vypíše informace o přiřazení nodů jobům – volby je možno kombinovat: ● qstat -u aliprod -n - vypíše obsazení nodů joby
Zjišťování informací o jobech (2) [svecj@golias pbs]$ qstat Job id Name --------20196. golias spustpok 1 26079. golias cond_0. 0_10 26080. golias cond_0. 0_10 26083. golias cond_0. 0_10 26084. golias cond_0. 0_10 26085. golias cond_0. 0_10 26113. golias spust. rsd_test 26116. golias spust. rsd_test 26157. golias d 0 job 15 -2 26158. golias d 0 job 16 -2 26159. golias d 0 job 17 -2 26160. golias d 0 job 18 -2 26161. golias d 0 job 19 -2 26162. golias d 0 job 20 -2 26163. golias spust. rsd_test 26164. golias spust. rsd_test 26165. golias spust. rsd_test 26166. golias spust. rsd_test 26167. golias spust. rsd_test 26168. golias spust. rsd_test 26169. golias spust. rsd_test 26170. golias spust. rsd_test 26171. golias spust. rsd_test User --------srbekj strizenec strizenec smolik d 0 mc d 0 mc smolik smolik smolik Time Use -------00: 20 113: 09: 5 112: 44: 1 111: 59: 5 111: 25: 0 86: 39: 58 23: 09: 17 21: 53: 32 11: 54 07: 12: 14 06: 47: 42 03: 58: 40 03: 57: 36 03: 30: 50 03: 15: 36 02: 14: 29 01: 48: 04 01: 44: 27 01: 36: 42 00: 55: 39 00: 55: 38 00: 53: 37 S R S S S S R R R R Queue ----longq longq longq d 0 d 0 d 0 longq longq longq
Děkuji za pozornost
- Slides: 12