Supercomputer/Notice at Run - Update 1 Oct 2003

運用上の注意

[English]

メイリングリスト

スーパーコンピューター関連のアナウンスのために、 メイリングリスト ml-super が運営されています。 新規ユーザーについては自動的に加入されます。 漏れがある場合にはご連絡下さい。 脱退は自由ですが、アナウンスは得られなくなります。

ユーザーでなくても参加できます。 アナウンスばかりでなく、ユーザー相互の情報交換にもご利用下さい。

加入、脱退については、consult@rcnp.osaka-u.ac.jp までご連絡下さい。


計算機・ネットワークの停止予定に関して

停電等による計算機とネットワークの停止予定に関する注意です。

スーパーコンピューターシステムは、RCNP 及びサイバーメディアセンター (CMC) によって運営されていますので、双方の停止予定にご注意下さい。

停止するシステムによって、以下のような状況となります。

計画停止の場合は、ジョブはチェックポイントを採り、 リスタートされるので、止まった場所から実行を開始します。 止まっている期間以外のロスはなく、ジョブの再実行や再投入は不要です。 但し、止まっている間に入出力しているファイルを触らないように注意して下さい。


クラッシュなどによるジョブの異常終了後の取り扱いについて

クラッシュには CPU 単独のクラッシュとノード全体のクラッシュがあります。 CPU 単独でクラッシュした場合はその CPU で実行中のジョブだけが異常終了します。 ノード全体がクラッシュした場合はそのノードで実行中のジョブだけが 異常終了します。 パラレルジョブの場合は、分散されたプロセスの内の1つでもクラッシュした CPU にあった場合は、ジョブ全体が異常終了します。 何れの場合も実行後、実行前のジョブへの影響はありません。

異常終了したジョブはデフォールトで再実行(re-run)されます。 ファイルの入出力の関係で再実行されると困る場合には、 qsub のオプションで -nr (no re-run) と指定します。

異常終了したジョブのリストは1日以内に ml-super にアナウンスされます。 (手間の関係で個別通知はご容赦下さい。)


Computer and Network Group, Research Center for Nuclear Physics, Osaka University 2003