HPC管理筆記

HPC管理筆記：

　　由於Linux的基礎教學在鳥哥Linux私房菜的網站裡已經寫得很清楚了，所以這邊會比較著重於Trouble-shooting，以及跟Cluster/伺服器管理有關的筆記，多半也是我在管理機器(RHEL4)時碰上的問題。現在是想到什麼寫什麼，可能有點亂，未來也許會與Linux常用指令的筆記合併。

Torque Resource Manager(安裝請看TORQUE安裝筆記)
Network File System (NFS)

遇上NFS Stale File Handle（過舊的NFS 檔案控制碼）
mount NFS檔案系統時出現permission denied
讓NFS server故障時client端不會hang住

新增使用者，並更新NIS資料庫
防火牆無法啟動之問題
環境設定
進站公告
遇上大量檔案導致出現Argument List too long的解決方法（假設知道檔案名稱規則）
想umount某裝置卻一直遇上Device is Busy
修改無法變更的/etc/resolv.conf
修復X-Window沒有正常關閉造成GNOME出錯的問題
讓不同使用者對某資料夾擁有讀取、寫入的權限，但不能刪除他人檔案
讓RHEL4支援XFS延伸格式檔案系統 & 用parted指令格式化大容量磁區
SSH到其他Node免輸入密碼

請愛用Ctrl+F搜尋關鍵字

TORQUE: qstat的錯誤訊息(Connection refused)

如果你在下qstat或是qsub時，遇上類似於連線被拒的問題，很有可能是你位於HPC這台機器上的pbs_server掛了，到該機器上用service torque status查詢一下pbs_server有沒有在跑，若沒有請直接執行pbs_server（或service torque start）應該就可以解決：

[root@HPC ~]$ qstat
Connection refused qstat: cannot connect to server HPC (errno=111)
[root@HPC ~]$ service torque status
pbs_server is not running
[root@HPC ~]$ pbs_server

TORQUE: qstat無法顯示其他使用者的任務

　　如果下了qstat的指令，卻都只能看到自己的任務的話，這樣很有可能是在設定裡沒有允許使用者查詢其他使用者的任務狀態（就是query_other_jobs這個參數，其預設值為FLASE），只要將它設定為TRUE之後，重新啟動服務即可：

[root@HPC ~]$ qmgr -c "set server query_other_jobs = TRUE"
[root@HPC ~]$ service torque restart

參考資料： TORQUE Admin Manual - Appendix B: Server Parameters

TORQUE: 執行pbsnodes後某台機器顯示down

　　遇上這種狀況，第一步是先去該機器檢查pbs_mom有沒有啟動，沒有的話把它啟動即可。

[root@HPC ~]$ pbsnodes
cn1
　state = down
　np = 4
　ntype = cluster
　status = opsys=linux,,uname=Linux cn1....（略）
[root@HPC ~]$ ssh cn1
[root@cn1 ~] service torque status
pbs_mom is not running
[root@cn1 ~] pbs_mom ; service torque status
pbs_mom is pid 8066

　　如果pbs_mom啟動了，但是從pbsnodes來看它還是在down的狀態的話，那很有可能是網路相關設定錯誤所造成的，請檢查node端/etc/sysconfig/network裡面主機名稱是否有跟主機端/var/spool/TORQUE/nodes及/etc/hosts裡面電腦別名一致，若不同的話把它改成一樣的應該就可以了。

[root@HPC ~]$ cat /etc/hosts
192.168.100.1 HPC
192.168.100.2 cn1
[root@HPC ~]$ cat /var/spool/TORQUE/nodes
HPC np=12
cn1 np=2

[root@cn1 ~] cat /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=cn1
# 以上黃字粗體的地方都要一樣

如果到這都沒問題，那建議檢查一下防火牆、實體線路。

TORQUE: 修改運算節點可用核心數

　　設定檔應該是/var/spool/TORQUE/nodes（舊一點的版本會在/usr/spool/TORQUE底下），它的格式很簡單，就是「節點主機名稱　np=可用核心數　gpus=可用GPU數」，改完重新執行pbs_server或是重啟torque服務即可：

# 修改可用核心數量
[root@HPC ~]$ vi /var/spool/TORQUE/nodes
HPC np=12
cn1 np=16
cn2 np=16
# 重啟服務
[root@HPC ~]$ service torque restart
Restarting PBS
..........(略)
# 記得要啟動運算節點上的pbs_mom（若登入節點也有加入運算那也要啟動），不然會不能用喔！

　　萬一重啟pbs_server時遇上pbs_server: another server running的問題，可能是因為它沒有真的被結束掉，用ps或top找到後kill掉即可。

參考資料：TORQUE Admin Manual - 1.2.2 Specify Compute Nodes

TORQUE: 刪除無法以qdel刪除的工作

　　若遇上了以qsub送出的工作用qdel怎麼刪也刪不掉時，可以試試看用root或Torque管理者的下qdel -p #JOBID來強制把它結束掉，如果還是不行，那只好手動把它刪除了，先將pbs_server停掉之後，移除位在你的TORQUE設定檔資料夾（一般來說應該是/var/spool/torque下）裡面關於伺服器設定的server_priv/jobs/底下的工作，然後重新啟動pbs_server應該就可以了。

通常這問題可能來自於Torque的設定錯誤，建議檢查一下是不是有路徑打錯或者是混用到不同版本的TORQUE(或MPICH)

參考資料：[Mauiusers] jobs won't qdel

TORQUE: qstat/pbsnodes出現pbs_iff: file not setuid root, likely misconfigured

　　如果用使用者的帳號，在其他node執行qstat或是pbsnodes時出現以下訊息：

[Cypresslin@Node1 ~]# pbsnodes
pbs_iff: file not setuid root, likely misconfigured
pbs_iff: cannot connect to HPC:15001 - fatal error, errno=13 (Permission denied) cannot bind to port 1023 in client_to_svr - errno: 13 Permission denied No Permission. pbsnodes: cannot connect to server cluster, error=15007 (Unauthorized Request )

然而用root執行又沒有問題的話，那這應該是Sticky bits的權限問題，pbs_iff這個檔案應該要擁有以下權限：

[Cypresslin@Node1 ~]# which pbs_iff
/work1/opt/TORQUE/sbin/pbs_iff
[Cypresslin@Node1 ~]# ll /work1/opt/TORQUE/sbin/pbs_iff
-rwsr-xr-x 1 root root 22143 12月 19 16:28 /work1/opt/TORQUE/sbin/pbs_iff

　　這問題通常會出現在把TORQUE安裝在NFS檔案系統之後，於節點上掛載時加上了nosuid的設定，因此而限制了這支程式的使用，這樣的話只要拿掉該設定再重新掛載應該就沒問題了。

啟動pbs_mom時遇上LOG_ERROR::Permission denied (13) in chk_file_sec ...

如果在啟動pbs_mom時遇上：

[root@HPC ~]$ pbs_mom
pbs_mom: LOG_ERROR::Permission denied (13) in chk_file_sec, Security violation with "/var/spool/TORQUE/spool/" - /var/spool/TORQUE/spool/ cannot be accessed
pbs_mom: LOG_ERROR::Permission denied (13) in chk_file_sec, Security violation with "/var/spool/TORQUE/undelivered/" - /var/spool/TORQUE/undelivered/ cannot be accessed
# 這是權限問題，這兩個資料夾正確的權限設定應該是：
[root@HPC ~]$ ll /var/spool/TORQUE
drwxrwxrwt 2 root root 4096 1月 8 15:09 spool
drwxrwxrwt 2 root root 4096 12月 19 16:28 undelivered
# 如果不是的話，請用以下指令修改權限（請對undelivered資料夾依樣畫葫蘆）：
[root@HPC ~]$ chmod a+w /var/spool/TORQUE/spool
[root@HPC ~]$ chmod a+x /var/spool/TORQUE/spool
[root@HPC ~]$ chmod +t /var/spool/TORQUE/spool

參考資料：[torqueusers] Permissions on /var in slave node

修改qstat中已完成之工作("C")的保留時間

　　在TORQUE安裝筆記中有提到，工作狀態"C"是代表已結束的工作，不論是正常的結束，或是被手動/自動強制中止都會顯示這個狀態。而進入此狀態的排程工作，在qstat中會待多久端看你TORQUE裡變數keep_completed的設定，你可以用以下的指令來查詢當前設定：

[root@HPC ~]$ qmgr -c 'list server keep_completed'
Server HPC
　　keep_completed = 300
# 這裡顯示保留時間為300秒，我們來把他改成180秒
[root@HPC ~]$ qmgr -c 'set server keep_completed=180'
# 這樣就可以了！用上一個list指令就可以看到結果

參考資料：TORQUE Admin Manual - 2.5 Keeping Completed Jobs

修改是否允許使用者於運算節點送工作
　　這項設定也很簡單，

NFS: 遇上NFS Stale File Handle（過舊的NFS 檔案控制碼）

　　這個訊息的出現通常是因為負責NFS的伺服器可能有不正常的重開、卸載之類的變更，這樣就會造成在client端下ls或是df -h等與該資料夾相關的指令時出現這個錯誤訊息：

[root@HPC ~]$ cd /RAID
-bash: cd: /RAID: Stale NFS file handle

若不幸遇上這問題，其實只要將該裝置卸載再mount回去即可，在用umount卸載時如果還是會出現這個訊息，那就加上-f或-l參數強制卸載即可。

要避免這種情況的發生，請在對伺服器上的NFS資料夾做更動前（比如說要重開機或是移除資料夾），先卸載client端上掛載的NFS資料夾。

參考資料：http://www.cyberciti.biz/tips/nfs-stale-file-handle-error-and-solution.html

NFS: mount NFS檔案系統時出現permission denied

　　如果在Client端掛載NFS檔案系統時出現這個問題，有可能是在Server端/etc/exports設定檔設定錯誤造成的，可以先檢查看看該檔案系統是否有被正確的分享出來：

# 假設要掛載的是位在NFSserver這台伺服器上的/work資料夾。
[root@HPC ~]$ mount -t ext3 NFSserver:/work /work
mount: NFSserver:/work failed, reason given by server: Permission denied
# 連到該伺服器檢查/etc/exports設定，如果沒有關於該資料夾的設定就把它加進去
[root@NFSserver ~]$ vi /etc/exports
/work　　192.168.160.0/255.255.255.0(rw,sync,no_root_squash)
# 若有任何更動，請重新export
[root@NFSserver ~]$ exportfs -a
# 最後檢查是不是真的有把這資料夾正確的分享出去
[root@NFSserver ~]$ showmount -e localhost
Export list for localhost:
/work 192.168.160.0/255.255.255.0

若有正確的把該檔案系統分享出去，那麼只要再確定機器間的連線沒有被防火牆擋下來之類的應該就沒問題了。

NFS: 讓NFS server故障時client端不會hang住

　　如果在掛載NFS檔案系統時，沒有加上一些額外的設定，那麼當NFS伺服器因故出問題時，就會使得Client端因為找不到伺服器所以瘋狂的retry，然後整台電腦就掛在那邊，連在近端登入後指令列都跳不出來。這樣在維護上真的很麻煩，萬一一台掛了讓其他的也不能動...要解決這個問題，只要在掛載時加上-o bg讓他在背景執行就不會影響到一般前景的工作：

# 除了前面提到的bg之外，還可以加上soft這個參數，讓RPC在服務中斷時不會一直持續的呼叫
[root@HPC ~]$ mount -t nfs -o rw,nosuid,nodev,nouser,auto,bg,soft storage:/scra2 /scra2
# nosuid：不讓使用者執行具有SUID權限的程式，可以提高一點安全性。
# 註：TORQUE這排程工具裡面有程式具有SUID權限，加了nosuid會讓它無法正常執行！
# nodev：因為我的這個NFS系統是存放資料用的，所以不保留裝置檔案的特殊功能。
# nouser：不允許使用者掛載/卸載。

　　其他的選項詳細說明可以參考鳥哥的網站，設定好之後，萬一NFS Server不幸當機，在對該NFS檔案系統下指令時就只會收到NFS Stale File Handle的訊息。

參考資料：鳥哥Linux的私房菜：第十三章、檔案伺服器之一：NFS 伺服器 - 關於 NFS 特殊的掛載參數

新增使用者，並更新NIS資料庫

　　在Cluster上，因為需要讓同一個帳號能夠登入每一個節點，故需設定NIS伺服器（當然要在每一個節點上都開個帳號也是可以），當使用者登入某節點時，該機器會自動去NIS伺服器上要相關資料，所以在登入主機上新增使用者時，也要一併更新NIS的資料庫，否則該使用者是會因為帳號不存在而無法登入其他節點的，作法如下：

[root@HPC ~]$ useradd 使用者名稱 -g 群組名稱 -m -s 指定shell
[root@HPC ~]$ passwd 使用者名稱
[root@HPC ~]$ chage -d 0 使用者名稱
[root@HPC ~]$ /usr/lib64/yp/ypinit -m
At this point, we have to construct a list of the hosts which
will run NIS servers.
HPC is in the list of NIS server hosts. Please continue to add
the names for the other hosts, one per line. When you are done
with the list, type a <control D>.
next host to add: HPC
next host to add:

The current list of NIS servers looks like this:

HPC

Is this correct? [y/n: y]

# 修改使用者密碼
# 強迫使用者登入後修改密碼
# 建立NIS資料庫

# 在這會詢問NIS主機的名稱，
# 他也會自己抓
# 若沒要新增就按Ctrl+D

# 按y後會自動跑設定

　　如果你的系統是32bit的版本，那麼這個ypinit的位置會在/usr/lib/yp/底下，如果少了這個步驟的話，該使用者將會無法登入其他機器。

參考資料：鳥哥Linux的私房菜：第十四章、Linux 帳號管理與 ACL 權限設定
　　　　　鳥哥Linux的私房菜：第十四章、帳號控管：NIS 伺服器

防火牆無法啟動之問題

　　如果你的防火牆沒有正常運作，用service iptables status這個指令來看都是出現Firewall is stopped而不是印出/etc/iptables.rule裡面的規則，那麼建議先手動將他停止再啟動：

[root@HPC ~]$ service iptables stop
[root@HPC ~]$ service iptables start

　　之後重新檢查其狀態，如果還是一樣，那麼建議手動新增一筆規則（不要透過iptables.rule），然後儲存並再次啟動服務應該就可以了：

[root@HPC ~]$ iptables -A INPUT -s 192.168.55.66 -j REJECT
[root@HPC ~]$ service iptables save
[root@HPC ~]$ service iptables stop
[root@HPC ~]$ service iptables start

正常之後再執行你的/etc/iptables.rule就好。

參考資料：鳥哥Linux的私房菜：第九章、防火牆與 NAT 伺服器
　　　　　http://www.linuxquestions.org/questions/red-hat-31/iptables-is-stopped-513966/

環境設定

　　在多人使用的環境底下，如果要更動某個常被用到的套件位置（例如NETCDF），而使用者的環境設定又沒有做好的話其實還蠻麻煩的，一般來說，每個使用者自己的設定都是放在~/.bashrc底下，故若沒有建立一個共用的設定檔，就得要求使用者去修改他們自己的.bashrc，有時某些軟體（WRF/RIP4）安裝不起來也是因為設定錯誤的關係，管理者若能建立一個正確的環境設定檔那使用者在使用上將會方便許多。
　　你可以把共用的環境設定放在/etc/profile裡面，或是在/etc/profile.d/下建立使用者具有讀取權限的.sh檔，這樣登入時這些設定就會被讀進來。
　　不過要注意，使用者登入後讀完/etc/profile.d/裡的東西後會讀取家目錄的.bashrc，所以在.bashrc中那些有重複的設定要拿掉，以免被覆蓋掉了。

參考資料：鳥哥Linux的私房菜：第十一章、認識與學習 BASH：環境設定檔

進站公告

　　你可以修改/etc/motd這個檔案，在裡面放例如停電公告之類的訊息，這樣使用者登入時就會看到，不過...使用者如果一直都在線上那就看不到有什麼變動啦，所以還是建議在關機前利用wall指令通知使用者。
　　進站公告可以用彩色的，只是在撰寫時比較麻煩，因為色碼會用到ANSI Escape Sequence用一般的vi編輯器可能無法輸入ESC這個字元，要利用echo -e以及Linux的輸出重新導向來做：

[root@HPC ~]$ echo -e "\033[1;33mGreeting! Cluster User.\033[m" > /etc/motd
[root@HPC ~]$ cat /etc/motd
Greeting! Cluster User.

　　另一個方法就是先在BBS上畫圖（注意，半格字可能會有問題），然後利用PCMAN的「複製（包含ANSI彩色功能）」你把你要的圖複製下來，貼到筆記本中（此時那些ESC的字元看起來應該像是一個半形空白字元）再把這個檔案以ASCII格式存檔後上傳至主機，覆蓋掉原本的/etc/motd即可。有了這些基本概念之後就可以拿/etc/motd來玩ASCII Art啦！

參考資料：鳥哥Linux的私房菜：第十一章、認識與學習 BASH - bash 的進站與歡迎訊息

遇上大量檔案導致出現Argument List too long的解決方法（假設知道檔案名稱規則）

　　要移除檔案：find 檔案路徑 -name "檔案名稱" -exec rm {} \;
　　要壓縮檔案：find 檔案路徑 -name "檔案名稱" > TMPList; tar -zxf 壓縮檔名稱 --files-from TMPList
註：如果有配合-exec參數則結尾一定要有/;

想umount某裝置卻一直遇上Device is Busy

　　以檔案系統來說，遇上這種狀況，可以依以下幾個步驟來解決：

檢查有沒有任何工作在該檔案系統下跑
請使用者離線，或是cd到別的地方，只要使用者待在那個目錄底下（無論有沒有在執行工作）就會出現這個訊息。

用fuser -m 裝置名稱檢查目前有哪些程式正在存取這個檔案系統，例：

[root@HPC ~]$ fuser -m /scra2
/scra2:　　　　　5416c 14690c
# 執行後會回傳PID值，若在參數中加上u則可以看到是該工作是屬於哪個使用者
# 加上v的話會列出正在該裝置下執行的指令。把這些工作kill掉之後應該就可以了。

如果還是不行，可以嘗試用以下指令強制卸除該裝置

umount -l 裝置名稱

參考資料：鳥哥的Linux私房菜：fuser

修改無法變更的/etc/resolv.conf

　　/etc/resolv.conf這個檔案紀錄的是DNS Server的位置，如果你的電腦有連外的需求，ping不到wgoogle的網址，但是ping得到它的ip（74.125.31.104），那很有可能是DNS伺服器的設定出問題，或者是選用的伺服器故障了，甚至是你的網路掛了。前兩個可能性可以透過修改這個檔案來檢查，不過這個檔案的修改有點麻煩，有時會因為檔案屬性設定的關係，就算你擁有root權限而且檔案的權限為可讀寫但還是不能改：

[root@HPC ~]$ ls -l /etc/resolv.conf
-rw-r--r-- 1 root root 97 Nov 2 2011 /etc/resolv.conf
[root@HPC ~]$ lsattr /etc/resolv.conf
----i------------- /etc/resolv.conf
#用lsattr列出他的屬性，出現的i表示檔案在唯讀狀態
[root@HPC ~]$ chattr -i /etc/resolv.conf
#利用change attribution的chattr將屬性i移除即可
#如果用lsattr出現的是a(只能append)，那一樣是移除a的屬性

修改完可能要重新啟動網路(service network restart)

參考資料：http://ubuntuforums.org/archive/index.php/t-1509499.html
　　　　　鳥哥Linux的私房菜：第十九章、主機名稱控制者 - DNS 伺服器

修復X-Window沒有正常關閉造成GNOME出錯的問題

　　之前遇上了開啟X-Window時會瘋狂地跳出一大堆關於GNOME/CORBA的錯誤訊息（GConf Error），然後桌面變黑，工作列也不知道跑哪去的問題，比較消極的做法是換用如KDE等其他的桌面，google找到一大堆差不多的解決方法，大多都只說要刪除/tmp底下與該使用者名稱有關的東西，可是照做了還是沒有用，最後找到了這篇文章才搞定。
　　大致上的做法就是（以Root為例）：

[root@HPC ~]$ rm -r /tmp/*root*
[root@HPC ~]$ rm -r ~/.gnome*
[root@HPC ~]$ kill -HUP `cat /var/run/gdm.pid`

# 砍掉tmp底下與該使用者有關的東西
# 砍掉家目錄底下.gnome開頭的資料夾
# 重啟X-Window

參考資料：洋蔥爸的工作雜記-用 X-manager 連進 Linux server 時出現 GConf Error 怎麼辦？

讓不同使用者對某資料夾擁有讀取、寫入的權限，但不能刪除他人檔案

　　有些重複性比較高的資料可以採取共用的方式來節省空間，而利用Group就可以輕鬆讓多個使用者共用一個資料夾的資料，但屬於該群組的使用者因為擁有寫入的權限，故也可以刪除別人的檔案，這樣萬一哪個傢伙寫論文寫一寫寫到崩潰把所有東西都砍了就糟了。
　　為了避免這種狀況，可以用sticky bit這個進階的權限設定來做限制，擁有sticky bit屬性的資料夾下的檔案，就只有擁有者本人跟root能夠刪除，這麼一來也降低了誤刪檔案的風險：

[root@HPC work]$ mkdir test; chown Cypresslin:users test; chmod g+w test [root@HPC work]$ mkdir Sticky; ls -l
drwxr-xr-x drwxrwxr-x	2 2	root Cypresslin	root users	4096 4096	11月 2 18:57 11月 2 19:00	Sticky test
# 這裡test資料夾是共享給users群組，所有該群組底下的人都可以完全控制test下的檔案 # 接著來為Sticky資料夾加上Sticky bit [root@HPC work] chmod o+w Sticky [root@HPC work] chmod o+t Sticky; ls -l # 對others加上寫入權限，以及sticky bit
drwxr-xrwt drwxrwxr-x	2 2	root Cypresslin	root users	4096 4096	11月 2 18:57 11月 2 19:00	Sticky test
# 如果嘗試以其他使用者移除有設定Sticky Bit資料夾底下的東西... [otheruser@HPC work]$ rm ./Sticky/data.dat rm：是否移除有防寫保護的普通檔案‘data.dat’? y rm: cannot remove ‘data.dat’: 此項操作並不被允許

　　這樣就OK啦！如果不希望是每個人都可以存取該資料夾，也可以依樣畫葫蘆把Sticky bit用在群組上。不過要記住sticky bit只對資料夾有效，詳細說明可以看看鳥哥的網站。

參考資料：鳥哥Linux的私房菜：第七章、Linux 檔案與目錄管理 - Sticky Bit

讓RHEL4支援XFS延伸格式檔案系統 & 用parted指令格式化大容量磁區

　　由於想安裝16TB的磁碟陣列，但主機的OS是只支援到8TB ext3格式的RHEL4（照理說ext3最大可以支援到16TB，但實際分割時卻只能切8TB出來，網路上查了一下這應該是個跟unsigned integer有關的bug）最後我是照著學長的建議更新Kernel Module，讓它可以使用支援到128TB的XFS格式。
　　「更新核心模組」聽起來雖然很嚇人，但是其實更新核心模組≠更新核心，所以並不難，也沒有啥太大的風險。這次安裝會需要xfsprogs、xfsprogs-devel與kernel-module-xfs這三個檔案（可以來這找-http://rpm.pbone.net/）過程如下：

# 依據你系統的版本抓對應的檔案
[root@HPC XFS]$ uname -r
2.6.9-89.ELlargesmp
[root@HPC XFS]$ ls
kernel-module-xfs-2.6.9-89.ELlargesmp-0.4-1.x86_64.rpm
xfsprogs-2.6.13-3.el4.rf.x86_64.rpm
xfsprogs-devel-2.6.13-3.el4.rf.x86_64.rpm
# 根據*nix hack網站上的說明，除了kernel-module之外，其他兩個檔案的版本不用跟機器版本一樣沒關係
# 有rpm安裝就很方便了！
[root@HPC XFS]$ rpm -ivh kernel-module-xfs-2.6.9-89.ELlargesmp-0.4-1.x86_64.rpm
[root@HPC XFS]$ rpm -ivh xfsprogs-2.6.13-3.el4.rf.x86_64.rpm
[root@HPC XFS]$ rpm -ivh xfsprogs-devel-2.6.13-3.el4.rf.x86_64.rpm
# 裝好之後載入模組即可
[root@HPC XFS]$ modprobe xfs
# 檢查是否有正確載入，並看看有沒有格式化為XFS的指令
[root@HPC XFS]$ lsmod | grep xfs
xfs 563408 0
[root@HPC XFS]$ which mkfs.xfs
/sbin/mkfs.xfs

　　到這邊就可以來格式化硬碟了，因為一般的fdisk指令不支援大於2TB的空間，所以要用parted這個指令：

[root@HPC XFS]$ parted /dev/sdb
Using /dev/sdb
(parted) mklabel gpt
(parted) mkpart
Partition type? [primary]? primary
File system type? [ext2]? xfs
# Start=0, End=-1表示採用整塊磁區，這裡也可以用G來表示大小
Start? 0
End? -1
# 查詢設定
(parted) print
Disk geometry for /dev/sdc: 0.000-14304856.000 megabytes
Disk label type: gpt
Minor Start End Filesystem Name Flags
1 0.017 14304856.000
(parted) q
# 把它格式化成XFS
[root@HPC XFS]$ mkfs.xfs /dev/sdb
# 等它跑完之後把它掛載到資料夾上就OK啦！
[root@HPC XFS]$ mount /dev/sdb /scra4

（特別感謝致穎學長的說明及協助！）

參考資料： *nix hacks - xfs rhel4
　　　　　鳥哥Linux的私房菜：第二十六章、Linux 核心編譯與管理 - 核心模組的載入與移除

SSH到其他Node免輸入密碼

　　有時候想在不同Node間切換，但是每次ssh過去都要輸入密碼有點煩，這問題可以靠 ssh-agent 或是改採金鑰認證的方式來解決，先講講金鑰的用法：
　　這種金鑰認證的方式是先產生一組相對應的公鑰與私鑰，然後將公鑰放到想要連線的機器上，在進行連線時採用比對金鑰的方式來登入，如此一來就可以直接連線而不用輸入密碼了。當然，產生金鑰時也可以選擇是否要額外用密碼加密這對金鑰，不過這裡考慮的狀況是主伺服器與節點間的連線，鑰匙不用加上密碼沒有關係。
　　而金鑰的使用又可以細分為 Host-based 與 Public-key 的認證方式，前者是（待續）

<-Memo