年末から年明けての1ヶ月くらいの間に仕事で管理しているDELLのサーバの内の3台で相次いでHDD(SAS)トラブルが発生。同じような時期に納品しているマシンなのでロットでなんかあるのかも。1台はHDDが認識されない状態で正面LED点灯状態。HDDホットスワップ、RAID(10)リビルドで終了。残りの2台はHDDは認識されOSレベルでは障害は発生していない。正面LEDは緑と橙の交互点滅のいわゆる「予備交換」が必要な状態。こちらもHDDホットスワップ&RAID(10)リビルドで終了。HDD障害が発生しているケドOSから認識できる状態なのでsmart情報を確認したところ、
SMART Health Status: HARDWARE IMPENDING FAILURE GENERAL HARD DRIVE FAILURE [asc=5d, ascq=10] Error counter log: Errors Corrected by Total Correction Gigabytes Total ECC rereads/ errors algorithm processed uncorrected fast | delayed rewrites corrected invocations [10^9 bytes] errors read: 82948961 151 0 82949112 82949112 1529.982 0 write: 0 0 0 0 0 65441.843 0 verify: 615305325 116 0 615305441 615305554 36342.331 102
のメッセージを確認。書き込みエラーは発生していないケド、verifyでuncorrected
errorが多発してる感じ。書き込みエラーが多発するとLEDが橙点灯に変化するのかも。