Monitoring hardware d’un système RAID

je possède comme serveur perso d’un Dell Poweredge T310 dans lequel les disques SATA sont branchés à une carte système PERC 6/i qui me permet de faire du RAID matériel qui est bien plus performant que le RAID logiciel. Pour monitorer du raid logiciel sous linux c’est assez simple on dispose de la commande mdadm. Il existe pas mal de bonnes pages sur le net qui explique comment faire, dont celle-ci (en français) et celle-là (en anglais).

Par contre quand il s’agit de monitorer une carte propriétaire, ça devient plus compliqué, mais heureusement que broadcom le fabricant de la carte met à disposition un outil sous linux qu’on peut récupèrer par ici. Quand on désarchive Linux_MegaCLI-8-07-07.zip on obtient le package rpm MegaCli-8.07.07-1.noarch.rpm qu’on installera simplement avec urpmi. Cela va créer un répertoire avec un exe et bibliothèque sous /opt/MegaRAID/MegaCli. Ce n’est pas le meilleur endroit, j’ai donc créé le lien suivant pour l’exécutable :

ln -s /opt/MegaRAID/MegaCli/MegaClii64 /usr/bin

maintenant pour avoir un max d’info sur son système RAID on tapera

MegaCli64 -AdpAllInfo -aAll

la commande est très bavarde, voilà quelques extraits choisis:

Adapter #0

==============================================================================
Versions
================
Product Name : PERC 6/i Adapter
Serial No : 1122334455667788
FW Package Build: 6.3.0-0001

 

(…)

Image Versions in Flash:
================
FW Version : 1.22.12-0952
BIOS Version : 2.04.00
WebBIOS Version : 1.1-46-e_15-Rel
Ctrl-R Version : 1.02-015B
Preboot CLI Version: 01.00-023:#%00006
Boot Block Version : 1.00.00.01-0011

(…)

Settings
================
Current Time : 16:35:45 12/4, 2016
Predictive Fail Poll Interval : 10800sec
Interrupt Throttle Active Count : 16
Interrupt Throttle Completion : 50us
Rebuild Rate : 30%
PR Rate : 30%
BGI Rate : 30%
Check Consistency Rate : 30%
Reconstruction Rate : 30%
Cache Flush Interval : 4s
Max Drives to Spinup at One Time : 2
Delay Among Spinup Groups : 12s
Physical Drive Coercion Mode : 128MB
Cluster Mode : Disabled
Alarm : Disabled
Auto Rebuild : Enabled
Battery Warning : Enabled
Ecc Bucket Size : 15
Ecc Bucket Leak Rate : 1440 Minutes
Restore HotSpare on Insertion : Disabled
Expose Enclosure Devices : Disabled
Maintain PD Fail History : Disabled
Host Request Reordering : Enabled
Auto Detect BackPlane Enabled : SGPIO/i2c SEP
Load Balance Mode : Auto
Use FDE Only : No
Security Key Assigned : No
Security Key Failed : No
Security Key Not Backedup : No
Default LD PowerSave Policy : Controller Defined
Maximum number of direct attached drives to spin up in 1 min : 0
Auto Enhanced Import : No
Any Offline VD Cache Preserved : No
Allow Boot with Preserved Cache : No
Disable Online Controller Reset : No
PFK in NVRAM : No
Use disk activity for locate : No
POST delay : 90 seconds
BIOS Error Handling : Stop On Errors
Current Boot Mode :Normal
Capabilities
================
RAID Level Supported : RAID0, RAID1, RAID5, RAID6, RAID00, RAID10, RAID50, RAID60, PRL 11, PRL 11 with spanning, SRL 3 supported, PRL11-RLQ0 DDF layout with no span, PRL11-RLQ0
DDF layout with span
Supported Drives : SAS, SATA

Allowed Mixing:

Mix in Enclosure Allowed

(…)

Device Present
================
Virtual Drives : 2
Degraded : 0
Offline : 0
Physical Devices : 6
Disks : 6
Critical Disks : 0
Failed Disks : 0

Maintenant pour avoir des info sur les disques du RAID, on tapera

MegaCli64 -PDlist -aALL

voilà le résultat, pour le premier disque physique du premier disque virtuel constitué de deux disques SAS de 146Go montés en RAID 1 (mirroring)

Enclosure Device ID: N/A
Slot Number: 0
Drive’s position: DiskGroup: 1, Span: 0, Arm: 0
Enclosure position: N/A
Device Id: 0
WWN:
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SAS

Raw Size: 136.732 GB [0x11177328 Sectors]
Non Coerced Size: 136.232 GB [0x11077328 Sectors]
Coerced Size: 136.125 GB [0x11040000 Sectors]
Sector Size: 0
Firmware state: Online, Spun Up
Device Firmware Level: D306
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x500000e1175a6dc2
SAS Address(1): 0x0
Connected Port Number: 0(path0)
Inquiry Data: FUJITSU MBA3147RC D306BJA3PB20MLWR
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: Unknown
Link Speed: Unknown
Media Type: Hard Disk Device
Drive Temperature :38C (100.40 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Port-0 :
Port status: Active
Port’s Linkspeed: Unknown
Port-1 :
Port status: Active
Port’s Linkspeed: Unknown
Drive has flagged a S.M.A.R.T alert : No

plus loin au slot 4 on voit le premier disque SATA de To de mon disque virtuel de 5,5To constitué de 4 disques SATA de 2To chacun montés en RAID 5

Enclosure Device ID: N/A
Slot Number: 4
Drive’s position: DiskGroup: 0, Span: 0, Arm: 0
Enclosure position: N/A
Device Id: 4
WWN:
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA

Raw Size: 1.819 TB [0xe8e088b0 Sectors]
Non Coerced Size: 1.818 TB [0xe8d088b0 Sectors]
Coerced Size: 1.818 TB [0xe8d00000 Sectors]
Sector Size: 0
Firmware state: Online, Spun Up
Device Firmware Level: CC25
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x1221000004000000
Connected Port Number: 4(path0)
Inquiry Data: Z4Z2CWV3ST2000DM001-1ER164 CC25
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: Unknown
Link Speed: Unknown
Media Type: Hard Disk Device
Drive Temperature : N/A
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Port-0 :
Port status: Active
Port’s Linkspeed: Unknown
Drive has flagged a S.M.A.R.T alert : No

de manière plus précise en tapant

MegaCli64 -LDInfo -L0 -a0

avec les options -L le numéro du premier disque virtuel (en commençant par 0) et -a de l’adaptateur (carte RAID, en commençant par 0), on obtient des infos sur mon premier disque virtuel RAID d’une taille de 146Go en RAID 1 mirroring constitué de deux disques.

Adapter 0 — Virtual Drive Information:
Virtual Drive: 0 (Target Id: 0)
Name :sys
RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0
Size : 136.125 GB
Sector Size : 512
Mirror Data : 136.125 GB
State : Optimal
Strip Size : 64 KB
Number Of Drives : 2
Span Depth : 1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteThrough, ReadAheadNone, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy : Disk’s Default
Encryption Type : None
Is VD Cached: No

et avec la commande suivante, j’obtiens la même chose avec mon second disque disque virtuel

MegaCli64 -LDInfo -L1 -a0

résultat

Adapter 0 — Virtual Drive Information:
Virtual Drive: 1 (Target Id: 1)
Name :vd-data
RAID Level : Primary-5, Secondary-0, RAID Level Qualifier-3
Size : 5.456 TB
Sector Size : 512
Parity Size : 1.818 TB
State : Optimal
Strip Size : 64 KB
Number Of Drives : 4
Span Depth : 1
Default Cache Policy: WriteBack, ReadAheadNone, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteThrough, ReadAheadNone, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy : Disk’s Default
Encryption Type : None
Is VD Cached: No

Pour lister les disques physiques on tapera

MegaCli64 -pdlist -a0

voilà un lien qui donne quelques infos complémentaires sur MegaCli64 notamment des commandes d’administration du système RAID. A voir également par .

Maintenant si les disques sont compatibles S.M.A.R.T il existe le package smartmontools qui offre des outils supplémentaires de monitoring.

En tapant:

smartctl -a -d megaraid,0 /dev/sda

je vois les infos sur le disque 0 (slot 0) de mon disque virtuel identifié par le fichier spécial /dev/sda

smartctl 6.3 2014-07-26 r3976 [x86_64-linux-3.19.8-server-3.mga5] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor: FUJITSU
Product: MBA3147RC
Revision: D306
User Capacity: 146 815 733 760 bytes [146 GB]
Logical block size: 512 bytes
Rotation Rate: 15000 rpm
Logical Unit id: 0x500000e1175a6dc0
Serial number: BJA3PB20MLWR
Device type: disk
Transport protocol: SAS (SPL-3)
Local Time is: Sun Dec 4 17:27:51 2016 CET
SMART support is: Available – device has SMART capability.
SMART support is: Enabled
Temperature Warning: Disabled or Not Supported

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature: 39 C
Drive Trip Temperature: 65 C

Manufactured in week 07 of year 2011
Specified cycle count over device lifetime: 50000
Accumulated start-stop cycles: 71
Elements in grown defect list: 0

Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 0 215 215 215 308 79119,575 0
write: 0 3 3 3 6 16411,955 0
verify: 0 0 0 0 0 1,472 0

Non-medium error count: 59

SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 Background long Completed – 1 – [- – -]
# 2 Background short Completed – 1 – [- – -]

Long (extended) Self Test duration: 1456 seconds [24,3 minutes]

et en tapant

smartctl -d megaraid,5 -a /dev/sdb

je vois le disque 5 du disque virtuel de 5,5To identifié par le fichier spécial /dev/db

smartctl 6.3 2014-07-26 r3976 [x86_64-linux-3.19.8-server-3.mga5] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

/dev/sdb [megaraid_disk_05] [SAT]: Device open changed type from ‘megaraid,5’ to ‘sat+megaraid,5’
=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.14 (AF)
Device Model: ST2000DM001-1ER164
Serial Number: Z4Z2W969
LU WWN Device Id: 5 000c50 07b6ff45e
Firmware Version: CC26
User Capacity: 2 000 398 934 016 bytes [2,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sun Dec 4 18:13:50 2016 CET
SMART support is: Available – device has SMART capability.
SMART support is: Enabled

Maintenant libre à vous de créer des scripts auto pour monitorer votre système à partir de cette base là, on pourra a minima commencer par la commande

MegaCli64 -FwTermLog -Dsply –aALL > /var/log/megasas.log

 

Laisser un commentaire