Il backup? Non basta!
Mi vanto del fatto che da quando ho una partita IVA io non abbia mai perso un singolo dato. Anzi: negli anni avrò recuperato almeno due Terabyte di dati da hard disk danneggiati o cancellati per sbaglio, sempre in assenza del backup.
Chi mi conosce sa che sono molto attento su questo punto. Come dico sempre: il backup serve perché il disco è garantito che prima o poi si rompa!
Indicativamente, tutti i miei clienti hanno un file server, un computer quindi che riceve i dati di tutti i client. Essendo tutte le informazioni in un posto solo è molto più facile gestirle e backupparle.
Fino ad oggi ero convinto che fosse sufficiente una solida politica di backup per proteggersi da eventuali perdite di dati, soprattutto da quelle causate da danni meccanici ai dischi.
Ebbene, non basta, non più.
Normalmente i miei server sono dei PowerMac G4 QuickSilver o Mirrored Drive Door. All’interno installo 4 dischi SATA che dedico due ai dati e due al backup. Ogni server mi manda una mail in caso di errori sul backup o su uno qualunque dei dischi e in 8 ore lavorative sono in grado di recuperare e cambiare il disco guasto.
In passato mi si sono rotti parecchi dischi, ma in un modo o nell’altro il disagio al cliente è sempre stato molto contenuto, a volte nemmeno se ne è accorto. Questo perché dipende da come si gestiscono questi dischi. Dove non serve molto spazio, posso configurare i dischi a due a due in mirror, così che i dati si clonino in tempo reale sia per la base dati che per il backup su altri due dischi. Questa soluzione permette, potenzialmente, di reggere la rottura di ben 3 dischi contemporaneamente.
Dove lo spazio invece non basta mai, opto per una soluzione stripe + stripe: una coppia di dischi viene vista come se fosse un disco solo la cui capacità è la somma di quelle dei singoli. Uno stripe lo dedico ai dati ed uno al backup. Il livello di sicurezza è molto più basso perché sono in grado di reggere la rottura di un solo disco, due se e solo se fanno parte dello stesso stripe. Ma una volta spiegato al cliente il livello di rischio, questo viene quasi sempre considerato accettabile.
Così da ormai dieci anni.
Il tempo passa, i dischi aumentano di capacità, fortunatamente i miei clienti non chiudono e quindi le loro base dati aumentano continuamente.
È così che N20, mio storico cliente, approfittando del fatto che un disco del backup si fosse rotto, mi chiede di aumentare lo spazio del server, passando da 4x500GB configurati in doppio stirpe a 4x2TB, che avrei configurato in doppio mirror almeno fino a quando non fosse stato necessario altro spazio.
Acquisto quindi i 4 dischi da 4TB e comincio a fare la migrazione dei dati.
Qui mi imbatto per la prima volta in un limite della politica da me adottata sino ad oggi: il tempo di copia.
Copiare un Terabyte di dati richiede del tempo, molto tempo. Si consideri poi il fatto che la copia su Mac nasconde alcune insidie: la copia delle resource fork non sempre avviene correttamente utilizzando software di terze parti, mentre la semplice copia del sistema è lenta e non sempre lineare, soprattutto quando si presentano problemi di permessi e privilegi. Il software da me scelto è il famoso Carbon Copy Cloner: lo uso da anni e non mi ha mai tradito.
La procedura di migrazione prevede i seguenti passaggi:
– copiare i dati da Stripe1TB a Mirror 2TB
– rendere primario Mirror 2TB
-installare Backup2TB e procedere con il backup attraverso TimeMachine, che in prima battuta trattasi di una copia completa
-rimettere online il server
Semplici passaggi, durante i quali il cliente però non può lavorare. Infatti per tutta la durata della migrazione non esiste backup e quindi è assolutamente prioritario che prima venga ristabilita la sicurezza: permettere al cliente di accedere ai dati potrebbe comportare la rottura precoce di un disco difettoso, la perdita accidentale di uno o più file, l’interruzione della copia a causa della modifica del file di origine, ecc, ecc.
Ebbene, N20 ha 1TB di dati e sapete quanto ci si mette a copiare una simile mole di dati? 31 ore!
Va bene, lo dico al cliente, lui si organizza… E dopo 62 ore il server è operativo al 100%.
Peccato che nel giro di un mese si siano rotti 3 dischi su 4 di quelli nuovi.
Se la prima volta puoi spiegare al cliente che succede (31 ore), la seconda volta gli puoi dire che “c’ha ‘na sfiga” (31 ore), ma alla terza sei a rischio linciaggio (31 ore). Anche perché tra una rottura e l’altra non ho avuto nemmeno il tempo di ripristinare al 100% il server, quindi con l’ultima sono stato ad un soffio dal perdere tutti i dati!
Ora, siccome ho avuto parecchio tempo per ragionare (le ultime 31 ore le ho fatte direttamente dal cliente, dormendo circa 3 ore sulle sue comodisssssime sedie), ho realizzato che la mia politica di backup ha qualche falla. L’idea di mettere tutti i dati su una sola base dati ha il limite del tempo necessario al ripristino del backup.
Pertanto ho deciso di cambiare questa politica in tutti i server sotto la mia gestione.
D’ora in poi, indipendentemente dalla capacità dei dischi installati nei miei server, li configurerò nel seguente modo:
– Mirror: il disco dove il cliente lavora salvando i suoi dati composto da una coppia di hard disk che si clonano in tempo reale
– Clone: clone del Mirror aggiornato ad intervalli di tempo regolari
– Backup: dedicato a TimeMachine.
In questo modo ogni server è in grado di reggere la rottura di 3 dischi e, a meno che l’unico a salvarsi non sia quello di TimeMachine, l’accesso ai dati non verrebbe interrotto, perdendo al massimo il lavoro aggiunto dall’ultimo aggiornamento del Clone.
Questa nuova politica ha il limite dello spazio utilizzabile: 4 dischi da 2TB mi danno uno spazio di soli 2TB. Ma d’altro canto il livello di sicurezza è altissimo ed il tempo necessario al ripristino dell’operatività potrebbe essere nel 90% dei casi immediato (o addirittura trasparente, senza, cioè, che il cliente se ne accorga nemmeno).
Ritengo che questa modifica sia necessaria, anche in considerazione del fatto che i dischi sono sì diventati più capienti, ma anche incredibilmente più fragili.
Ho fatto una piccola ricerca (come ho detto, ho avuto parecchio tempo per riflettere…) ed ho realizzato che dalla seconda metà del 2010 ho acquistato 22 dischi da 2TB. Ebbene, di questi 22 ben 8 si sono guastati entro il primo anno (più del 30%) e quindi sostituiti ex novo dal produttore. Ma non solo: di questi 8 hard disk sostituiti, due li ho dovuti rimandare indietro perché giunti guasti! In pratica, aggiornando i numeri, 10 dischi su 24; quasi il 50%. Questo indipendentemente dalla marca e dal modello.
Nella speranza di non dover più dormire sulle comodissssssime poltrone di qualche mio cliente.