Lunga vita ai (lunghi) nastri

 

In un complesso progetto di conservazione di un archivio di dati, 110.000 (centodieci mila) cassette a nastro di diversi tipi e diverse epoche, contenenti 11 Pb di dati derivanti da prospezioni geosismiche sono stati convertiti in circa 8000 cassette a nastro IBM 3592, suppongo usando quelle di massima capacita`: 4 TB per cassetta, in 880 metri di nastro. E incidentalmente per la prima volta sono state fatte due copie (quindi ora c’e` anche un backup) di questi dati.

Spectrum Data, una azienda che si occupa di questo genere di problemi, si e` occupata della conservazione di questa massa di dati, salvati nel corso di vari anni su diversi tipi di nastri, con capacita` di decine di GB (IBM 3590 supporta da 10 a 60 GB per cassetta), riversandoli su cassette 3592 WORM (Write Once, Read Many). Di questo progetto, del quale potete leggere qualche dettaglio nel link che ho messo poco addietro, mi hanno colpito alcuni fatti.

  • A quanto pare, l’archivio era disorganizzato o comunque difficilmente gestibile, visto che grande enfasi e` stata data al fatto che i dataset relativi alle varie prospezioni sono stati “ricostruiti” da gruppi di nastri (anche 200 per un solo dataset), catalogando e fotografando e organizzando tutti i nastri basandosi sulla loro etichetta (senza leggerli, intendo) prima di procedere a leggerli e a verificare se davvero contenevano quello che c’era scritto sull’etichetta. Da una azienda che ha un archivio di 110.000 nastri mi aspettavo che un problema del genere non dovesse nemmeno esistere, e che le etichette (e le posizioni) dei nastri fossero assolutamente corrette, dettagliate, e ordinate. Evidentemente sono un ottimista.
  • A quanto ho capito di questo archivio enorme non esisteva  nessun backup.
  • Mi sembra incredibile che tutti questi nastri siano stati letti senza errori, dopo anni di conservazione in condizioni evidentemente non cosi` perfette, visto il lavoro di riorganizzazione e verifica che e` stato necessario. Eppure non si fa menzione di alcun problema di data recovery. A questo riguardo ho idea che diversi nastri fossero danneggiati e che siano stati semplicemente messi da parte senza copiarli sui nuovi nastri

Ora tutti i dati risiedono su 8000 cassette, alle quali si aggiungeranno, anno dopo anno, altre migliaia di cassette di nuovi dati, fino a quando, fra 15 anni, ci sara` un nuovo archivio di 30.000 cassette obsolete da riordinare e migrare su 500 cubetti di memoria bio-nano-olografica a lunga persistenza.

Ah, dimenticavo, a qualcuno interessano 110.000 vecchie cassette IBM 3590? Pare che ci sia anche un capannone vuoto da affittare.

 

Autore: Kurgan

Sistemista Linux con la fissa della sicurezza

Spazio per un commento