Vi ricordate l’ultima volta che Google, Youtube o WhatsApp sono stati down? Vi è mai capitato di non poter fare un bonifico perché l’app della vostra banca fosse in manutenzione, di non poter inviare una PEC perché il sito era offline, di non potervi connettere a Internet o di non riuscire a portare a buon fine pagamenti elettronici?
Sebbene la risposta è sicuramente affermativa, tutti concorderanno col fatto che, tutti quelli elencati, siano eventi più unici che rari e, dalla prospettiva aziendale, una mancata affidabilità e continuità 24/7 di qualunque servizio sia lesiva non solo dei profitti ma anche della sua immagine.
Ma come si ottiene, quindi, un servizio affidabile, giorno e notte, 365 giorni all’anno?
Non v’è dubbio che un’infrastruttura ben progettata e resiliente sia la base su cui costruire qualunque aspettativa di affidabilità, ma la storia non si esaurisce così in fretta: come detto, ogni sistema informatico, anche il più automatizzato, è fatto anche di persone, e questo elemento ha un peso ben più sostanziale di quanto si pensi.
Del resto, i computer (o cervelloni, come venivano definiti in ben più rosei decenni) sono, nell’immaginario collettivo, delle scatole nere che esistono e fanno ciò per cui sono stati progettati fintanto che siano attaccati a una presa di corrente, senza mai colpo mancare, su cui girano applicativi scritti perfettamente, con algoritmi matematicamente infallibili e che sono stati testati per girare in eterno e gestire in modo aggraziato e intelligente tutte le eccezioni e gli imprevisti che possano presentarsi.
Poi, c’è il mondo reale.
Abbiamo detto che sia hardware che software sono frutto della mente e della manodopera umana, quindi si può desumere senza esitazione che vi saranno delle imperfezioni. Si può altrettanto desumere che tali imperfezioni non abbiano alcun obbligo sociale a emergere soltanto durante l’orario d’ufficio, per non parlare del fatto che, a volte, degli interventi invasivi di manutenzione rendono difficile evitare che il servizio debba essere momentaneamente interrotto.
Che si fa, allora? Si procede ugualmente, ma durante gli orari e i giorni di minor utilizzo.
Ebbene si, oltre ai fattori imprevedibili, ve ne sono anche di pianificati e inevitabili. Il risultato finale è il medesimo: qualcuno dovrà svolgere delle attività nel cuore della notte, o alle primissime luci dell’alba, o durante un super-festivo, nella speranza di impattare il minor numero di utenti (e vabbè, qualcuno esisterà sempre che tenterà di fare un bonifico o usare lo SPID alle 4.30 del mattino e che sarà impossibilitato a farlo per una finestra manutentiva, ma ciò è comunque il male minore rispetto a un’interruzione a ora di pranzo o, ad esempio, in pieno giorno durante il weekend).
La figura di cui stiamo parlando è, ovviamente, quella del reperibile.
Si tratta, spesso, di un informatico il cui compito è di essere pronto e disponibile a effettuare lavorazioni quando il resto del mondo dorme (o è in vacanza) e che deve essere altrettanto pronto a intervenire se l’erogazione di un servizio di qualunque tipo dovesse vacillare.
Gli interventi diurni sono già fortemente limitanti per la libertà personale, specie in situazioni in cui è richiesto un intervento rapido o che ci si aspetta possa diventare lungo, ma degni di nota sono quelli notturni: nel frangente di meno di un quarto d’ora, si passa spesso dal sonno profondo al trovarsi di fronte allo schermo di un laptop, con una problematica spesso non banale, non di rado in una videoconferenza con altre persone presenti.
E’ questo cambio di contesto così drastico che è così peculiare: eravate letteralmente nel mondo dei sogni, quando vi ritrovate improvvisamente svegli con il telefono che squilla. Poche parole dall’altro lato, non sempre percepite chiaramente, con timbri vocali insoliti e appena riconoscibili. Eh si, non è notte solo per noi.
Ci si prende giusto alcuni minuti per rinsavire, ma non troppi: qualcosa di importante laffuori non sta funzionando.
Si è da soli, su un terminale con privilegi root, con tutte le responsabilità del caso. Potrebbe essere la prima sveglia, ma non sempre lo è: magari ci si era appena riaddormentati dopo un altro intervento, di diversa natura.
Un film sempre diverso, perché in sistemi complessi come quelli informatici, la quantità di interazioni che possono andare storte sono quasi infinite.
La documentazione è buona ma vasta, il problema è impattante, ma non ne è ancora chiara la causa. Il tempo scorre, lo si può percepire anche uditivamente, dalle lancette dell’orologio non distante, nel silenzio e nel buio che ci circonda, spezzato solo dalla luce del nostro monitor.
Uno o più servizi sono ancora inequivocabilmente e completamente in KO.
Squilleranno, se necessario, altri telefoni e verranno svegliati altri professionisti, afferenti alle relative aree coinvolte, finché una parvenza di soluzione inizi a prendere forma. Come detto, siete soli: non v’è accanto a voi nessun collega a cui chiedere un parere tecnico, a meno di non chiamare (e svegliare) anche lui.
A volte passeranno dei minuti, altre volte delle ore, ma alla fine il problema viene individuato e si procede a ripristinare il servizio.
Gli allarmi cessano, la riunione termina, si ringrazia tutti e tutto nuovamente tace. alle 9Intervento concluso, ancora una volta.
Quante ore rimangono ancora per dormire, prima che quel telefono squilli ancora? Si riuscirà a portare a termine la settimana, senza sacrificare troppo la propria salute?
Non è dato sapere. Del resto, capitano settimane in cui nessuno telefona e, miracolosamente, non scatta nessuno degli n-mila allarmi.
La notte è ancora silenziosa, ma non c’è tempo per indugiare: meglio sfruttare quelle poche ore rimaste per provare a recuperare le energie e sperare che, almeno fino a che la sveglia non suoni di nuovo, tutto fili liscio.
Mentre ci si riaddormenta, si sogna la modalità aereo del telefono, un lusso non sempre scontato. Proveremo a concedercelo la prossima settimana.
Appassionato di Linux e della cultura open-source da vent'anni, continuo a fare del mio meglio per diffondere tale filosofia e soprattutto condividere la conoscenza.
C'è sempre qualcuno, laffuori, che sta avendo un problema che tu hai già risolto e, condividendo la soluzione, puoi fare la differenza.
Se quel qualcuno sei tu, chiedi pure alla community. La trovi ovunque, ad esempio su reddit.com/r/italyinformatica, reddit.com/r/fedora, reddit.com/r/debian, reddit.com/r/ubuntu, reddit.com/r/archlinux, reddit.com/r/linux, sui forum specifici delle distro oppure sulle loro wiki.
Perchè nessun problema andrebbe risolto più di una volta.