Datacenter geneticamente modificati
Che Madre Natura non sia amante dell’assoluto è noto da secoli. Le regole che governano il gioco dell’Universo si fondano su variazioni, rapporti, proporzioni e sistemi di riferimento. La realtà è entangled, direbbero i più cinematografici fisici americani.
Un centimetro è tanto o poco? E un quintale? E un millesimo di secondo? ‘Dipende’, è la risposta spontanea, senza ricorrere ad oscure teorie einsteniane. Sbagliare di un metro nella stima di un itinerario di 1200 km è del tutto irrilevante, proprio come un grammo di troppo su mezzo kg di farina non renderà un dolce immangiabile (tanto meno un capolavoro culinario). “Tutto è relativo”, sembra essere l’ovvia chiosa. Di fatto, da un punto di vista puramente scientifico, non c’è altro da aggiungere. Se però si analizzano il contesto umano e sociale a contorno delle osservazioni, le valutazioni fatte devono essere necessariamente riconsiderate: un atleta che perde una finale olimpica per un centesimo di secondo, ma con una prestazione da record del mondo, vedrà lo scarto dalla posizione iridata così relativo come appare al freddo display del cronometro. Non c’è dubbio: il valore umano e sociale di alcuni dati non è stimabile. E’ qui che crolla l’eleganza scientifica dell’assunto di relatività.
L’Information Technology (IT) è un ‘piccolo’ universo in cui valgono le stesse considerazioni. Conoscere il constesto è fondamentale. Che cosa può importarci se nella riproduzione streaming di un film in HD, risulta corrotto il contenuto informativo di uno dei 120 frame per secondo? Assolutamente nulla, poiché l’effetto non sarebbe apprezzabile dall’occhio umano. Il sequenziamento del genoma umano, per contro, presenta delle criticità ben differenti. Infatti, la perdita del contenuto digitale associato ad una manciata di basi azotate tra le circa 3.070.500.000 complessive che compongono l’elica del DNA umano (le magiche A,G,C,T) potrebbe essere letteralmente fatale.
Perché quella sequenza di lettere apparentemente randomica potrebbe contenere la risposta a casi di malattie estremamente gravi, spesso molto rare. Come la sindrome di Sly: nessuna terapia ad oggi disponibile; 27 casi noti in tutto il mondo; tutti pazienti che non hanno superato i 15 anni di età. In questo caso, l’informazione va protetta fino all’ultimo bit. Non c’è spazio per gli errori. Un’architettura IT affidabile e resiliente è assolutamente mandatoria per lo scopo. Come mandatoria risulta la possibilità di scalare questa infrastruttura: le banche dati di ospedali che operano sequenziamenti di DNA umano raddoppiano le proprie dimensioni ogni 6 mesi, catalizzati sia dal fatto che un file raw relativo al sequenziamento di un intero genoma umano ammonta a più di 100GB, sia dall’inserimento sempre più imprescindibile delle tecniche genomiche all’interno dei processi ospedalieri.
Una statistica rivela che negli Stati Uniti d’America, i casi di cancro diagnosticati sulla base dei cosiddetti ‘genomics commons’, sono circa 2 milioni l’anno. Questo emergente paradigma di indagine si basa sull’utilizzo di algoritmi di intelligenza artificiale in grado di popolare e successivamente interrogare immense banche di dati condivise tra centri ospedalieri e/o di ricerca, al fine di estrarne ‘valore informativo’ tramite complesse metodologie di machine learning. Queste ultime, risultano tanto più efficaci, quanto più nutrita è la base di dati su cui poter effettuare il training dell’algoritmo utilizzato. Il continuo ciclo di ‘collecting, training, scoring e tuning’ consente di migliorare nel tempo accuratezza, precisione e capacità di recall del modello usato e, dunque, l’efficacia del sistema diagnostico.
In tal senso, la possibilità di condividere informazioni tra siti geograficamente dislocati è fondante. E’ un modo ovvio di popolare i training set degli algoritmi cognitivi, nonché l’unico modo di dare significatività statistica a dati relativi a malattie rare e/o di difficile individuazione. Questi dati vanno assolutamente protetti sia a livello di contenuto informativo (ovvero con soluzioni avanzate di backup) che di ‘data privacy’ (ovvero con algoritmi di encryption), in quanto relativi a informazioni di carattere personale. Spesso, peraltro, i dati di sequenziamento del genoma del singolo paziente sono affiancati da enormi moli di (enormi) dati non- strutturati relativi ad esami clinici specifici a corredo quali: TAC, PET, fRMN e simili, al fine di affinare il potere predittivo dei modelli computazionali. Se si considera che l’accesso alle risorse deve essere rapido a sufficienza da consentire tempi di sviluppo e utilizzo dei dati il più contenuti possibile, si capisce come il prezzo da pagare sia un aumento della complessità dell’ambiente IT e dei costi infrastrutturali associati.
In questo contesto, le soluzioni di Software Defined Storage (SDS) risultano le uniche sufficientemente agili da soddisfare le richieste di business in modo cost-effective, consentendo alle aziende di spostare il proprio focus sul core-business (ovvero sull’affinamento degli algoritmi nel caso di soluzioni di healthcare di tipo cognitivo) piuttosto che sulla gestione dell’infrastruttura sottostante.
In casa IBM, la famiglia Spectrum costituisce il portfolio SDS su cui poter far evolvere il proprio datacenter in ottica di AI. In particolare, Spectrum Scale, il discendente diretto di GPFS (General Parallel File System) è un sofware di gestione dei dati che consente di accedere con alte prestazioni a un filesystem globale. Costruito per scalare oltre la scala dei petabytes e gestire miliardi di file, Scale garantisce all’infrastruttura i livelli di throughput necessari per fare il trainging dei modelli in maniera rapida ed efficiente. Corredato da strumenti che abilitano la gestione del ciclo di vita del dato, Scale consente, su base policy e in base ad una heat-function (i.e. di una funzione che determina il “rate di accesso” al dato), di ottimizzare contemporaneamente sia le prestazioni dei dati piu ‘caldi’ sia i costi infrastrutturali, spostando i dati ‘freddi’ verso tier più capacitivi con prestazioni meno spinte, che siano essi sistemi tape (grazie all’integrazione di Scale con lo Spectrum Archive, il software che consente di accedere trasparentemente ai tape come se fossero spazio disco all’interno del filesystem) o un pool di Cloud Object Storage (tramite le funzionalità di Transparent Cloud Tiering). Quest’ultimo garantisce livelli di affidabilià e resilienza elevatissimi, assicurati dalla dispersione geografica dell’informazione e da meccanismi di continua individuazione e correzione dei ‘silent errors’ che pregiudicano l’integrità logica delle informazioni: due caratteristiche assolutamente di valore nel settore della genomica.
L’healthcare, più di qualsiasi altro settore, è l’esempio evidente dell’ormai avviata trasformazione digitale. Un cambiamento radicale che interessa verticalmente tutta la filiera delle cure sanitarie: dagli approcci medici, che includono intelligenze artificiali a supporto delle decisioni diagnostiche, alle specificità tecniche che ne stanno alla base, come ad esempio l’adozione di object storage per il salvataggio dei dati non-strutturati derivanti dalle analisi cliniche.
Ed è certamente naturale e giusto che questo accada nell’ambito healthcare. “Tutto è relativo” – diceva Albert Einsten - “ ma un ultracentenario che rompe uno specchio sarà ben lieto di sapere che ha ancora sette anni di disgrazie”.