“Combattiamo il virus con i dati”

Gesellschaft | Il progetto

“Combattiamo il virus con i dati”

Giancarlo Guizzardi e il network mondiale per le informazioni sulle epidemie. “Dallo scambio dei dati trasparenti e ‘Fair’ le basi per vaccini, farmaci e cure efficaci”.

von unibz
13.04.2020

Hinweis: Dies ist ein Partner-Artikel und spiegelt nicht notwendigerweise die Meinung der SALTO-Redaktion wider.

Foto: Pexels

salto.bz: Giancarlo Guizzardi, la Libera università di Bolzano partecipa al progetto Virus Outbreak Data Network (VODAN). Come funziona questa che è sicuramente un’arma in più contro le epidemie, come quella in corso di coronavirus?

Giancarlo Guizzardi: l’idea alla base di questa nuova rete, coordinata da un gruppo che fa capo a Leiden, nei Paesi Bassi, ma di cui anche noi di Bolzano siamo coinvolti in diversi modi, è che negli ultimi anni nella comunità scientifica internazionale è accresciuta la preoccupazione riguardo allo scambio e la gestione efficace dei dati.

E questo margine di errore nello scambio di dati diventa un problema, non solo per la scienza, giusto?

Esatto. Le nostre decisioni sono basate su dati che non sono sempre affidabili. Dunque nel mondo scientifico internazionale si è formato un consenso sui criteri di qualità. In inglese esiste un acronimo, FAIR, che significa “Findable, Accessible, Interoperable, Reusable” (ovvero, Trovabili, Accessibili, Interoperabili e Riutilizzabili). Per trovabili si intende un modo globale e chiaro di far riferimento agli insiemi di dati; per accessibili, politiche chiare di accessibilità includendo aspetti come la privacy sui dati personali e di rispetto delle leggi dove i dati sono conservati; per Riutilizzabili e Interoperabili invece si intende che i dati, pur essendo prodotti da gruppi distinti in situazioni diverse, possono essere riutilizzati e integrati in modo affidabile.

Ma a cosa serve fare in modo che le informazioni scambiate soddisfino questi criteri?

I criteri di qualità sono fondamentali per una serie di cose che hanno a che fare con il progresso della scienza che a cascata si riflette su quello della società. Mi riferisco allo sviluppo della scienza aperta e delle collaborazioni scientifiche internazionali, al riutilizzo e alla riproducibilità dei risultati. In ultima analisi all’accelerazione del processo scientifico e della sua diffusione.

L’utilità però è anche pratica ed estremamente attuale. A cosa serve la correttezza dei dati applicata al coronavirus?

Facciamo un esempio: quando emergono nuovi ceppi di virus come il appunto il coronavirus, che causa la malattia Covid-19, i dati diventano tra le nostre risorse più preziose. Possiamo guardare al modello della Corea del Sud, dove si sta combattendo, mi pare con molto successo, l’epidemia con l’informazione (che sia epidemiologica, delle interazioni personali, dei movimenti dei singoli individui, eccetera). In un momento come questo, con l’emersione di un fenomeno nuovo, i dati diventano ancora di più fondamentali e la loro qualità è dirimente per ottenere informazioni affidabili, su basare a loro volta decisioni corrette ed efficaci.

Quando è nata la rete?

All’incirca tra febbraio e marzo 2020, ma la prima riunione ufficiale si è svolta nella settimana a cavallo tra marzo e aprile. Al momento è in corso questo è uno sforzo enorme per sviluppare metodi, teorie, linguaggi e software volti a rendere “Fair” i dati, secondo l’approccio dato dal movimento internazionale sorto da alcuni anni che promuove questo principio nel mondo scientifico.

Il progetto della rete tuttavia va oltre il coronavirus, non è così?

Infatti. È interessante il fatto che l’iniziativa non si chiama Coronavirus Data Network, ma Virus Outbreak Data Network. Perché la ragione di fondo è che oltre a fare il meglio possibile per l’attuale epidemia, l’obiettivo è creare un’infrastruttura di gestione di dati scientifici Fair, in modo che possiamo essere meglio preparati anche per future epidemia. Cambiare il modo in cui le informazioni vengono prodotte e possono essere impiegate sarà sempre più vitale per i decisori pubblici e dunque l’umanità in generale.

Più nel dettaglio come funziona i lavoro di “pulitura” dei dati per renderli compatibili e adatti allo scambio?

Lavoriamo sull’aspetto della trasparenza semantica. Cerco di farmi capire: un problema con l’integrazione dei dati è assicurarsi che abbiamo lo stesso significato in tutti gli insiemi considerati. Faccio un esempio semplice: il significato di “decesso causato da Covid-19” può variare in insiemi di dati diversi, se per esempio consideriamo Covid-19 come causa di morte solo quando è la causa iniziale, o invece in tutte le situazioni che è una delle concause. La cosa ovviamente si complica quando i concetti diventano più complessi. Per esempio, nel caso di una classificazione degli agenti biologici, degli enzimi che i virus manipolano per replicarsi e via dicendo. Diventa difficile fare un’analisi ampia se non siamo sicuri che tutti i concetti hanno lo stesso significato.

La rete è già funzionante?

È appena partita. Per esempio, il gruppo sta lavorando per rendere Fair i dati di un modulo che si chiama Case report form, della World Health Organization-Organizzazione mondiale della sanità. Ci sono iniziative in corso, ad esempio un gruppo in Brasile sta implementando un software basato su questo modello. Tutto è partito da poche settimane ma stiamo lavorando intensamente.

I dati, in sintesi, servono per combattere in modo efficace il coronavirus?

Certamente. La mancanza di dati di qualità potrebbe ritardare lo sviluppo di vaccini e trattamenti e avere in impatto negativo sul processo decisionale. Inoltre, perché l’Intelligenza artificiale possa trovare strutture utili nei dati e separare correlazioni reali (autentiche) da quelle spurie, serve un lavoro concettuale per separare il segnale dal rumore. Infine, dobbiamo anche integrare i dati provenienti da diverse sorgenti, visto che spesso le scoperte si nascondono nelle connessioni tra basi di dati invece che all’interno delle basi stesse. Come esempio, per lo sviluppo di nuovi farmaci dobbiamo capire il rapporto tra almeno tre spazi concettuali diversi, cioè tra proprietà degli agenti biologici, delle strutture biologiche umane, e delle sostanze chimiche. Tuttavia, per farlo dobbiamo capire con precisione il significato di ciò che è descritto nei dati. Ecco perché la trasparenza semantica è fondamentale: svolge un ruolo essenziale nello sviluppo scientifico e tecnologico moderno, che a sua volta ha un ruolo fondamentale nel contribuire a salvare vite umane.