top of page

Il lato umanistico della Data Science


Due strade divergevano in un bosco, ed io — Io presi quella meno battuta, E questo ha fatto tutta la differenza

Questo verso di Frost mi ha sempre impressionato. Perchè marginalmente esprime il fascino della scoperta, l'attrattiva dello svelamento (che, per la mia indole, è già di per sè un motore indispensabile), ma più che altro rivela il segreto della vita: non c'è valore senza il rischio! Lasciatemi ripeterlo e ditemi se non ne siete anche voi sedotti: "presi quella meno battuta, e questo fece tutta la differenza". Parlando di rischio, voglio raccontarvi un aneddoto che poi ci aiuterà (spero) a giungere al nocciolo della questione. Nel 2010 fui chiamato a collaborare in una nuova unità della mia azienda che aveva il mandato di quantificare, in qualche modo, qualunque fenomeno di rischio che potesse arrecare perdite alla compagnia. Una missione impossibile. Insomma, l'azienda in questione è una multinazionale con un business diversificato e complesso a piacere. I fenomeni di rischio sono pressochè infiniti. Impiegammo quasi due anni, soltanto per capire su cosa fosse più utile focalizzarci (e questo meriterebbe di essere raccontato in una storia ad hoc, ma non qui). Nel 2012 arrivammo a definire una mappa dei rischi su diversi settori aziendali e diversi metodi per valutarli. Tutti però avevano in comune un approccio, quello di raccogliere dati attraverso dei questionari. Fin qui niente di strano, da letteratura. Tranne il fatto che i questionari di cui parlo erano, come dire, dinamici. L'idea era quella di permettere a chi conducesse l'assessment, di costruirsi il questionario a misura di contesto. I rischi a cui è esposta una centrale a ciclo combinato nel cuore dell'appennino marchigiano, per esempio, sono molto diversi da quelli che gravano su una centrale a carbone con dieci gruppi nel bel mezzo della steppa siberiana. Lo capiamo tutti senza essere dei risk manager. E in più nacque un problema in ordine al volume delle informazioni da raccogliere. Pensate solo che mediamente un questionario per il rischio ambientale proponeva, su ogni impianto, quasi duemila domande. Quello per il rischio incendi più di ottomila. Pazzesco! Queste peculiarità, per me, che all'epoca venni incaricato della realizzazione di un sistema gestionale a supporto, rappresentavano un ventaglio di problemi particolarmente ostici: complessità funzionale, criticità delle performance, usabilità. Era l'epoca in cui si cominciava a parlare di BigData, ma sottovoce, si erano già sviluppate tecnologie cosiddette NoSQL ma, era roba per nerd (quanto meno, così veniva percepita laddove era poco conosciuta). E fu lì che mi ritrovai davanti al bivio e decisi di seguire l'esempio del nostro incosciente amico Robert Frost. Non vi annoierò dandovi le motivazioni tecniche della scelta che feci. Più interessante è invece capire cosa scelsi. Avete mai sentito parlare di Graph DB? Probabilmente si, e comunque se ne può trovare ampia documentazione on line. Se poi volete approfondire la tecnologia che scelsi, date un'occhiata al sito di OrientDB. Per i meno avvezzi, un Graph DB adotta un paradigma di descrizione dei dati come un insieme di nodi e archi. E' una tecnologia che rappresenta in modo "nativo" realtà complesse. Per sua natura un grafo è autoconsistente e flessibile, aggiungere nodi e archi ha l'effetto di arricchire il valore dei dati ma non ne compromette la fruibilità (come invece può accadere in un DB relazionale in cui si aggiunga, ad esempio, una colonna ad una tabella). Un'altra caratteristica è la "scalabilità semantica". Il dato di per sè ha valore prossimo allo zero. Il vero valore dei dati sta nel significato che assumono in un particolare contesto. E il significato dei dati si annida nelle sue relazioni. OK, daccordo, e quindi? Che significa scalabilità semantica? Immaginate di avere un grafo che descrive i dati raccolti dallo scatolotto gps che magari qualcuno di voi (come me) ha installato nell'auto per risparmiare sul premio dell'assicurazione. Di base, ci aspettiamo che qualcuno registri quanti chilometri percorriamo, che strade prendiamo, la nostra velocità media, ecc. Immaginatevi però anche un grafo che descriva certi comportamenti e, in base a questi, individui alcune classi di guidatori, per esempio pendolari, viaggiatori, ubriachi, nervosi, rapinatori (perchè no?). Prendiamo i due grafi e colleghiamoli tra loro con opportune relazioni. BANG! Ci sono aziende che ucciderebbero per avere queste informazioni (e altre che probabilmente lo hanno già fatto). Nel 2012, per adottare quella tecnologia ho dovuto abbattere diversi ostacoli e altri ne ho dovuto aggirare. Mi ricordo una riunione in cui, l'allora responsabile delle architetture della Governance ICT, messo davanti a fatto compiuto disse: "Ok, ok. Ho capito cos'è questo Graph DB, ma dovremmo anche capire cosa non è". Cosa vuoi dire a qualcuno che risponde così? Sono passati ormai cinque anni, il sistema di gestione del rischio col suo bel Graph DB enbedded è saldamente in piedi ed è tuttora utilizzato. Il fiume dei Big Data e della oscura disciplina non meglio definita come Data Science, scorre in piena. Eppure, a dispetto di tutto questo, la tendenza a temere la strada meno battuta è ancora forte. Molti addetti ai lavori applicano un approccio standard ad un contesto che di standard non ha quasi nulla. La comprensibile esigenza di governare il processo prende il sopravvento. E così tutto ciò che procede su percorsi atipici, che corre fuori dai binari a velocità troppo sostenute, e tutte le iniziative che comportano rischi, vengono etichettate come "ingestibili", "caotiche", "disorganizzate". E' divertente considerare come lo stesso si possa dire della realtà. Quella vera. Quella che viviamo ogni giorno, in cui abbiamo imparato a sopravvivere e a progredire. Eppure, nei contesti organizzati, come in un'azienda, ci si ostina a voler ingabbiare la sua connaturata complessità dentro modelli preconfezionati. Gli ultimi e drammatici dieci anni di evoluzione sociale e tecnologica, ci hanno dimostrato che questo modo di gestire il mondo è fallimentare. Le aziende che sono emerse e si sono attestate come colossi dell'economia, sono poi quelle che hanno voluto cavalcarlo il caos. E non domarlo. I più grandi data scientist ci appaiono oggi come dei geni assoluti, ma in realtà sono solo persone che guardano il mondo da un'altra prospettiva. I dati sono sempre stati la proiezione della conoscenza di chi li ha disegnati. Poi è arrivato il web 2.0 ed è cambiato tutto. I dati hanno preso vita, si insinuano ovunque, si trasformano, si legano tra loro come in un sistema organico. E della conoscenza che li ha originati non resta che un lontano riverbero, in confronto alle relazioni nuove e alle incessanti dinamiche dentro un ecosistema in continua espansione. Non basta un sistema per raccoglierli e interrogarli (domarli), serve il coraggio e la fatica di comprenderne la natura, entrarci in simbiosi e partecipare con loro allo sviluppo della loro essenza (cavalcarli). Serve questa visione per mettere le mani sul loro grande valore. Una visione umanistica prima che tecnologica. Perchè qui non si tratta di cercare una tecnologia per gestire i nostri dati. Ma di permettere alle persone giuste di coltivare, riconoscere e raccogliere il tesoro che in essi è contenuto. Dopo naturalmente c'è anche tutto il resto. Ma solo dopo. Voi cosa ne dite?


Featured Review
Tag Cloud
Non ci sono ancora tag.
bottom of page