Alistair Croll, co-fondatore di Year One Labs, società specializzata nel lancio di startup, ed analista di Bitcurrent, focalizza l’attenzione sulla qualità del dato (True Data) piuttosto che sulla quantità (Big Data). In un intervento su PaidCOntent.org Croll evidenzia le difficoltà nel maneggiare i dati e la necessità di fruire di dati effettivamente reali, e non inquinati (per malizia, per omissione o per caso) alla fonte. Ecco il suo articolo.
—–
di Alistair Croll
(a cura di Andrea Fama) – Durante la recente Strata Conference di New York si è fatto un gran parlare della trasparenza dei dati. Poiché oggi grandi quantitò di dati facilmente disponibili e rapidamente analizzabili stanno trasformando le professioni, quegli stessi dati potrebbero modificare il modo in cui regoliamo e governiamo il mondo.
La trasparenza dei dati è una promessa vincente. Teoricamente, dovrebbe sradicare la corruzione e livellare il campo da gioco. Piuttosto che regolamentare ciò che fa una società , potremmo regolamentare cosa dovrebbe condividere con il mondo – e poi lasciare che il mondo si confronti con le conseguenze, attraverso il boicottaggio, l’attivismo o la class-action. Si tratta di qualcosa che Michael Nelson del Leading Edge Forum ha descritto come una forma di libertarismo digitale: un patto di trasparenza tra il mondo degli affari ed i consumatori, o tra governi e cittadini. Nelson la chiama divulgazione reciprocamente assicurata (“Mutually Assured Disclosureâ€).
Pensare che corruzione e inganni possano appassire alla cruda luce dei dati è certamente incoraggiante. Con le informazioni finalmente disponibili, le parti interessate non dovrebbero avere difficoltà nel verificare i numeri – utilizzando servizi di cloud e visualizzazioni intuitive – e nell’individuare i truffatori.
Ma i dati dicono la verità ?
Il primo problema in cui si imbattono i sostenitori dell’Open data è quello di ottenere informazioni attendibili. Guardiamo alla Grecia: 324 ateniesi al momento di pagare le tasse hanno dichiarato di avere una piscina. Quando il governo è ricorso a Google Maps nel tentativo di contarle effettivamente, ne ha scoperte 16.974 – nonostante i camuffamenti sotto improbabili teli verdi. Ebbene, anche se gli attivisti hanno a disposizione dei dati per attuare il cambiamento, quei dati potrebbero essere sbagliati.
Un modo per ovviare a ciò è quello di procurarsi i dati da sé. Le barriere alla raccolta dati si sono sgretolate con l’avvento dei social network, l’ubiquità informatica ed altre innovazioni. Così come i funzionari del fisco greco possono utilizzare Google Earth per tracciare un quadro dell’evasione, allo stesso modo organizzazioni come Asthmapolis (che si occupa di ricerca sull’asma) possono raccogliere i dati attraverso il crowdsourcing – in questo caso, dotando di GPS gli inalatori – ed utilizzare le informazioni ottenute al fine di plasmare le politiche pubbliche in materia.
Come stabilire quando i dati sono sbagliati?
Una volta ottenuti i dati, è necessario analizzarli correttamente. E non si tratta di una cosa semplice come potrebbe sembrare.
Se il lavoro del programmatore non è efficace, il prodotto finito è lento, incompatibile, inutilizzabile. D’altro canto, se uno scienziato dei dati produce i risultati sbagliati, accorgersene potrebbe non essere una cosa banale. Individuare una frode o un errore in un data set può essere complicato. Nel corso della Strata Conference, Monica Rogati di LinkedIn ha evidenziato una serie di errori comunemente commessi dagli analisti al momento di interpretare e riportare le proprie ricerche; poiché sempre più persone hanno iniziato a lavorare con i numeri, sono sempre di più coloro che commettono errori. Le statistiche sono spesso contro intuitive (un esempio? Il problema di Monty Hall).
È possibile individuare un data set sbagliato, vuoi per malizia, per omissione o per caso? In alcune circostanze si. Plasmare i data set spesso comporta problemi con i dati, e chi si occupa di statistica conosce alcuni trucchi per porvi rimedio. La Legge di Benford, ad esempio, sostiene che “in natura†è più probabile che la cifra 1 si presenti con maggior frequenza, poi la cifra 2 e così via fino a 9. Applicando questa Legge a determinati data set si scoprirà quanto è probabile che i contenuti siano falsi.
Agiremo di conseguenza?
L’Open data è inutile se non porta all’azione. Molti sostenitori della trasparenza credono che il cambiamento derivi logicamente dalle prove. Le attuali politiche pubbliche governative suggeriscono uno scenario diverso. In merito a questioni critiche di natura globale quali il clima e l’evoluzione, a dispetto di dati schiaccianti e revisionati, siamo ancora bloccati a domandarci se insegnare il creazionismo o se i mutamenti climatici siano reali. Non ci piacciono i numeri fornitici? Basta etichettarli come corrotti, e minacciare di ritirare i fondi. Se l’infografica è il nuovo discorso elettorale, mettere in dubbio i dati ne è la naturale confutazione.
La semplice trasparenza non porta al cambiamento. Senza un efficace sistema di controlli e verifiche, e senza vere sanzioni, l’abbaglio della cruda luce dei dati non servirà a nulla. Questa condizione fa degli avvocati specializzati in class action e degli hacktivisti improbabili alleati: azioni legali, campagne sui social media e boicottaggi spesso rappresentano l’unico modo per indurre il cambiamento in settori altrimenti non regolamentati.
La trasparenza dei dati è una corsa alle armi. Nel mondo della divulgazione, alterare i dati è come alterare i bilanci. Quanti degli attuali scienziati dei dati diventeranno i periti contabili di domani, impegnati in una guerra alla frode e all’ignoranza? L’Open data e la trasparenza non sono abbastanza: abbiamo bisogno di True Data (dati reali) e non di Big Data – così come di legislatori intenzionati ad agire conseguenza.