Site icon LSDI

Offshore Leaks: come scoprire storie in mezzo a 260 gigabytes di informazioni


“Pazienza e perseveranza”. Sono le parole d’ ordine con cui l’ International Consortium of Investigative Journalism ha cercato di dare un senso ai 260 Giga di documenti alla base della più grande investigazione giornalistica transnazionale di tutti i tempi.

 

Una dei giornalisti che hanno lavorato all’ impostazione dell’ operazione, Mar Cabra, freelance e Data research manager per l’ ICIJ,  racconta a Lsdi uno degli aspetti chiave dell’ operazione: capire che cosa e come cercare nella marea dei dati.

 
Gli altri aspetti più interessanti dal punto di vista tecnico: i software utilizzati per dare ordine; i gruppi di ricercatori in Germania, Inghilterra e Costa Rica; i sistemi di riconoscimento ottico dei caratteri di documenti illeggibili. 

 


 

di Daniele Grasso

 

“Pazienza e perseveranza”. Sono queste le parole d’ ordine con cui i giornalisti dell’ International Consortium of Investigative Journalism (ICIJ) hanno dato un senso ai 260 gigabytes di documenti alla base della più grande investigazione giornalistica transnazionale di tutti i tempi

 

Ormai nota come “Offshore Leaks”, si tratta di una serie di inchieste che l’ organizzazione – un progetto del Center for Public Integrity  – ha diffuso giovedì 4 aprile.

 

L’ investigazione riguarda il business di chi opera nei paradisi fiscali trasferendo l’ amministrazione dei propri beni ad una terza persona. Varie testate dei 46 Paesi da cui provengono gli 86 giornalisti che hanno preso parte a questa inchiesta globale – per l’ Italia, Leo Sisti, vice presidente e reporter di Irpi.eu (Investigative ReportingProject Italy), su L’ Espresso – hanno pubblicato i nomi e le storie di chi utilizza le compagnie “offshore” per evadere milioni di tasse all’ erario pubblico del proprio Paese.

 

Per capire come ci siano riusciti, bisogna risalire all’ inizio del 2012.

 

Gerard Ryle, un media executive australiano, si ritrovò tra le mani un disco fisso contenente 260 gigabytes di informazione relativa al mondo delle compagnie Offshore. Un ‘’leak’’ tanto gigantesco quanto quasi indecifrabile. Come spiega in un’ intervista al Neiman Lab,  Marina Walker Guevara, vice direttore dell’  ICIJ, Ryle bussò alla porta dell’ organizzazione chiedendo una scrivania e un po’ d’ aiuto. L’ obiettivo, identificare, verificare e contrastare 2,5 milioni di files contenenti informazioni finanziarie relative a più di 170 Paesi.

 

La prima idea, spiega Guevara, fu quella di creare un nucleo di sei giornalisti che si dedicasse giorno e notte all’ analisi dei dati. Ma avrebbe avuto senso cercare di capire, da un ufficio di Washington, se un nome dietro ad una compagnia in un paradiso fiscale avesse una qualche rilevanza in Romania, in Azerbaijan o in Spagna? Probabilmente i risultati non sarebbero stati gli stessi: “Si tratta di storie basate su una grande quantità di dati, ma non bastava osservare i documenti e sedersi a scrivere: avevamo bisogno di reporters sul terreno”, racconta Guevara.

 

 

 

Ai giornalisti sul terreno, però, era urgente dare dei nomi. E per scovare i nomi, bisognava mettere in ordine i dati. Come spiega l’ organizzazione in un post sul suo sito, il primo software utilizzato a questo scopo fu NUIX, che permette di effettuare una ricerca tematica interna ai documenti (si tratta di un software FTR, free text retrieval). L’ ostacolo dell’ altissimo costo del programma è stato risolto con un accordo con la compagnia che lo commercializza, che ha ceduto gratuitamente un limitato numero di licenze all’ ICIJ.

 

Per fare chiarezza tra i documenti e “pulire” i dati, invece, l’ ICIJ si affidò a programmatori in Germania, Inghilterra e Costa Rica. Dai tre paesi nacquero proposte pensate ad hoc per l’ analisi dei dati in possesso all’ organizzazione.

 

Superato anche l’ ostacolo dei documenti illeggibili dai computer grazie ad un sistema di riconoscimento ottico dei caratteri (Optichal Character Recognition, OCR), il database era pronto. Spesso, peró, la ricerca del proprietario ultimo di una compagnia non dava nessun risultato: “il problema era il disegno del database”, spiega l’ ICIJ.

 

Il database, dunque, fu ricostruito. E i reporter nei vari Paesi potevano quindi cominciare ad utilizzare InterData, un sistema di ricerca online, per scaricare le informazioni contenute su piú di 53.000 documenti. Dopo aver provato con il nome del proprio presidente del Governo o di un noto imprenditore -senza risultati-, risultò chiaro che non sarebbe stata un ricerca in stile Google.

 

Pazienza e perseveranza: “La chiave non era tanto nei documenti in sé, quanto nel sapere cosa cercare”, spiega per telefono a LSDI Mar Cabra, giornalista indipendente e Data Research Manager in quest’ ultima inchiesta dell’ ICIJ.

 

“Nei documenti – continua Cabra – non si trova il nome del beneficiario, ma quelli dei direttori delle aziende, di avvocati, dei prestanome”. Era dunque necessario tener ben presenti “le relazioni tra le persone citate e le compagnie che controllano”, precisa. O i risultati erano pagine bianche e frustrazione: i dati infatti non erano strutturati così come il reporter era solito pensare. L’ appoggio di un Data Research Manager fu quindi fondamentale per dare un senso alla ricerca tra i nomi di 122.000 aziende offshore, 12.000 intermediari e una lista di circa 13.000 possibili proprietari delle citate compagnie. Da quest’ analisi nacquero le prime storie, anticipate in Novembre da ICIJ e  Guardian, sulle fortune britanniche nelle Isole Vergini.

 

Resta ancora da chiarire se i dati e i documenti originali verranno pubblicati. Il dibattito, per il momento, è molto attivo sulle reti sociali. Tra i più critici con la momentanea decisione dell’ ICIJ di non pubblicare il database, c’ è Wikileaks, che rese pubblici, invece, i documenti (“puliti” e leggibili, così come gli furono consegnati) dei suoi files. In questo senso, secondo Mar Cabra, “l’ ICIJ non è Wikileaks: è un progetto giornalistico che crea storie per spiegare cosa c’ è dietro il sistema dei paradisi fiscali. Il suo obiettivo è praticare giornalismo e far sì che si capisca un problema, dandogli un nome e un cognome, scovato in un sistema di dati molto complesso”, spiega la giornalista.

 

Durante il mese di aprile, l’ ICIJ continuerà a pubblicare altre storie nate da un disco fisso di 260 gigabytes.

 

Exit mobile version