———-
Paul Bradshaw, uno dei più attenti osservatori del mondo del data journalism, ha pubblicato su Onlinejouirnaslismblog.com due post in cui definisce, rispettivamente, le fasi che precedono la pubblicazione di un articolo e il modo in cui tali articoli vengono comunicati – un aspetto, quest’ultimo, ancora poco dibattuto.
Nel primo post, Bradshaw illustra il processo che porta alla realizzazione di un prodotto di data journalism attraverso un diagramma a piramide rovesciata composto da cinque fasi: raccogliere, pulire, contestualizzare, incrociare e, infine, comunicare.
1. Raccogliere
Il data journalism prende le mosse in presenza di una delle seguenti due condizioni: un interrogativo da fugare attraverso i dati, o una serie di dati da corroborare attraverso interrogativi e analisi. In entrambi i casi, la raccolta dei dati è ciò che definisce un prodotto di data journalism. In estrema sintesi, i dati possono essere:
- forniti direttamente da un’organizzazione (in attesa che I comunicati stampa siano affiancati dalla divulgazione di dataset);
- recuperati attraverso tecniche avanzate di ricerca che consentono di scandagliare le profondità dei siti Web governativi;
- raccolti attraverso strumenti di scraping quail OutWit Hub e Scraperwiki, che consentono di penetrare i data base nascosti nel Web;
- estrapolati da documenti e convertiti in informazioni analizzabili grazie a strumenti come DocumentCloud;
- estratti dale API;
- raccolti autonomamente attraverso sondaggi, crowdsourcing, ecc.
2. Pulire
Una volta ottenuti i dati è necessario pulirli, per renderli affidabili ed accrescerne la qualità . La pulitura consiste nel rimuovere gli errori umani e nel convertire i dati in un formato compatibile con gli altri dataset già raccolti.
È necessario, pertanto, individuare criticità come quelle relative a campi duplicati o incompleti; formattazioni errate (ad esempio, l’uso delle lettere al posto dei numeri); denominazioni multiple (vedi BBC, B.B.C. e British Broadcasting Corporation); ecc.
Pulire i documenti in Excel o Google Docs è semplice; basta ricorrere, ad esempio, a filtri o a funzioni quali “trova e sostituisciâ€.  Uno strumento molto più potente, invece, è Google Refine, che consente operazioni  più articolate.
3. Contestualizzare
Come ogni fonte, I dati non sono sempre affidabili. Bisogna pertanto chiedersi sempre chi li ha raccolti, quando, a quale scopo e con quale metodologia. È altresì necessario comprendere il gergo con cui sono presentati, la terminologia specialistica ed i codici che rappresentano le distinte categorie, classificazioni o localizzazioni.,
Quanto detto porterà molto probabilmente ad un’ulteriore raccolta dati. Ad esempio, conoscere il numero di reati commessi in una determinata città è interessante, ma diventa significativo solo quando si è in grado di contestualizzare il dato con quelli relativi alla popolazione piuttosto che alle forze di polizia,ai livelli di criminalità precedentemente registrati o al tasso di disoccupazione, alla percezione del crimine e così via. A tale scopo, le competenze in campo statistico sono assolutamente necessarie.
4. Incrociare
È possibile trovare una buona storia in un singolo data base, ma spesso è necessario incrociarne diversi. La combinazione più classica è il mash up con le mappe, che consente di visualizzare nello spazio i contenuti di un dataset: quali aree sono maggiormente colpite dai tagli ? Quali scuole sono più virtuose? Quali sono gli argomenti più dibattuti su Twitter in questo momento?
Quella appena descritta è una procedura tanto comune da essere diventata un cliché – sebbene i cliché siano spesso, se non sempre, efficaci.
Una combinazione più raffinata consiste nell’incrociare più dataset con un dato specifico, come il nome di un politico o di una scuola piuttosto che  di una località . Questa operazione permette di uniformare la formattazione delle informazioni contenute nei diversi dataset (le località , ad esempio, possono essere indicate con il proprio nome, il codice postale, la latitudine, la longitudine, ecc.), consentendo di individuare potenziali spunti per un articolo tra i dati digitalmente intellegibili.
5. Comunicare
La forma più ovvia con cui il giornalismo dei dati comunica i propri risultati è la visualizzazione – attraverso una mappa, una griglia, un infografica o un’animazione. Tuttavia, questa ultima fase merita un approfondimento specifico.
Un altro diagramma – questa volte a piramide regolare – illustra le sei modalità di comunicazione del data journalism.
1. Visualizzazione
La visualizzazione è il modo più rapido per comunicare i risultati del data journalism, e strumenti come Google Docs e Many Eyes rendono il processo estremamente semplice: basta un clic o un copia e incolla dei dati grezzi per scegliere le opzioni di visualizzazione preferite.
La semplicità , tuttavia, non è sempre sinonimo di efficacia, e spesso le visualizzazioni sono involucri privi di un vero valore aggiunto. È quindi necessario attenersi ad alcune regole di base: focalizzarsi su un massimo di quattro dati specifici, evitare il 3D ed assicurarsi che la grafica sia autosufficiente.
La grande forza della visualizzazione è l’incredibile efficacia della sua comunicazione, superiore alle altre modalità di seguito analizzate. Tuttavia, tale forza è anche il limite stesso della visualizzazione: la natura istantanea dell’infografica implica che i lettori non le analizzino a lungo. Pertanto, sebbene la diffusione dei dati venga accresciuta, il livello di engagement non è elevato. Sarebbe buona regola, quindi, assicurarsi che le immagini contengano un link alla fonte e che tale fonte contenga informazioni aggiuntive rispetto a quelle visualizzate.
2. Narrazione
Nonostante sia difficile contenere in un articolo tradizionale i numeri elaborati dal data journalism, questo rappresenta comunque una modalità accessibile per comprendere una determinata vicenda.
A tale proposito, vi sono apposite pubblicazioni su come lavorare in modo chiaro con i numeri, alcune delle quali espressamente dedicate al Web.
Così come per la visualizzazione, anche nel caso della narrazione il meno è meglio. Tuttavia, come nella maggior parte dei casi quando si parla di narrazione, è necessario ponderare la rilevanza e gli obiettivi che ci si pongono nel comunicare tali numeri. Che significato ha, ad esempio, riportare che 10 milioni di sterline sono state spese per una determinata attività ? È una cifra inferiore o superiore all’ordinario? Inferiore o superiore ad attività similari? Tali cifre, quindi, potrebbero essere scomposte a persona, al giorno, ecc.
3. Comunicazione sociale
La comunicazione è un atto sociale, ed il successo dell’infografica ne è la dimostrazione. Lo stesso vale anche per i dati, come dimostra il caso del Guardian, che ha raccolto una community molto viva attorno ai suoi API e al suo Data Blog – il cui engagement è più alto rispetto ad un articolo tradizionale della testata.
Anche le iniziative di crowdsourcing rivolte alla raccolta dei dati aggiungono una dimensione sociale al processo. Ancora una volta, il Guardian si pone su di una posizione pionieristica nel settore, basti pensare al progetto legato alle spese dei parlamentari o ad altre iniziative, anche più complesse.
La connettività del Web, poi, aumenta le opportunità di presentare il data journalism secondo modalità sociali, e il processo non è che all’inizio.
4. Umanizzazione
Radio e televisioni spesso ricorrono ai casi di studio per aggirare il problema di presentare sui mezzi tradizionali vicende basate su grandi numeri. Se i tempi di attesa per i servizi legati alla sanità si sono allungati, allora si intervista una persona che ha vissuto un’esperienza negativa in tal senso. In altre parole, si umanizzano i dati.
Oggi la grafica animata al computer ha alleviato tali criticità , consentendo ai presentatori di affidarsi ad animazioni ad impatto per illustrare una determinata vicenda.
Il coinvolgimento umano è tuttavia un elemento essenziale. In un articolo dal titolo emblematico – L’imbarazzo di un ambasciatore è una tragedia, la morte di 15mila civili una statistica – Bradshaw spiega che quando si lavora su numeri di scala difficilmente comprensibili a livello umano, allora è altrettanto complicato riuscire a coinvolgere le persone nell’argomento trattato, a prescindere dall’impatto della grafica animata.
Pertanto, dopo essersi immersi nel dato astratto, è necessario tenere a mente che una semplice intervista ad una persona che è stata influenzata da quel tipo di dati può fare la differenza relativamente alla forza d’urto del nostro articolo.
5. Personalizzazione
Uno dei più grandi cambiamenti introdotti dalla migrazione online del giornalismo riguarda l’infinita varietà di interazioni offerta dal digitale. E nel caso del giornalismo dei dati ciò significa che un utente può, potenzialmente, controllare l’informazione che gli viene presentata sulla base di diversi input.
Ad esempio, quando un governo presenta il bilancio, i siti di notizie spesso invitano gli utenti a contribuire con i dettagli relativi alla propria condizione (entrate, composizione familiare, ecc) al fine di stabilire in che modo queste persone sono influenzate dal bilancio stesso.
Una recente variante a questo sistema sono gli spazi interattivi che invitano gli utenti a a prendere le proprie decisioni in merito alla riduzione del deficit (il Fiinancial Times si è spinto ancora oltre, includendo  le politiche e le strategie di partito).
Molto comune è anche la personalizzazione geografica: l’utente è invitato ad inserire il proprio codice postale, o altre informazioni di natura geografica, al fine di stabilire l’andamento di determinate questioni nella propria città o area di riferimento.
Una terza personalizzazione riguarda la funzione “i tuoi interessiâ€, come dimostra l’approccio di Popvox ai temi politici e la pubblicazione del Los Angeles Times, Newsmatch.
Le possibilità di personalizzazione sono comunque in espansione. L’esempio di ProPublica mostra come le informazioni relative ai profili Facebook possano essere utilizzate per personalizzare automaticamente l’esperienza di un articolo. Diverse applicazioni, inoltre, offrono la possibilità di presentare le informazioni sulla base della geo-localizzazione fornita via GPS.
Questa tendenza a intrecciare personalizzazione e strategie sociali potrebbe assurgere ad espressione della nostra identità , definendo, ad esempio, dove viviamo, in che misura siamo influenzati e a cosa siamo interessati.
Le previsioni di Facebook ci dicono che entro 3-5 anni tutti i media saranno personalizzati: non è difficile credere che questa sarà la strada battuta dai social network. (La tendenza alla personalizzazione, tuttavia, fa suonare anche qualche campanello di allarme, primo fra tutti quello relativo alla possibilità per motori di ricerca, social network e siti di informazione di decidere al posto nostro, e aprioristicamente, le informazioni che visualizzeremo effettuando una ricerca o accedendo alla home page di un sito – tutto sulla base del nostro profilo digitale. Alcuni osservatori paventano addirittura una sorta di oscurantismo alla fonte dell’informazione).
6. Utilizzo
Il modo più complesso per comunicare i risultati del data journalism è quello di creare una sorta di strumento basato sui dati. I calcolatori sono soluzioni molto comuni, così come i dispositivi basati sul GPS; tuttavia, vi è un ampio margine per applicazioni ancor più complesse parallelamente alla maggiore disponibilità di dati sia da parte dell’editore che dell’utente.
Questo ambito fa emergere anche delle opportunità commerciali. La Reed Business Information, ad esempio, adotta un modello per cui gli utenti sono coinvolti in vari punti della catena della comunicazione – aggiornamenti on-line, riviste cartacee, notizie per mobile – al fine di avvicinarli ad una decisione di acquisto. Lì’idea di base è la seguente: l’informazione accresce il proprio valore quanto più vicina è all’azione dell’utente.
Ad oggi, creare utilità partendo dai dati è un processo relativamente costoso – sebbene tali costi sono destinati a ridursi per via della competizione e della standardizzazione. Ad esempio, l’aumento delle testate che adottano degli standard nell’archiviazione dei dati (attraverso file XML), facilita la creazione di applicazioni che estraggono le informazioni dai dataset. Tali applicazioni, intanto, presentano template sempre più strutturati e sono sempre più indipendenti dalle piattaforme.
Conclusioni
L’ analisi di Bradshaw mostra intere aree del giornalismo digitale tuttora da esaminare debitamente, aree che non sono ancora dotate di convenzioni chiare né di un concetto di best practice. E ci lascia con alcuni interrogativi: cosa determina una buona umanizzazione? E l’utilità ? Quali i migliori esempi di personalizzazione o di data journalism che coinvolgono la dimensione sociale?