Dieci strumenti per un un buon Data journalism

Mappa

Usando  la tecnica tradizionale del decalogo (diffusissima nella cultura giornalistica Usa – tipo ‘’le x cose da imparare per…’’) Troy Thobodeaux ha scritto per Poynter.org un articolo che elenca i 10 strumenti che possono rendere più efficace il Data Journalism – Dai fogli di calcolo ai sisemi di interrogazione dei data base, dai dispositivi per la ‘pulizia’ dei dati agli strumenti per la visualizzazione, fino ai processi di analisi di document set – Un approccio molto didattico, che può essere utile a chi si avvicina in modo non superficiale al giornalismo basato sui dati

———-

10 tools that can help data journalists do better work, be more efficient

di Troy Thibodeaux
(traduzione a cura di Claudia Dani)

È difficile rispondere adeguatamente all’ insieme delle pratiche che vanno sotto il nome di data journalism, visto che chi se ne occupa deve scoprire e applicare continuamente un mix di nuovi di strumenti.

Agli esordi,  come giornalista di data journalism,sarà necessario afferrare il senso degli strumenti che altri stanno già utilizzano. Non vanno compresi ad usati tutti in un solo colpo e nemmeno bisogna andare avanti tramite tentativi. È necessario sviluppare una piena consapevolezza degli strumenti che si utilizzano. E si può creare una lista di programmi e dispositivi da controllare costantemente, studiando le varie prove insieme ai codici che vengono utilizzati.

A questo punto, quando ci sarà bisogno di passare ai progetti, si sarà in grado di ricordare abbastanza per poter iniziare a servirsi di quegli strumenti.

Inizialmente però  vanno scelti uno o due strumenti che devono diventare quasi parte del proprio DNA. Di ogni strumento va scoperta ogni possibilità. Bisogna essere costantemente aggiornati su qualsiasi pubblicazione che li riguardi. Bisogna conoscerne ogni idiosincrasia e registrare tutti i suoi miglioramenti. V E solo quando c’ è una prova che esiste una via più semplice per fare una determinata operazione si può passare ad utilizzare un nuovo strumento.

Qui di seguito i 10 strumenti essenziali per il Data Journalism.

1. I fogli di calcolo (Spreadsheet)

Quasi tutti i i giornalisti di DJ iniziano utilizzando il foglio di calcolo.
Il foglio elettronico ha un formato universale in particolar modo se lo si usa salvando senza formattazione, semplicemente come un insieme di valori separati da virgole.

Ognuno di noi possiede già un programma di foglio di calcolo o può, semplicemente, fare il download di una versione gratuita. I programmi di Spreadsheet più aggiornati sono molto versatili.

Ci sono molti siti  e corsi disponibili per aiutare a sviluppare le capacità dell’utilizzo di un foglio di calcolo. Partendo dalla scelta dell’ applicazione di filtri fino a giungere a formule più avanzate. Nel momento in cui si impara ad utilizzare le formule,si può provare a crearle direttamente, piuttosto che utilizzare l’aiuto del computer.  Questa pratica aiuta a fornire una conoscenza maggiore delle formule che utilizzate e aiuterà ad iniziare a esprimere le proprie idee tramite codici, che saranno gestiti facilmente non appena si utilizzano gli altri strumenti.

2. SQL (interrogazione di database)

Dopo un po’ dovrebbe essere naturale sentire il limite dell’utilizzo del foglio di calcolo. Molti giornalisti utilizzano sistemi di interrogazione dei database, SQL (Structured Query Language) come Access SQLite, MySQL, PostgreSQL, quando hanno più di due fogli di calcolo da condividere o un grosso numero di dati da cercare.

Lo SQL permette di descrivere esattamente il sottoinsieme di dati che si vuole estrarre o gli esatti cambi che si vogliono applicare e permette di modificare le query attraverso insiemi di dati relativi.

È possibile salvare i comandi utilizzati in modo tale che ogni cosa che è stata fatta con  i dati sia documentata e si possa automaticamente ripetere passo per passo in eventuali rimaneggiamenti di quei dati nel futuro.

La maggior parte dei programmi di database  usa gli stessi schemi di SQL in modo che, una volta che si è appresa la base (circa 24 gruppi di parole chiave e alcuni sistemi di punteggiatura), si possono utilizzare database di diversi sistemi operativi: sia quelli gratuiti che quelli in vendita. Anche i database relazionali sono frequentemente usati per vendere e raccogliere dati nelle applicazioni Web, e così  la conoscenza di SQL appresa è immediatamente utilizzabile anche per lo sviluppo del web.

3. Strumenti per la ‘’pulizia’’ dei dati

RefineTutti gli insiemi di dati sono ‘’sporchi’’: è necessario ricordarselo ogni volta che ci si mette al computer. Per pulire i dati e averli in un formato utilizzabile vi sono una varietà di strumenti: il mio preferito è Google Refine, assomiglia ad un foglio di calcolo, ma è pensato per dati come i nomi standardizzati, in modo che si possono effettuare calcoli  affidabili. (John Smith, Smith John e John Q. Smith andranno contati come una sola persona non come tre, per esempio).

Utilizzando Google Refine Expression Language, sarà possibile modificare dati sofisticati e si farà un altro passo avanti verso l’ uso diretto di un codice.(Data Wrangler è uno strumento con alcune funzioni simili a Refine che vale la pena di provare).

È necessario essere consapevoli degli strumenti del sistema operativo che si utilizza perché questi  possono aiutare a gestire i file e i dati.  Se si utilizza Linux o Mac si avrà a disposizione sed, awk,grep e find. (naturalemente esistono anche strumenti per Windows).  Utilizzando queste applicazioni è possibile iniziare a esplorare e utilizzare i propri dati senza dover aprire un foglio di calcolo o un programma di database.

E mentre si sta studiando l’insieme di comandi, va controllato CSVKit che è un pacchetto di strumenti, sviluppato da giornalisti, che aiuterà nella conversione del proprio lavoro in un formato comune.

4. Strumenti di visualizzazione

Visualizzazione non significa decorazione. Non si tratta semplicemente di qualcosa che accompagna e illustra i dati. E’ invece una funzione essenziale rispetto al compito. Una buona visualizzazione permette di vedere linee di tendenza apparentemente invisibili, migliorando profondamente la comprensione dei dati.

Molte applicazioni per gli Spreadsheet includono strumenti per  tabelle e grafici (spesso per una visualizzazione più sofisticata bisogna affidarsi all’acquisto di add-ins). Due strumenti di visualizzazione basati sul web stanno raggiungendo un prezzo avvicinabile.  Provate Google Fusion Tables e Tableau Public. Entrambi sono semplici da utilizzare e offrono risultati impressionanti.

E’ possibile comunque scegliere anche qualcosa di più flessibile e potente. Gli esperti per esempio, spesso, si rivolgono a qualcosa come l’open source R, un pacchetto di statistica, che combina un’analisi molto potente e strumenti di visualizzazione attraverso un  linguaggio di programmazione sofisticato.

5. Software di mappatura

Google Fusion e Tableau Public includono possibilità di mappatura veloci e intuitive. Nel caso non troviate quello di cui avete bisogno, controllate anche sul pacchetto di mappatura QGIS. ( Oppure se la redazione ha una licenza di riserva, ArcView è un opzione in vendita valida).

Esistono anche estensioni spaziali di database che possono aiutare nel rispondere a questioni geografiche riguardanti i dati. Essi ampliano le capacità di SQL  includendo query e domande riguardanti aspetti geografici. PostGIS e SpatialLite sono soluzioni di questo tipo, gratuite e popolari.

6. Scripting language

Scegliete un linguaggio, comprate il relativo manuale e risolvete il problema. Imparare a programmare espanderà velocemente la vostra abilità nel campo del Data Journalism. Il governo non rilascia i dati che stanno dietro un sito web? Basta scavare per averli . Non si hanno i dati nel formato corretto utilizzando gli strumenti a disposizione? Basta costruirne uno proprio. C’ è una forte potenza disintossicante nel trasformarsi da semplice utente di un software a uno che quel software se lo programma.

Non importa quale linguaggio si scelga, anche se Python e Ruby sembrano essere al momento favoriti fra i giornalisti.

Se qualcuno che conoscete già usa Perl o PhP, vi potrà aiutare ad imparare ad utilizzarli. Una volta imparato un linguaggio, poi è più facile imparare il secondo. Imparare a pensare come programmatore è ben più  importante che imparare una sintassi specifica.

Se si inizia a ‘‘scavare’ nel web, sarà utile date un’ occhiata alla guida di ProPublica scrapting. ScraperWiki è un altra possibilità per iniziare e imparare attraverso gli esempi.  Learn to program è, invece, una potente introduzione alla programmazione e ai concetti di programmazione per l’utilizzo di Ruby come linguaggio..

7.  Web framework

Sia se stiamo costruendo degli strumenti per noi sia se lo stiamo facendo per gli altri, nel momento in cui  si programma per il web è necessario un  Web framework: Django per Python, Rails per Ruby, Symfony per il PHP, Catalyst per Perl, basta scegliere. Un framework permetterà di lasciare noia e lavoro ripetitivo fuori dalla stanza, aiuterà a seguire pratiche migliori, ad organizzare e rendere più semplice la collaborazione con gli altri.

Molti framework sono dotati di un’installazione semplice che può aiutare e andrà ad alleviare un po’ il panico di chi comincia. Si può dare un’ occhiata a Bitnami Django e Ruby, per esempio.

Se si vuole che la propria applicazione web sia sempre più un’applicazione da desktop, è necessario sapere di più su Javascript, in particolar modo su jquery.

8. Un editor flessibile

Per scrivere codici è necessario un editor. Ma deve essere un editor che non inserisce caratteri ‘fantasiosi’ nel testo (come Word di Micrososft) ma si basi su segni appropriati, che riescano a delineare sintassi specifiche di linguaggio, che aiuteranno facilmente ad identificare le parole chiave e elementi di altri linguaggi  mentre si scrive.

Non c’è modo migliore per scatenare un conflitto fra nerd che chiedere quale sia l’ editor migliore. TextMateer Mac è una delle opzioni in commercio. E Notepad++ per Windows è una buona alternativa gratuita. Esistono infinite possibilità di open source personalizzabili, come VIM e Emacs. Bisogna essere preparati a interpretare un grafico per ognuno di questi software. Forse, alcuni programmatori java potranno suggerire la necessità di un completo Integrated Development Environment.  Quando comnunque si insegna a qualcuno un codice è bene adottare l’ editor scelto e imparare ogni short cut  e trucco di configurazione  ad esso relativo. Un editor è il più personale degli strumenti e farà sentire come a casa propria una volta appreso.

9. Controllo di revisione

Non fate errori? Non volete cooperare con altri? Allora forse non è necessario uno strumento di controllo. Ma sarà meglio utilizzarlo se si vuole avere un modo elegante per salvare i backup o tirare fuori elementi da versioni temporanee di file o se si vuole condividere il lavoro con altri.  Forse lo strumento più semplice per il controllo di revisione è usare GitHub; ma si può anche installare Git o Subversion sul pc.

10. Strumenti di analisi dei gruppi di documenti


Probabilmente la più eccitante frontiera nel Data Journalism è il tentativo di trattare i document set (gruppi di documenti) come dati. DocumentCloud ha un’ interfaccia semplice per il formato pdf, permettendo la ricerca nel documento e l’ estrazione di punti d’ interesse.

Jigsaw è un software utile per la navigazione all’interno di un document set. Alla fine verrà il desiderio di  esplorare dall’ interno i linguaggi di pacchetti come Python’s natural Language Tool kit o Standford CoreNLP. E siccome i giornalisti hanno appena sfiorato la superficie di quest’area, nuovi strumenti che trattino i documenti come dati stanno emergendo sempre più.