Fra 15 anni il 90% delle notizie saranno generate dai computer

NarrativeScience

Kris Hammond,  co-fondatore di un’ azienda americana che produce sistemi per la generazione automatica di articoli dai dati, ne è convinto – E spiega perché, indicando in questo articolo tre tendenze in atto: la progressiva quantità di elementi disponibili; la capacità di estrarre dati dalle narrazioni linguistiche; i processi di personalizzazione spinta delle informazioni

—–

di Kris Hammond
(Co-fondatore e responsabile delle tecnologie di Narrative Science)

Quante notizie verranno generate dai computer fra 15 anni, mi era stato chiesto qualche giorno fa? Ero riluttante nel rispondere che dovrebbero essere nell’ ordine del 90%: la mia riluttanza dipendeva dal fatto che mentre per me questo dato era inevitabile, provavo una notevole dose di angoscia nel comunicarlo ai miei interlocutori. Quindi ho pensato che fosse una buona cosa spiegare che cosa significava e per quale motivo io lo ritenevo realistico sulla base dei trend attuali dell’ informazione e della tecnologia.

La disponibilità dei dati

Prima cosa: visto che stiamo parlando di contenuti generati tramite dati e che per una macchina i dati sono meno ambigui di un testo redatto da un uomo, è evidente che una delle chiavi del processo sarà la disponibilità dei dati stessi. Non c’ è nessun dubbio sul fatto che sempre più dati – sport, finanza, immobiliare, governo, affari, politica ecc. – stanno andando online. La tendenza è chiara, inarrestabile ed è socialmente apprezzabile per chi crede nella trasparenza.

E visto che sono sempre di più le transazioni e le operazioni commerciali ed economiche che avvengono online e vengono registrate, si creano dei nuovi tipi di dati che descrivono il mondo e come esso funziona.

A mano a mano che la tendenza crescerà, ci saranno opportunità sempre maggiori di scavare fra questi dati, individuare dei nessi e trasformarli in ”racconti” che possano aiutare i cittadini ad informarsi. Molti dei compiti collegati al giornalismo dei dati come viene fatto ora verranno lasciati alle macchine (sotto il controllo dei redattori) e ci consentiranno di produrre delle storie interessanti su una scala del tutto diversa, determinata appunto dalla grande quantità di dati che rappresentano meglio il nostro mondo.

Questa tendenza riguarda soltanto i dati presi come tali. I dati non sono ambigui e sono leggibili dalle macchine molto meglio delle informazioni testuali, che per ora sono comprensibili solo ai lettori umani. Il mondo del  testo leggibile-dall’uomo è un’ altra cosa. E questo ci porta alla seconda tendenza.


Tradurre i testi in dati

Su una strada parallela, i sistemi di interpretazione del linguaggio e di estrazione dei dati stanno migliorando a tal punto che gran parte dell’ informazione che al momento è leggibile dagli umani ma impenetrabile per i computer verrà anch’ essa trasformata in dati; dati che possono essere usati come elementi per la produzione di nuovi racconti.

Questo significa che la descrizione testuale di fatti, incontri di governo, annunci delle imprese, oltre al flusso continuo dei social media, sarà processato e trasformato, non tanto da macchine in grado di leggere i testi, quanto da sistemi in grado di rappresentare quello che sta avvenendo nel mondo.

Si tratta di nuovi dati, che saranno integrati con i data base espandibili che sono già a disposizione.
Servizi che già vengono realizzati, come statistiche sportive, prezzi dei mercati, dati sull’ occupazione, ecc., verranno ‘’aumentati’’ e potenziati con informazioni, a loro volta trasformate in dati, sui comportamenti dei compratori fuoricampo, strategie economiche, riunioni amministrative in modo da consentire ai sistemi a guida umana di creare automaticamente storie più ricche, che intrecceranno insieme numeri e vicende.

In più, noi continuiamo a ragionare in termini di contenuti in senso generico, di materiali diretti alla gente in generale, limitando così la portata del processo di creazione dei contenuti. Cosa che introduce un terzo elemento: la scala e la personalizzazione.


Scala e ‘coda lunga’

Via via che il giornalismo si adatta al nuovo mondo, diventa chiaro che in molti settori c’ è un bisogno crescente di contenuti più specifici e diretti a audience più ristrette. Questo contenuto più mirato, che avrebbe uno scarso valore a livello di massa, ha un grosso fascino per audience più piccole, di nicchia. Articoli e servizi sugli sport e l’ economia locali, la criminalità, l’ attività amministrativa saranno interessanti per pubblici ristretti ma per questi ultimi questi contenuti saranno di grande portata informative e di notevole utilità.

Il problema, naturalmente, è che questi pubblici sono spesso troppo piccoli per sostenere il tipo di copertura giornalistica di cui avrebbero bisogno. I costi di una copertura dei campionati minori, come la Little League, ad esempio, la rendono impraticabile per una normale redazione. Logisticamente e finanziariamente, è impossibile per una testata produrre centinaia di migliaia di articoli, ciascuno dei quali verrebbe poi letto da non più di 50 persone.

Via via che però i dati diventano disponibili e l’ informatica sviluppa una maggiore comprensione degli eventi, nasce la possibilità di creare contenuti come quelli su grandissima scala. Si tratta di una opportunità sensata, concretamente possibile, attraverso la creazione computerizzata di articoli.

Un computer può scrivere dei rapporti di cronaca nera altamente localizzati, dei resoconti personalizzati degli andamenti azionari, cronache sportive dei campionati giovanili su una scala tale da poter assicurare una copertura che prima sarebbe stata impossibile e che non sarebbe mai possibile in un mondo di contenuti generati unicamente dagli umani.


Uomo e macchina

Queste tre tendenze messe insieme (ma ce ne sono anche altre) forniscono l’ opportunità di usare i computer per creare in maniera automatica contenuti che possono servire comunità finora del tutto ignorate dal mondo del giornalismo professionale e della produzione di servizi di informazione.

Creando contenuti che integrano i dati già esistenti e fornendo storie di taglio non solo locale, ma addirittura personalizzate, questi sistemi faranno leva su una ‘’coda lunga’’ di bisogni e di interesse.

Più ci saranno dati disponibili e più le persone potranno ricevere informazioni rilevanti e di forte carica informativa a livello personale,  i sistemi cominceranno a produrre su una scala molto maggiore rispetto al ‘’nanismo’’ di oggi. Poiché gran parte di questa produzione sarà destinata a individui, essa non sarà mai troppa, ma potrà fornire invece un nuovo tipo di esperienza in cui le notizie sugli avvenimenti del giorno e i fatti internazionali verranno forniti in un contesto personale, che le renderà più comprensibili e rilevanti.

Insomma, che fra cinque anni il 90% delle notizie saranno generate dai computer mi sembra non solo ragionevole, ma inevitabile.