Nel loro conflitto con Google, i media tradizionali sono convinti che il motore di ricerca abbia bisogno di loro per affinare (e monetizzare) il suo algoritmo. Ma i fatti, i dati, dicono il contrario, racconta Frédéric Filloux in un’ ampia analisi sul suo ultimo Mondaynote  – Per Google l’ apporto da parte dei giornali, dei media tradizionali, è del tutto marginale (dell’ ordine di un uno a mille), sia in termini di contenuti che di risorse economiche – Ma il gigante di Mountain View continua a presidiare il campo dell’ informazione giornalistica perché non può farne a meno, viste le sue mire imperiali sull’ universo del web: nel suo progetto di dominio dell’ universo semantico, conquistare ‘’territori’’ è centrale – E la cosa diventa ancora più importante alla luce del duro lavoro che G sta facendo per la sua prossima transizione: trasformarsi da motore di ricerca a motore di conoscenza
The press, Google, its algorithm, their scale
di Frédéric Filloux
(…) Nell’ Universo di Google – attualmente circa 40 miliardi di pagine indicizzate – i contenuti provenienti dai media costituiscono una piccola frazione.
Qualcuno dice che si tratta di una percentuale a una sola cifra. Mettendo le cose in questa prospettiva, in media, un giornale online aggiunge fra 20.000 e 100.000 nuove url all’ anno. Complessivamente, il rapporto a grandi linee è di milioni di nuovi articoli rispetto a una crescita di miliardi di pagine all’ anno.
Passiamo ora all’ analisi del tipo di ricerche. Usando Google Trends per gli ultimi 3 mesi, le tabelle qui sotto mostrano la classifica dei termini più cercati in Usa, Francia e Germania:
Fate voi stessi un test andando su Google Trends: noterete che, a parte gli argomenti che in questo periodo dominano negli Stati Uniti (“Hurricane Sandy†o “presidential debateâ€), veramente pochissimi sono i risultati delle ricerche che provengono dai media mainstream. Al contrario i media ‘’web nativi’’ e i siti specializzati hanno dei risultati molto migliori delle edizioni web delle testate tradizionali.
E sul piano dei soldi? Come contribuiscono i contenuti dei media alla struttura economica di Google? Guardiamo di nuovo alla classifica delle parole chiave più costose, quelle che possono arrivare fino a 50 dollari a click all’ interno di questo opaco sistema del pay-per-click.
Per esempio questa recente classifica realizzata da Wordstream:
Insurance (“buy car insurance online†and “auto insurance price quotesâ€)
Loans (“consolidate graduate student loans†and “cheapest homeowner loansâ€)
Mortgage (“refinanced second mortgages†and “remortgage with bad creditâ€)
Attorney (“personal injury attorney†and “dui defense attorneyâ€)
Credit (“home equity line of credit†and “bad credit home buyerâ€)
Lawyer (“personal  injury lawyerâ€, “criminal defense lawyer)
Donate (“car donation centersâ€, “donating a used carâ€)
Degree (“criminal justice degrees onlineâ€, “psychology bachelors degree onlineâ€)
Hosting (“hosting ms exchangeâ€, “managed web hosting solutionâ€)
Claim (“personal injury claimâ€, “accident claims no win no feeâ€)
Conference Call (“best conference call serviceâ€, “conference calls toll freeâ€)
Trading (“cheap online tradingâ€, “stock trades onlineâ€)
Software (“crm software programsâ€, “help desk software cheapâ€)
Recovery (“raid server data recoveryâ€, “hard drive recovery laptopâ€)
Transfer (“zero apr balance transferâ€, “credit card balance transfer zero interestâ€)
Gas/Electricity (“business electricity price comparisonâ€, “switch gas and electricity suppliersâ€)
Classes (“criminal justice online classesâ€, “online classes business administrationâ€)
Rehab (“alcohol rehab centersâ€, “crack rehab centersâ€)
Treatment (“mesothelioma treatment optionsâ€, “drug treatment centersâ€)
Cord Blood (“cordblood bankâ€, “store umbilical cord bloodâ€)
Ecco, ora si capisce dove voglio arrivare. Per come sono fatti, i media tradizionali non portano soldi alla classifica qui sopra. In più, come mi ha detto un amico dall’ interno di Google, nessuno mette pubblicità collegandola ad argomenti come ‘’guerra in Siria’’ o con i 3,2 miliardi di risultati alla ricerca con il termine ‘’Hurricane Sandy’’.
Ma allora perché a Google sono così interessati all’ informazione giornalistica? Perché è stato mantenuto Google News negli ultimi dieci anni, in tante lingue, senza ricavare un centesimo (non ci sono inserzioni in quelle pagine)?
La risposta viene dalla missione di Google come la ‘’grande memoria’’ di Internet. Essere il numero uno nelle ricerche va bene ma non basta. Nel suo progetto di dominio dell’ universo semantico, conquistare ‘’territori’’ è centrale. In questo contesto un ‘’territorio’’ potrebbe essere un ambiente semantico considerato decisivo nella vita quotidiana di tutti gli uomini, oppure uno con un’ alto potenziale di monetizzazione.
Ecco due esempi recenti di potenziale monetizzazione dal punto di vista di Google: voli e assicurazioni. Siccome (è facile rendersene conto) quelle relative ai voli sono le informazioni più cercate sul web, Google ha attinto alle sue immense riserve di liquidità acquistando, per 700 milioni di dollari, il software ITA nel luglio 2010.
ITA era la più grande azienda di ricerche nel campo dei viaggi aerei ed alimentava società come Expedia e TripAdvisor. Com’ era prevedibile, il gigante delle ricerche, nel settembre 2011 aveva lanciato Goolge Flight Search. Dimostrando la sua abilità nel distruggere qualsiasi possibile concorrenza.
Lo stesso nel settore delle assicurazioni, la parola chiave più costosa, dove recentemente Google ha messo a punto un sua servizio di confronto delle polizze assicurative nel  Regno Unito…  dopo aver lanciato un sistema analogo per le carte di credito e i servizi bancari.
Negli ultimi dieci anni, Google è diventato uno strumento di ricerca nel campo dei brevetti, e per i lavori scientifici attraverso Google Scholar. Dopo che lo stesso era avvenuto per lo shopping, i libri, gli alberghi.
Parallelamente a questa strategia di diventare il principale – se non l’ unico – punto di accesso al web, il motore di ricerca sta lavorando duro per la sua prossima transizione: trasformarsi da motore di ricerca a motore di conoscenza.
All’ inizio di quest’ anno ha creato Knowledge Graph, un sistema che connette i termini delle ricerche a quelle che vengono chiamate entità (nomi, luoghi, eventi, cose) — milioni e milioni. Questo è il prossimo grosso salto di Google. Anche in questo caso qualcuno potrebbe pensare che l’ insieme del sistema dell’ informazione giornalistica potesse costituire il più abbondante bacino di informazioni da inserire nella struttura del Knowledge Graph. Purtroppo non è così. Al cuore del sistema c’ è Metaweb, rilevato nel luglio 2010. Uno dei suoi assett chiave era un database di 12 milioni di ‘’entità ’’ (ora diventate 23 milioni) chiamato Freebase.
Questo database viene alimentato da fonti (l’ elenco è qui) che vanno dall’ International Federation of Association Football (FIFA) alla Library of Congress, da Eurostat a India Times.
Quest’ ultima è una delle appena 10 testate giornalistiche presenti nelle 230 fonti. Perché?
Ancora, per il volume dei dati e per la mancanza di capacità , cosa forse ancora più importante, di strutturarli in maniera appropriata. Se il New York Times ha circa 14.000 titoli sotto cui organizza il proprio archivio, la maggior parte degli altri giornali ne hanno solo centinaia e un numero analogo di ‘’entità ’’ nel proprio database.
In confronto le testate digitali native sono molto più portate all’ indicizzazione: l’ Huffington Post assegna fra le 12 e le 20 parole chiave a ciascun articolo. Basandosi su acquisizioni come il Freebase di Metaweb, Google ha ora quasi mezzo miliardo di titolini di tutti i tipi.
I media tradizionali devono fare i conti con questa dura realtà : nonostante il loro ruolo nella promozione e nella difesa della democrazia, nel sollevare il velo su vicende di estremo interesse per la società o nel far propagare nuove, quando si parla di dati i mezzi di informazione giocano nei campionati giovanili. E per Google, la più grande azienda di raccolta e gestione di dati nel mondo, avere gli articoli dei quotidiani nel suo sistema di ricerca è soltanto una piccola astuzia.