Se Google desse un segnale di buona volontÃ â€¦

Potranno mai un giorno Google e gli editori capirsi lâ€™ un lâ€™ altro? Difficile, secondo Frederic Filloux, che ha dedicato al tema un’ ampia riflessione dopo il 62/o Congresso dellâ€™ Associazione mondiale dei giornali (WAN), dove il â€˜â€™dagli a Googleâ€™â€™ Ã¨ stato un poâ€™ il motivo conduttore – Gli editori sono un po’ gli artigiani dellâ€™ informazione e Google rappresenta la grande industria e, secondo Filloux, Ã¨ stupefacente vedere a Mountain View un tale dispiegamento di cervelli rovinare un rapporto cosÃ¬ importante e significativo come quello con il mondo dei media, mentre ci sarebbero varie misure, indolori, che Google potrebbe prendere per allentare un poâ€™ la tensione
(nella foto FF, l’ avvocato di Google, David Drummond al termine del suo intervento al Congresso WAN)
———-

di FrÃ©dÃ©ric Filloux
(MondayNote)

Come avevo scritto nella nota precedente (vedi The Misdirected Revolt of the Dinosaurs) il momento culminante al Congresso della WAN Ã¨ stato il â€˜dibattitoâ€™ fra il presidente degli editori, Gavin Oâ€™Reilly e il capo dellâ€™ Ufficio legale di Google, Dave Drummond. Uno viene da Alpha Centauri, lâ€™ altro, dice, da Pandora.

Il punto di vista degli editori Ã¨ qui e quello dellâ€™ avvocato di Google qui.

In poche parole, gli editori lamentano le sempre piÃ¹ frequenti violazioni del copyright da parte di Google. Instancabili, i robot di Google dragano internet, indicizzando e mostrando dei ritagli su Google News, senza pagare un centesimo per i contenuti che pubblicano. Alla fine, ha detto Gavin Oâ€™ Reilly, â€˜â€™Google fa un sacco di soldi sulle nostre spalleâ€™â€™.

Dave Drummond replica: â€œNoi mandiamo sulle notizie online degli editori circa un miliardo di click al mese tramite Google News e piÃ¹ di 3 miliardi di visitatori provengono dal motore di ricerca e da altri servizi di Google. Si tratta di 100.000 opportunitÃ di guadagno â€“ per le inserzioni o le offerte di abbonamento â€“ ogni minute. E non chiediamo un soldo per questo!â€™â€™. Aggiungenbdo che il comportamento di Google Ã¨ assolutamente in linea con i principi del Fair Use.
Il Fair Use Ã¨ solo â€˜â€™noiosa retoricaâ€™â€™, ha affondato Oâ€™Reilly.

A questo punto la discussione diventa tecnica. E interessante. E tira in ballo una evoluzione cruciale del copyright, da una forma binaria (autorizzato â‰ proibito) a un concetto piÃ¹ variegato (lâ€™ uso Ã¨ consentito ma vi sono delle restrizioni). Questa evoluzione del copyright Ã¨ legato al Creative Commons (coniato dal giurista Lawrence Lessig), che definisce una nozione di proprietÃ intellettuale dalla forma non rigida ma adattabile.

Qui câ€™ Ã¨ il primo intoppo: come si traduce una costruzione intellettuale come il copyright flessibile in un protocollo digitale? A Hyderabad, gli editori hanno rinfocolato la discussione sul modo migliore per proteggere i loro materiali giornalistici. Eâ€™ il Robots.txt contro il cosiddetto ACAP.

Robots.text Ã¨ un protocollo del 1994 (due anni prima che Google nascese), erano I primi giorni di Internet. E funziona cosÃ¬:
– Sono un editore online. Nella struttura del mio sito decido di aprire delle sezioni (directory) ai robot dei motori di ricerca. I risultati della ricerca possono essere â€˜â€™digeritiâ€™â€™ da aggregatori come Google News. Ma, per ragioni come delle restrizioni su materiali non miei, una parte del mio sito deve essere protetta dallâ€™ utilizzo da parte di Google.
Come protezione contro il prelievo non voluto, inserirÃ² due righe di codice nel mio sito:

User-agent: *
Disallow: /

La prima riga conterrÃ il niome dekl robot che io voglio escludere (â€*â€ significa tutti) e la seconda riga specifica le directory che voglio proteggere.

Per esempio:

User-agent: Googlebot
Disallow: /sport-foot-ligue1/
Disallow: /sport-football/
Disallow: /sport-rugby-top14/
Disallow: /sport-rugby/

In questo caso, il sito del quotidiano france lemonade impedirÃ che il robot di indicizzazione di Google scavi nelle directory sportive, in particolare calico e rugby.

Eâ€™ semplice. Per avere una idea delle varie politiche di protezioni che vengono scelte dai vari siti, basta digitare lâ€™ extension â€œrobots.txtâ€ dopo lâ€™ Url.

Per esempio: http://www.timesonline.co.uk/robots.txt. Si vedrÃ lâ€™ elenco di tutti i robot che il London Times vuole â€œvietareâ€. Abbastanza interessante Ã¨ il fatto che, anche se Rupert Murdoch Ã¨ in prima fila nela crociata anti-Google, il noto giornale inglese di sua prioprietÃ non esclude Google del tutto; cosÃ¬ come The Australian, un’altra storica proprietÃ di Murdoch che Ã¨ piÃ¹ tollerante nei confronti dei robot (vedere qui). Io amo questa duplicitÃ â€“ scusate, questo pragmatismo. (Ora lo scontro Ã¨ sul contratto pubblicitario con MySpace).

Di fronte a robots.txt, un protocollo goffo ma molto semplice, ce nâ€™ Ã¨ ora uno molto piÃ¹ moderno: ACAP. Sta per Automated Content Access Protocol ed Ã¨ stato creato nel 2006. Ma, cosa molto piÃ¹ importante, Ã¨ sostenuto da 150 editori e della WAN.
Ecco.

ACAP e Robots.txt sembrano simili: semplici righe di codice, messe al punto giusto per definire I file e le directory da escludere. Anche se ACAP Ã¨ un pâ€™ piÃ¹ sofisticato. Infatti, in particolare, puÃ² indicare:
â€¢ quante righe di un articolo il robot puÃ² riprendere
â€¢ se deve realizzare una sintesi (snippet)
â€¢ a che ora il sistema puÃ² scavare in quale parte del sito, ad esempio â€œ0700-1230 GMTâ€
â€¢ a quale velocitÃ scavare
â€¢ bloccare I link a una parte del sito
â€¢ definire un termine di validitÃ della sintesi
â€¢ decidere a quale paese (tramite i numeri di IP) Ã¨ consentito vedere e che cosa (ma qui siamo alla balcanizzazione di internet, pessima idea)
â€¦ ecc.

Qual Ã¨ il migliore? ACAP in teoria. Infatti aumenta drammaticamernte la granularitÃ delle condizioni di uso di ciascun determinate contratto. Comunque, per avere una prospettiva piena e, credo, equilibrata, si puÃ² leggere un dettagliato articolo su Search Engine Land.

Ma câ€™ Ã¨ un secondo problema: Google ignora ACAP; la posizione dellâ€™ azienda Ã¨ che il protocollo Robots.txt fa abbastanza per proteggere i contenuti. Da qui la collera del presidente della WAN.

Ho chiesto a FranÃ§ois Bourdoncle, CEO del motore di ricerca francese Exalead il suo punto di vista sul conflitto. Nel 2007, Exalead era diventata il partner tecnico di un consorzio editoriale che desiderava un sistema migliore di Robot.txt. (Exalead realizzÃ² un prototipo pro bono). Se consideriamo miglior protocollo quello che Ã¨ piÃ¹ ampiamente adottato, ACAP Ã¨ fritto: la sua versione 1.1 Ã¨ stata adottata da 1250 editori, contro le 20.000 fonti che restano sotto GoogleNews.

FranÃ§ois Bourdoncle offre la migliore analogia per descrivere lâ€™ antagonismo fra media online e Google: â€˜â€™Eâ€™ lo scontro fra gli artigiani dellâ€™ informazione e gli industrialiâ€™â€™. Da una parte ci sono gli editori: maneggiano migliaia di documenti ciascuno sui loro siti web. E firmano dei complicati contratti di copyright, con delle clausole che definiscono ogni sfumatura del diritto degli autori. Dallâ€™ altra parte ci sono quelli di Google. Per loro lâ€™ unitÃ di misura Ã¨ il miliardo di documenti. Non câ€™ Ã¨ spazio per le finezze, lÃ . Il problema Ã¨ che si tratta di processi di massa, qualcosa che puÃ² essere affrontato solo con gli algoritmi. E quindi con il metodo Google.

Gli editori vogliono essere in grado di definire il numero di righe che un robot puÃ² estrarre da un articolo? Google dirÃ : io voglio essere lâ€™ unico che puÃ² definire come i miei risultati di ricerca (su Google News) devono attualmente apparire; se il sito x vuole una sintesi limitata a 3 righe e il sito y ne vuole 9, sarÃ un casino. Quando i geek di Googleplex decideranno che Ã¨ il momento, aggiorneranno il protocollo Robots.txt per renderlo piÃ¹ vicino ad ACAP e mantenere il proprio protocollo, che Ã¨ il piÃ¹ diffuso.

Ma qui Google sta facendo una brutta politica. Eâ€™ stupefacente vedere un tale dispiegamento di cervelli rovinare un rapporto cosÃ¬ importante e significativo come quello con lâ€™ industria dei media. Qui di seguito qualche misura che Google potrebbe prendere per allentare un poâ€™ la tensione:

1. Robots.txt Ã¨ uno strumento vecchio. OK, piÃ¹ o meno fa ancora il suo lavoro, ma Google potrebbe adottare lâ€™ ACAP immediatamente.
2. In alternativa, potrebbe fare qualcosa di simile, insieme con gli editori. Contrariamente a quello che dice WAN, ciÃ² non potrebbe modificare il declino economico dellâ€™ informazione online, ma potrebbe essere un apprezzato gesto simbolico.
3. Google potrebbe organizzare quanto prima possibile un serio lavoro di verifica delle posizioni degli editori sul copyright, ma anche sulle questioni del traffico, della condivisione dei ricavi e dei pay wall. In tutte le principali testate editoriali del mondo ci sono un sacco di persone intelligenti che gestiscono grossi siti e che non hanno dei pregiudizi anti-Google. Potrebbero essere interpellati per discutere di proposte e risposte concrete

Il peggior errore che Google potrebbe fare in questo momento sarebbe di continuare a ignorare le lamentele degli editori. Ogni grande testata lo sa: Google ora domina il mondo dellâ€™ editoria online. Ma col dominio vengono anche i doveri. Mostrare magnanimitÃ potrebbe essere unâ€™ ottima tattica. PerchÃ© Ã¨ venuto alla luce un nuovo elemento. Eâ€™ il motore di ricerca di Microsoft, Bing, che sta aspettando di capitalizzare tutta la rabbia di tutti gli editori del mondo. Gli ingegneri di Googleplex potrebbero integrare questo nel loro algoritmo primario.

Articoli correlati

Report 2024 dell’Osservatorio sul giornalismo digitale: alla ricerca del lettore preduto

I principi globali per l’intelligenza artificiale per garantire un futuro sostenibile dell’editoria e del giornalismo

Ricordando Daniele Minotti