Algoritmi per combattere il furto dei contenuti

Il sistema della â€˜â€™Graduated Responseâ€ (due avvisi ai â€˜â€™ladriâ€™â€™ di articoli prima di far partire una causa legale) messo in piedi dalla societÃ ‘Attributor’Â Ã¨ troppo lento e macchinoso e, basandosi esclusivamente su operazioni manuali, Ã¨ insufficiente rispetto alla natura di internet con i suoi 23 miliardi di pagine â€“ Secondo Francois Filloux, lâ€™ algoritmo di Attributor, che ha inventato il sistema, dovrebbe essere fortemente potenziato e ampliato attraverso una acquisizione da parte delle grandi societÃ della Rete, come Google o Bing, o da un consorzio degli editori realizzato ad hoc, per poter intervenire in poche ore puntando soprattutto sul â€˜taglioâ€™ delle inserzioni pubblicitarie – Un articolo su Monday Note elenca i vari tipi di intervento

—–

Fighting Unlicensed Content With Algorithms

di FrÃ©dÃ©ric Filloux

(MondayNote)

Eâ€™ davvero tempo di combattere i ladri di contenuti giornalistici. Un paio di settimane fa, Attributor – http://www.attributor.com/ -, una societÃ americana, ha diffuso le conclusioni di uno studio sullâ€™ uso di contenuti online non autorizzati. Â Il progetto,Â chiamato Graduated ResponseTrial for News, si basa su una forte idea centrale: una volta che unâ€™ infrazione viene verificata, piuttosto che una accanita offensiva legale, una â€œemail amichevoleâ€, secondo il linguaggio di Attributor, chiede gentilmente al responsabile dellâ€™ illecito di rimuovere il contenuto illegale. In mancanza di una risposta entro 14 giorni, arriva una seconda email.

Come secondo passo, Attributor avverte che contatterÃ il motore di ricerca e le agenzie pubblicitarie. Ai primi verrÃ chiesto di eliminare link e indicizzazione verso le pagine colpevoli; ai secondi di rimuovere le pubblicitÃ , cosÃ¬ da far cessare la monetizzazione dei contenuti illegali.

Dopo altri 14 giorni, il sito che si comporta scorrettamente riceve una notifica di â€œsmettere e desistereâ€ e si troverÃ a dover fronteggiare una azione legale piena (i dettagli nel Fair Syndacation Consortium). Attributor e FSC dichiarano con orgoglio che il 75% dei siti negligenti si ravvedono dopo il secondo messaggio. In altre parole, una volta avvisati con le buone, i â€˜â€™ladriâ€™â€™ cambiano atteggiamento e si comportano bene. Forte.

In termini numerici, il Graduated Response Trial for News ha individuato 400.000 oggetti clonati senza licenza su 45.000 siti. Che significa lo sconvolgente dato di 900 usi illegali per sito. Come avevo giÃ raccontato in una mia Monday Note del febbraio scorso , una precedente analisi condotta da Attributor aveva scoperto 112.000 brani copiati da Â articoli di giornali americani su 75000 siti; il che significava una media di 1,5 articoli rubati per ogni sito.

Ma allora, come si puÃ² passare da 1,5 a 900? I due studi non erano stati progettati per essere confrontati, la capacitÃ di localizzazione di Attributor sta crescendo velocemente, il perimetro preso in considerazione era differente, etc. Quando, qualche giorno fa, ho chiesto a Jim Pitkow, CEO di Attributor, che ne pensava diÂ questi numeri, ha ammesso che lâ€™ uso di contenuti rubati in internet Ã¨ in aumento.

Non ci sono dubbi: la tecnologia e gli accordi raggiunti da Attributor con i provider di contenuti e i motori di ricerca sono passi verso la giusta direzione. Ma parliamoci chiaro: per ora, questa Ã¨ una goccia nellâ€™oceano.

Innanzitutto, il sistema â€˜â€™Graduated Responseâ€ testato dallâ€™azienda di San Mateo e dai suoi partner ha bisogno di tempo per produrre i suoi effetti. Una coppia di notifiche in 14 giorni prima di far partire lâ€™ obice legale non ha molto senso considerata la durata del ciclo delle notizie: il valore dellâ€™ oggetto notizia appassisceÂ dellâ€™80% in circa 48 ore. Lâ€™intervallo di 14 giorni tra i due colpi dâ€™ avvertimento non Ã¨ esattamente un deterrente per coloro che fanno affari rubando contenuti. In secondo luogo, il metodo descritto sopra si basa troppo su operazioni manuali: valutare lâ€™ampiezza della violazione, determinare la risposta, notificare, monitorare, notificare nuovamente, etc. A dir poco insufficiente, rispetto alla natura di internet con i suoi 23 miliardi di pagine.

Ecco qual Ã¨ il punto secondo me. Il problema richiede una risposta molto piÃ¹ risoluta e con una ampiezza tale da coinvolgere tutti gli interlocutori: fornitori di contenuti, aggregatori, motori di ricerca, network pubblicitari e aziende. Ecco qui qualche possibile traccia:

1 Attributor dovrebbe essere rilevata da qualche azienda piÃ¹ grossa. Eâ€™ troppo piccola per il lavoro che deve fare. Potrebbero andar bene qualche giorno di ricavi di Google (68 milioni di dollari in 24 ore) o meno di un mese di quelli di Bing. Ancor piÃ¹ intelligentemente potrebbe essere rilevata da un gruppo di editori e testate giornalistiche americane uniti in un consorzio ad hoc.

2 Consigliamo a Google o a BingÂ di acquisire il nocciolo del know-how di Attributor. Si potrebbe poi adattare e ampliare il suo algoritmo in modo da poterlo rendere efficace contro lâ€™intero world wide web â€“ in tempo reale. Due ore dopo che una notizia viene â€œpresa in prestitoâ€ da un editore, questo viene segnalato, il sito riceve una notifica mirata. Potrebbe essere una email, o un commento che si genera automaticamente al di sotto dellâ€™ articolo. O, ancora meglio, un link sponsorizzato ben piazzato come quello fittizio qui sotto:

Inevitabilmente, le pubblicitÃ si prosciugano. Per primi, i network pubblicitari affiliati al sistema smettono di fornire inserzioni. E, in seconda battuta, dato che il motore di ricerca fornisce collegamenti ipertestuali, le inserzioni su pagine orfane diventano irrilevanti. Ogni passaggio Ã¨ automatico.

Pensate ai vantaggi per il motore di ricerca: invece che apparire come il piÃ¹ grande saccheggiatore di internet, diventa il crociato del copyright.

3 Il modello di vendita. Gli editori pagano una quota affinchÃ© i propri contenuti siano rintracciati. Per gli editori piÃ¹ grossi, il costo/beneficio Ã¨ evidente se la quota viene fissata in rapporto alla quantitÃ di entrate pubblicitarie che i â€˜â€™ladriâ€™â€™ ottenevano dalla proprietÃ illecita. In alternativa, se Bing decide di diventare il cavaliere bianco, una tale mossa potrebbe diventare un efficace elemento di differenziazione â€“ reale e in termini di percezione â€“ rispetto a Google.

Naturalmente, da solo il rafforzamento dei sistemi di tracciamento dei contenuti illegittimi basati su algoritmi non sarÃ sufficiente per risolvere gli enormi problemi di pirateria nel campo dellâ€™ informazione. Molti siti fanno affari riscrivendo, elaborando e incrociando storie giÃ pubblicate, oppure â€˜catturandoâ€™ testi che si reggono autonomamente, e generando cosÃ¬ un sacco di visite per pagina a spese degli editori originali. Questa battaglia sarÃ lunga. Ma devâ€™ essere combattuta. Eâ€™ in gioco il denaro guadagnato in maniera seria e legittima.

(traduzione di Stefania Cavalletto)

Articoli correlati

Report 2024 dell’Osservatorio sul giornalismo digitale: alla ricerca del lettore preduto

I principi globali per l’intelligenza artificiale per garantire un futuro sostenibile dell’editoria e del giornalismo

Ricordando Daniele Minotti