Proteggere un sito dalle scansioni di un bot indesiderato

Il sito Perishable Press ha reso noto qualche settimana fa di aver adottato una contromisura molto interessante per i bot indesiderati, ovvero per quegli script automatici che stressano non poco un sito alla ricerca di dati, per esempio indirizzi email da spammare oppure immagini da scaricare in massa.

La contromisura consiste in una directory da caricare sul sito e denominata metaforicamente “blackhole”, buco nero. Bisogna modificare le proprie pagine PHP aggiungendo un link verso la directory blackhole, nascosto tramite CSS ai visitatori normali. Tale link farà da esca per i bot, e quando vorranno visitare quella directory, il loro IP verrà messo in una lista nera (one-strike rule). A questo punto, quando il bot richiederà una pagina PHP, se abbiamo incluso lo script che fa il controllo sulla lista nera, l’accesso sarà impedito.

Tuttavia c’è un’altra categoria di bot che invece ci interessano molto, e sono quelli dei motori di ricerca. Alcuni di questi bot (come quello di Google) obbediscono alle istruzioni del file robots.txt, che andrà modificato quindi in questa maniera.

User-agent: *
Disallow: /*/blackhole/*

Purtroppo Slurp di Yahoo invece si disinteressa delle suddette regole, ma lo script blackhole tramite una richiesta DNS inversa riconosce le scansioni dei principali motori di ricerca.

Tutti i dettagli e il link per scaricare sono sull’articolo originale, Protect Your Site with a Blackhole for Bad Bots.

1 thought on “Proteggere un sito dalle scansioni di un bot indesiderato

Leave a Comment

%d blogger hanno fatto clic su Mi Piace per questo:

Utilizzando il sito, accetti l'utilizzo dei cookie da parte nostra. maggiori informazioni

Questo sito utilizza i cookie per fonire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o clicchi su "Accetta" permetti al loro utilizzo.

Chiudi