Lutter contre le spam referrer avec awstats

J’exploite les logs de mes domaines hoarau.org et funix.org hébergés avec online (hébergement mutualisé) avec awstats. Toutes les nuits, cron récupère les fichiers log d’Apache sur un serveur ftp et je lance l’analyse avec webalizer et awstats comme expliqué par .

La page des referrers est polluée par des SPAM qui la rend inexploitable et c’est assez pénible. En fait c’est une technique des spammeurs qui font des requêtes pour que le site à promouvoir apparaisse dans la liste et ainsi cela améliore son positionnement sur les moteurs de recherche en multipliant les liens. Encore faudrait-il que cette page soit visible sur internet, ils peuvent également espérer qu’un administrateur clique sur un lien.

Il y a plusieurs techniques pour lutter contre ça, l’une d’entre elles est de leur bloquer l’accès au site avec un bon vieux .htaccess à la racine. Ce n’est pas forcément l’idéal car ça engendre un temps de traitement et ça peut ralentir l’accès au site. J’opte plutôt pour la technique en temps différé pour faire le ménage avec awstats. Pour cela il faut activer la variable suivante

SkipReferrersBlackList= »/etc/awstats/blacklist.txt »

avec un fichier blacklist.txt qu’on trouvera dans l’arborescence d’awstats mais qui date un peu. Alors  par ici on trouvera une blacklist nettement plus récente. Dans ce fichier, d’après mes tests il semblerait que la première partie qui commence par des RewriteCond ne serve à rien pour awstats, elle n’est utile que si vous filtrez le SPAM referrer avec un .htaccess. Ce n’est que la seconde partie qui est réellement utile et qui fonctionne avec awstats,

Elle commence par:

# This is the URL blacklist from the chongqed.org database
# it is available from http://blacklist.chongqed.org/
# You can use each line below as a regular expression
# that can be tested against URLs on your wiki.
# The last spammer was added on 2008-09-11 10:14:51
# Check http://blacklist.chongqed.org/ for updates

J’ai commencé à compléter la liste par les lignes suivantes

[pastacode lang= »markup » manual= »https%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fproxtrail%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fdenterum%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fprofeservice%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fbazakanstovarov%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fbalkanfarma%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fsobervoditel%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Favtokor-23%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Favtokor23%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fxn--j1at1a.xn--p1ai%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Frupolitshow%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fvyezd-viyezd%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Figru-2015%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fjeribetejewu%5C.c0%5C.pl%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fcreditservise%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fmegamashiny%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fseoxbeep%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fwoman3050%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fwww.vselgoty%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fplaypokeronline%5C.dk%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fmedical%5C.in%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fviagralevitradzheneriki%5C.ru%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3F%5C.com%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Ftasgroup%5C.it%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3F%5C.co%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fkiev%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fbringtwo%5C.net%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fcleaningservices%5C.kiev%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fstudio-topkapi%5C.eu%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fkruchen%5C.com%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Ffreedom%5C.co%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fbringtwo%5C.net%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fstudio-topkapi%5C.eu%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fc0%5C.pl%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fbazakanstovarov%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fxikiz%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Flesbianmilf%5C.xblog%5C.in%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fpamyatniki-in-kiev%5C.com%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fcarivka%5C.com%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fagent-05%5C.su%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fwebsolution%5C.com%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fpamjatnik%5C.com%5C.ua%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fstartimes%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Farktech%5C.co%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fgoohey%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fhimalayan-imports%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fpizza-imperia%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fnowellgroup%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fddrgame%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Ftorrinomedica%5C.it%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Foliveriobalcells%5C.com%0Ahttps%3F%3A%5C%2F%5C%2F(%5B%5E%5C%2F%5D*%5C.)%3Fgiocagiocagioca%5C.com » message= » » highlight= » » provider= »manual »/]

Ca m’a vite saoulé parce que tous les jours il y a des nouveaux sites qui font leur apparition, le plus simple est de bloquer carrément certaines extensions !

^https?://[^/]+\.ru
^https?://[^/]+\.ua
^https?://[^/]+\.su
^https?://[^/]+\.link
^https?://[^/]+\.cc
^https?://[^/]+\.in

ça bloque tous les sites en .ru, en .ua, etc. C’est assez radical mais comme ces extensions sont à 99,9% liées à des spammeurs, le risque de faire un faux positif est quasi nul. Comme il est quasi impossible de tenir à jour une liste de sites à jour, c’est sans doute la méthode la plus efficace. Tant qu’à faire comme ce n’est pas forcément intéressant de voir les referrers de son propre domaine, on les bloque également:

https?:\/\/([^\/]*\.)?hoarau\.org
https?:\/\/([^\/]*\.)?funix\.org

et là je peux vous garantir que la liste des referrers est assainie et enfin exploitable.

Laisser un commentaire