Le stupre et la robotisation

J'ai le sentiment diffus que certains robots qui viennent se
vautrer lascivement dans les rouages de mon bricablog ne sont pas
totalement étrangers à la débauche de
bande passante dont souffre celui-ci...
Je m'interroge sur la méthode pour y
rémédier : le baygon vert suffirait ou faut-il
sortir le préservatif ?
Ceci est une invitation non dissimulée à un
dialogue constructif avec geeks et geekettes — et plus si
affinité !
C'est ce que Veuve Tarquine a écrit le 11/11/2006
Blogs à brac
Fil des commentaires de ce billet – Lien permanent de ce billet










Commentaires
Il paraîtrait qu'il suffirait de mettre un fichier nommé "robot.txt" à la racine du site pour leur dire de ne pas indexer le-dit site. Mais il paraîtrait aussi que les robots s'empresseraient de ne surtout pas lire les recommandations qui leur sont faites dans ce sus-dit fichier. Bref, la lutte est bien inégale.
Si vous optez pour la solution préservatif pour protéger votre blog, sachez que l'entreprise sud-africaine Pronto Condoms a mis au point le préservatif le plus simple à enfiler au monde. Vous prenez l'emballage, vous le "cassez" en deux, vous l'étirez, vous enfilez le préservatif et vous ôtez les deux morceaux de l'emballage. Durée de l'opération : 9 secondes !
:-)
Inktomi, ton plus gros suceur de bande passante, est censé respecter le fichier robots.txt
Il te faut placer à la racine de ton espace web un fichier nommé
robots.txtdans lequel tu inscriras ces deux lignes :(Slurp est le nom du robot employé par Inktomi.) Si tu veux empêcher tous les robots (enfin... tous ceux qui respectent le fichier robots.txt), alors tu inscris plutôt ceci :
Et si tu veux empêcher l'indexation d'un répertoire en particulier la ligne
Disallowdoit être remplacée par :La solution pourrait effectivement être un robots.txt correctement configuré : http://www.robotstxt.org/wc/robots.html C'est un petit peu plus souple que ce que décrit Ancalagon, et les indexeurs le respectent en général (c'est dans leur interêt). Ceci dit il est vraiment très étonnant que votre site ait été indexé tant de fois en une semaine. Par ailleurs, à ma connaissance ni wanadoo.fr ni proxad.net ne correspondent à des indexeurs (wanadoo dispose bien d'un moteur de recherche, mais ça serait plutôt voila.fr, proxad n'en a pas), ceux-là seraient plutôt des visiteurs légitimes.
Tu vas sans doute encore penser que je ne commente chez toi que pour faire de la pub' pour chez moi :-} toujours est-il que la question du Robots exclusion protocol a déjà été abordée dans cet article chez moi avec notamment quelques détails techniques dans ce commentaire.
Maintenant, comme les derniers trackbacks que j'ai laissés chez toi ne sont jamais apparus, je ne serais pas autrement surpris que ce commentaire subisse le même étrange sort...
Les agréagateurs paramétrés pour revenir vérifier la mise à jour du flux RSS toutes les 3 minutes ça existe aussi : ( Ca mérite de baffes mais bon. Dans ces cas là si il n'y a pas d'un côté un agrégateur bien programmé pour préciser de quand date sa dernière version du contenur, et de l'autre un site bien programmé pour tenir compte de cette précision et ne délivrer le contenu que si il est plus récent, alors on a un gros gâchis de bande passante avec un fichier RSS délivré toutes les n minutes à x furieux :)) Je précise que chez moi les inktomi et autres robots sont assez furieux aussi (j'ai un ou deux chinois aussi).
Merci de vos conseils ! Je les mets à profit dès que possible (c'est à dire que je procède d'abord au ravitaillement de ma marmaille avant de mettre à la diète mon bricablog !)
« Maintenant, comme les derniers trackbacks que j'ai laissés chez toi ne sont jamais apparus, je ne serais pas autrement surpris que ce commentaire subisse le même étrange sort... + Figurez-vous que je n'y suis strictement pour rien... Dans le cas contraire je n'aurais pas manqué de le faire à visage découvert !
J'avais trouvé en son temps cette page qui fabrique un fichier robot.txt pour toi. J'avais installé le fichier en question sur mon site à l'époque. En le révisant aujourd'hui, je m'aperçoit qu'il n'interdit pas Inktomisearch. Je visens de l'ajouter comme indiqué par Kozlika. Nous verrons si celà baisse la fréquentation.
Je suis horriblement jalouse de l'attention que tous ces merveilleux geeks t'accordent. Je vais finir par poster mes propres questions sur ton blogue... signé, le trollcalimero
La solution du robots.txt a déjà été donnée, tant mieux, je n'aurais pas à en parler.
En ce qui concerne googlebot, donc le robot de google, on peut le ralentir en créant un sitemap (si on ne veux pas lui interdire l'accès). Il y avait des plug-ins pour dotclear, une fouille dans les archives du forum devrait être suffisante pour les retrouver. Les autres moteurs de recherches ne proposent malheureusement pas de solution similaire.
Ou plutôt devrais-je dire, il est dommage que le sitemap soit proprietaire, si google avait créé un sitemap.txt ou sitemap.xml équivalent au robots.txt que ses concurrents auraient pu adopter aussi, le sitemap serait sans doute devenu plus populaire...
« on peut le ralentir en créant un sitemap + Oui le plugin (de pep je crois !) est très pratique et fonctionne très bien, je confirme :) En revanche, je dois dire que la pollution des spams s'est à peine ralentie... J'aimerai avoir un bon vieux tromblon pour dégommer ces sales bêtes dans une débauche de bruit et de jubilation !!!
Tu as bien activé gzip dans le RSS mais pas dans le fil Atom. C'est celui que je lis par défaut...
Si ça peut te faire ganger du temps:
http://www.fgranger.com/dotclear/index.php/2006/11/11/402-utiliser-gzip-pour-les-fils-de-syndications
Hello,
Est-il bon de rappeller aussi la balise META avec la valeur ROBOT et son paramétrage NOFOLLOW ? :)