以前からこのブログにもトラックバックによるスパムが来ていて、それを
- ルータではじく
- ウェブサーバの設定ではじく
- MovableTypeのスクリプトではじく
なんていう方法を多重でとって回避し続けてきました。
うちに来ていたスパムトラックバックは
海外の精力剤とか、カジノのやつで、早い話がメールなんかで来るのと大差ないレベルの、そして機械送信で大量・無差別に来る、どっから見ても正真正銘のスパムでござーい、というものだったのですが。
最近、日本では別な「トラックバックスパム」の定義もある模様。というのは
「トラックバック先の記事についての言及や、トラックバック先へのURL記載がないトラックバック」
をスパムとみなすんだそうです。うはー、厳しいですなぁ。関連する情報を持っていてもそれを提供できないようなことも起こり得るわけですよね、これは。
たとえばうちのブログでは最近、「韓国の天気」なんていうキーワードでいらっしゃる人が多いわけですが、どこかのブログで「韓国の天気、どうやって調べたらいいのかなぁ」などとAさんが発言していたとして、それを見た私が
「自分のサイトで前にまとめたのでよろしければどうぞ」なんてコメントして、Aさんのことを知らないときにかいた記事へのトラックバックを張ったりすると、その自分の記事ではAさんのサイトのURLとか、そのページへ言及できてないから、上記のような定義によれば「スパム」とみなされちゃうんだそうな。
実際、今、そういうのを機械的にチェックするプラグインまであるそうです。
ただ、これはあまりに厳しすぎるので、どうして、こんな定義が(特に日本で)発生してきたんだろう?って考えてみると、こういうことなのかも?と思いました。
まず、機械的にスパムかどうかの判断をするときに、プログラムで検証しやすい判断基準としては、たとえば
- スパムならトラックバックを送った先と、送信元の言語が違う
- スパムなら送信先へのリンクの記載がない
というものがあると思います。2番目のものなんかは、本来は「送信先に関する記載はない」であるべきなんだろうけど、これはプログラムじゃ非常に難しいものになりますよね。そこで「送信先に関する記載はない」の代わりに「送信先へのリンクがない」という基準に置き換えちゃうという。
送信先に関する記載=「送信先のURL」または「送信先のページ名や作者名」または「送信先の話題」として(以下「+」を「または(OR)」の意味で、「!」を否定(NOT)の意味で使います。)
スパムならば、!(URL+ページ名・作者名+話題)
こいつの待遇を取ると
(URL+ページ名作者名+話題)ならば、スパムではない
()の中を全部分配してやるとURLやらページ名作者名やら話題のいずれかがあればスパムではない、ということになると思うのですが。
基準をきちんと書けるフィルターがないうちに、きびしめの基準を用いざるを得ず、それが、逆に運用者の基準となってしまったかのような印象も受けます。まぁよっぽど気に入らない記事へのトラックバックが来たら私も手動で削除するとは思いますがね・・・
最近のコメント