検索エンジンとロボット避け

最終修正日 2008.2.17.  

検索エンジンについて

基本的に書類検索で、海外からの訪問者(特に日本語の読めない人)は来ると思って下さい。海外の検索エンジンのロボットは、日本語の書類も収集します。
なので、英語の検索サイトから直接日本のページに来ることはできます。

例えば、こういう検索エンジンもあります。
http://www.alltheweb.com/
言語(Language)からJapaneseを選択。ここにDragon ball Zと入れて検索しましょう。
日本語のページが数十万件ひっかかるはずです。
片っ端からクリックしてみましょう。日本の公式画像やファンアートがあっという間に、数百枚コレクションできます。また、このエンジンの画像検索モードを使うと、話はさらにはやいです。らんまでの検索結果。

実際私のページに海外から様々なサーチエンジンで「ジャンル名+fanart」で跳んでくる人がいます。やはりGoogleが多いです。

それから、日本のヤフー等の検索大手。姉妹サイトが海外にあるような検索エンジンです。
実は海外のヤフーから2クリックで簡単に日本に来れるんですね。Y! Internationalが、米ヤフーの他国のヤフー一覧ページです。ちなみに、日本のヤフーの他国一覧はここです。
ですから、日本語が読めないブラウザでも、日本のヤフーまで来て、英語でおめあてのジャンルに関係ありそうな単語を入力すればOK。(例 Fainal Fantasy)

また、サーパラTINAMIなどの日本アニメマニアサイトのリンク集も、すでに海外で有名です。
またネット上には、無料で利用できる翻訳サイト等もたくさんあります。画像に関しては困らないネットサーフが、日本語の文字化けするブラウザ使用の外人でもできます。
 
ですから、「海外からは来て欲しくない」というなら、まずロボット避けをして、メジャーなサーチエンジン等にはURLを申請しない、これが鉄則です。
ある程度潜った外人のみ存在を知ることができるような、マニア向けサーチエンジンに登録して下さい。

ウェブリングはどうか?

ウェブリングはバナーが目立つところにあるのと、「海外でもよく知られたシステム」なので、ひとつリングのバーを張ってるページが見つかると、あっさり全てのリング参加ページが閲覧可能になります。
なので安全性は高くないかも知れません。

実際、外国人が日本のリングに参加を申し出てくることも良くあります。

「出来れば外国人は断りたい」というリングオーナーの方はリングにこういう断り書きを記すことをおすすめします。
Sorry, your website must be written in Japanese in order to join this web ring.
意味 「このリングは日本語で書かれているサイトのみ参加できます。」

登録制のリンク集はどうか?

アクセス制限やロボット弾きなどは、そのリンク集やサーチの管理人の方針次第ですので、規約等を読んでみて下さい。

閲覧も登録も、外国人は断りたいという登録制サーチ、閲覧はいいが登録は許可しないという登録制サーチ、色々あるでしょう。

私も海外のリンク集や登録制のサーチ、リングに参加させていただいている身分ですし、本音をいえば外国人でも、がんがんジャンルサーチに登録させればいいとは思います。ですが、「フランス語は読めませんけど、日本アニメサイトに間違いはなさそうでしたので……」とか、安易に参加させるのは考えものです。
特に管理人の方に注意して欲しいのが、「日本のサイトのイラストの無断転載がないか」です。
それがあると、他の日本人がサーチから抜けるでしょう。

申し込まれて断りたい方のための例文もあります。

インターネットアーカイブとは何か

100億以上ものwebページを独自に保存する、ウェブ図書館というものがあります。

使いたい方は、このフォームに見たいサイトのURLを入れて、年と月、日を選んで下さい。

すでに、登録されていて削除して欲しい場合、削除依頼を英文メールで出して下さい。

登録されたくない場合、robots.txtを置くか、USER_AGENTで判別して、ia_archiverを弾いてください。(後者のやり方は使用ブラウザでの制限にあります)
 

タグによるロボット避け

では、検索エンジンのロボットを避ける方法をご紹介しましょう。

大手検索エンジンの多くは書類検索タイプです。
これはロボットとかスパイダーと呼ばれるプログラムが、リンクをたどってインターネット上のファイルの情報を収集して回るものです。
検索エンジンによるリンクは自動ですので、当然無断リンクです。
日本語で「無断リンク禁止」とか書いても、ロボットにはわかりません。
なので、検索エンジンにリンクされたくない場合は、ロボットにわかる言語で書きましょう。

タグによるロボット避けの長所はほぼ、どのサイトでもできることです。

以下のように <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">を書けば、そのページをサーチエンジンに登録しませんし(NOINDEX)、そのページに含まれているリンクをたどりません(NOFOLLOW)。

<html>
<head>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta name="description" content="This webpage...">
<title>
Welcome to my Page
</title>
</head>
<body>
.
.
.
</body>
</html>  

参考リンク
The Web Robots Pages

なお、Googel等のキャッシュのみ防ぎたいためのタグはこれです。

<META NAME="ROBOTS" CONTENT="NOARCHIVE">

このタグによって、ページをロボットのキャッシュ対象から除外します。

Googleの解説ページ

Googleツールバーの拡張機能が有効になっている場合、Google は、表示中のウェブページに関する情報を収集できます。Googleツールバー利用者がグーグルロボット対策を施していない裏サイトや隠しページを見た場合、そのURLはGoogleに掲載される可能性があります。

Google ツールバーのプライバシーポリシー

Yahoo!検索の場合、下記のように2つ設定された場合は、タグが正確に解釈されない場合があります。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOARCHIVE">

Yahoo!検索 サイト管理者向けヘルプ

robots.txtでの制限

robots.txtは全てのロボットに有効ではありません。ですが、メタタグよりは効果があるでしょう。robots.txtでの制限についてはこちらのロボット対策ページをどうぞ。

ロボット弾き

ロボットも訪問者ですから、.htaccessによるアクセス制限ができます。

パスワードによる制限

もっとも確実に人とロボットをわける方法は、パスワードによるアクセス制限です。

例え、IDとパスワードが入り口のページに書いてあっても、ロボットはそれを入力しません。ロボットだもの。

このやり方は、未知のロボットにも対応できます。やり方は別ページのユーザー認証で紹介しています。

言語設定で弾く

ロボットには、受け入れる言語を設定していないことがあります。(少なくともヤフーとグーグルのロボットは、設定してありません)ですから、「日本語を受け入れないブラウザを弾く」で、ロボット弾きができます。実際、あるディレクトリに「日本語を受け入れないブラウザを弾く」と設定したら、ヤフーとグーグルにひっかからくなりました。ただし、これは日本人の中でも、携帯ブラウザの使用者などで、入れなくなる人がそれなりにいるでしょう。

詳しいやり方は別ページの言語設定によるアクセス制限に書いていますので、そちらをごらんください。

ユーザーエージェントによるアクセス制限

長所は、人が巻き込まれることが少ないことです。短所は、新しいロボットやマイナーなロボットには対応できないことです。それから、ユーザーエージェントは偽れます。日本人の閲覧者相手ならば、ヤフーとグーグルだけ弾けばだいだいは防げます。ですが、諸外国にはその国でメジャーなサーチエンジンがあったりします。

まず、相手のロボットの情報を入手しましょう。

これは「診断くん」というページのキャッシュを、そのサーチエンジンに表示させるとわかります。日本の場合は「診断くん Ver」等、海外のエンジンの場合は「pon/shin/ponchk.cgi」等で検索して下さい。キャッシュがないサーチエンジンの場合は、検索避け支援wiki などのロボットリスト掲載サイトを利用するか、アクセス解析等で対応して下さい。ヤフーとグーグルは日本でもアメリカでも、ロボットの名前に違いはないようです。

グーグルロボットの情報

ヤフーロボットの情報

このようにしてユーザーエージェントを特定した後で、どうするかは、別ページのブラウザの種類によるアクセス制限をごらんください。

IPやホスト名によるアクセス制限

これも長所は、無関係な人が巻き込まれることが少ないことです。そしてIPは偽れません。プロキシを経由しても、そのプロキシのIPが残ります。短所は、新しいロボットやマイナーなロボットには対応できないことです。

詳しいやり方は別ページのIPアドレスによるアクセス制限に書いていますので、そちらをごらんください。


  
< prev back next >