2004-11-08

I know. の crawler が律義すぎる点について。

Filed under: misc — hiroaki @ 12:04

http://help.i-know.jp/?crawler

別にうちが律義なわけでなくて、ロボット拒否のページをロボットが巡回しないことは当たり前だと思っていたのですが。ロボット拒否のページを取得しないようにがんばってきたのに、ロボット拒否のページが取れないからがんばれといわれるのはかなり複雑です。

ロボットを拒否されている理由もさまざまです。単純に google で表示されたくないという人もいれば、サーバーのリソース的にきびしいからという場合もあると思います。ちなみに I know. の場合アクセスの 15% くらいがいわゆるロボットです。

Comaneci_botは「できるだけ少ない巡回回数で更新情報をタイムリーに取得する」を至上命題としております。より効率的に。より紳士的に。

こういうサービスは、巡回される側の皆さんの協力の元に成り立っているわけですから。

コメント (11) »

  1. >ロボット拒否のページが取れないからがんばれといわれる
    ふーーん、そんな要望を出す人が居るんですね。

    >ロボット拒否のページをロボットが巡回しないことは当たり前だと思っていた
    私としてはこの考え方を強く支持します。頑張れ。(^_^)

    コメント by おやじ14号 — 2004-11-08 @ 13:18

  2. ロボット拒否をしていても、RSSを配信している場合がありますので、そちらをアンテナに追加するよう呼びかけてみてはいかがでしょうか?

    コメント by no name — 2004-11-08 @ 15:40

  3. コメントありがとうございます。
    >おやじ14号さん
    はっきり要望を出されているわけではないですが、ご自分の blog とかで I know. に言及されている方が多くなってきました。そんな中にちらほらと。
    >no name さん
    まだ I know. は RSS を食えませんので、今のところは表示とかきびしい感じでオススメできないですね。

    コメント by hiroaki — 2004-11-08 @ 17:48

  4. http://c-moon.jp/robots.shtml のようなブラックリストに載ってしまって有用なサイトからも更新情報がもらえなくなると元も子もないので,律義な運用は賛成です.

    コメント by (み) — 2004-11-08 @ 18:12

  5. アンテナに新規登録しようとすると、

    サーバーにアクセスできないため、ご入力いただいたページは登録できませんでした。

    のようなメッセージが出ることがあります。
    普通にブラウザからそのページにアクセスすると見ることができるのですが、
    このメッセージもそのページがロボット拒否などをしているために表示されているのでしょうか?

    #(み)さんの真似ではないんですがこういうハンドルなので…すみません(_ _)

    コメント by (め) — 2004-11-08 @ 19:24

  6. コメントありがとうございます。
    >(み) さん
    拒否されるサイトが増えてくるとうちとしてもつらいですしね。
    >(め)さん
    ロボット拒否の場合は "巡回が許可されていないため…" と表示されます。
    "サーバーにアクセスできないため…" というメッセージは本当にサーバーにアクセスできなかったときに出ます。
    原因としては、IP、UserAgent などで弾かれてる場合や、単純にアドレスの打ち間違いや、一時的にサーバーがダウンしていたなどが考えられます。
    打ち間違いをなくすには、bookmarklet がオススメです。普通に便利ですし。
    http://i-know.jp/intro.cgi?p=213

    コメント by hiroaki — 2004-11-08 @ 19:32

  7. >hiroakiさん
    回答ありがとうございます。

    >原因としては、IP、UserAgent などで弾かれてる場合や、単純にアドレスの打ち間違いや、一時的にサーバーがダウンしていたなどが考えられます。

    とのことですが、
    (1)登録したいページをブラウザで表示させ(ページは正常に表示されている)
    (2)URLをコピーして
    (3)i-know. の「アンテナ追加」-「チェックURL」にペースト
    で、登録した場合にそのようなエラーになるので、打ち間違いはちょっと考えにくいのです。
    と、すると「IPやUserAgentではじかれている」と考えられなくもないのですが、当該ページは.htaccessが使えない(ことになっている)サイトに存在するのでそれも違うような気がしています。
    URLを連絡すれば話が早いのでしょうが、ここに書くのもどうかと思います。連絡方法があれば教えていただけますか?

    コメント by (め) — 2004-11-08 @ 20:09

  8. I know. に関してはそういった窓口は用意しておりませんので、とりあえずこちらのフォームからお願いします。
    http://linear-jp.biz/contact.shtml
    メールアドレスのところは空欄でお願いします。

    コメント by hiroaki — 2004-11-08 @ 20:28

  9. ドメイン名の仕様に "アルファベットで始まり、アルファベットか数字かハイフンが続き、アルファベットか数字で終わる文字列" というのがあります。
    http://www5d.biglobe.ne.jp/~stssk/rfc1035j.html
    別のurlでもアクセスできますのでそちらで登録してください。
    http://midoriya-web.hp.infoseek.co.jp/isweblocal/isweblocal.html#HomeURL

    コメント by hiroaki — 2004-11-08 @ 21:12

  10. hiroakiさん>
    うまくいきました。
    お忙しいところ、お手数おかけしてすみませんでした。ありがとうございました(^^)

    コメント by (め) — 2004-11-08 @ 22:45

  11. 巡回許可申請ページを設けていただいたおかげで、tDiaryのここだけ検索プラグインをすばやく改造することができました。ありがとうございました。
    tDiaryでsearch_control.rbを使っている人は、search_control.rbをv 1.5以上にすることでi-know.jpに巡回してもらえるようになります。(search_control.rbについてのコメントは、 http://tdiary-users.sourceforge.jp/cgi-bin/wiki.cgi?%CD%D7%CB%BE%A5%EA%A5%B9%A5%C8 までお願いします。)

    コメント by zunda — 2004-11-10 @ 06:22

コメント RSS トラックバック URI

コメントをどうぞ

コメントは承認されるまで表示されません。スパム以外は基本的に承認されます。なお、英文のみのコメントは自動的に削除されます。

HTML convert time: 0.091 sec. Powered by WordPress ME