ICC-Crawler
English Page
 
ICC-Crawler

ICC-Crawlerは、ウェブ上を自動的に巡回してウェブページを収集する クローラと呼ばれる プログラムの一種です。ICC-CrawlerはNICT知識処理Gが運用しており、収集したページは研究目的以外では使用しません
我々はクローラが収集先ホストに迷惑をかけないよう細心の注意を払って運用をしております。 万が一ICC-Crawlerの動作に問題がありました場合には、下記の連絡先にご連絡をいただければ直ちに収集を停止するなどの対処を行います。

 
収集拒否方法
  1. <meta> タグを利用する
    クローラは <meta name="robots" content="nofollow, noindex">というタグが あった場合、nofollow(リンク解析を行わない)、noindex(このページを破棄する)という 動作をします。ICC-Crawlerもこの規則に従っています。
  2. robots.txt に書く
    ICC-Crawlerはrobots.txtの規約に従って、 次のようなシーケンスを見付けると、そのパスの下はアクセスしません。
    User-agent: *
    Disallow: /cgi-bin
    
    User-agent: ICC-Crawler
    Disallow: /
    
  3. 上記の方法でもアクセスが停止しない場合
    上記の方法をとってもICC-Crawlerによるアクセスが停止しない場合はご連絡ください。 直ちに収集を停止するなどの対処を致します。連絡先はこちらです。
 
収集ポリシーについて
  1. 接続先ホストへ過度な負荷はおかけしません。
    ウェブホストにかかる負担を軽減するため、クローリング対象ホストに対して時間あたりの接続数を監視し、過度な接続を行なわないようにしております。 この制限は、1つのホストが複数のIPアドレス/ホスト名を使用しても、IPアドレスおよびホスト名で個別に設定してスケジュールを制御しております。

  2. robots.txtファイルの記述内容を遵守します。
    ICC-Crawlerはrobots.txtファイルの記述内容を解析し、ホスト側で設定したアクセス制限を遵守いたします。
    また,robots.txtファイルにCrawl-Delayの設定がなされている場合、Crawl-Delayで指定された値と クローラに設定された最低アクセス間隔時間のうち大きい方の値を用いてアクセスをおこないます。

  3. アクセス停止の申し出があったホストに対してはアクセスしません。
    アクセス停止のご連絡をいただいたホストやIPアドレスに関してはそれ以降アクセスを行わないように設定致します。
 
ページの収集目的

1. ウェブページの信頼性評価
2. ウェブページのクラスタリング
3. ブログの解析

研究以外の目的では使いません。

   
 
 
クローラのIPアドレス
202.180.34.186
 
連絡先
知識創成コミュニケーション研究センター
知識処理グループ 情報信頼性プロジェクト

E-mail:

電話番号: 0774-98-6825
FAX: 0774-98-6960