robots.txt(ロボットテキスト:”robot.txt” もしくは “robots.txt” のファイル名で認識する)は、「A Standard for Robot Exclusion」をもとに検索エンジン用ロボット(クローラー/スパイダー。以後クローラーで統一します。)に対する設定ファイルになります。特にgoogleではwebmastertoolに設定確認画面があり内容を確認できます。
主な用途としては、クローラーがアクセスするファイルやディレクトリに制限をかけることができます。クローラーはサイトを自動巡回する時に、このrobots.txtを参照し、索引化が許可されているか否かを自動で判断して、許可しているページを巡回しインデックスしていきます。そのため、アクセスさせたくないディレクトリやページに対してrobots.txtに記述しておくことをおすすめいたします。
■記述要素
・User-Agent(クローラーの種類を設定)
・Allow(User-Agentで設定したクローラーに対して、指定したファイルやディレクトリのアクセスを許可)
・Disallow(User-Agentで設定したクローラーに対して、指定したファイルやディレクトリのアクセスをブロック)
■パターン用文字「*」「$」
「*」・・・0回以上の繰り返し文字列を表す。
「$」・・・URLの末尾に一致させるのに利用する。
(例)Disallow: /*.xls$
全てのエクセルファイル(拡張子.xls)はクローラーからのアクセスをブロックする。
■全クローラー・サイト全体のアクセス許可
User-agent: *
Allow: /
■特定のページ・特定のディレクトリのアクセスブロック
User-agent: *
Disallow: /test.html (特定のページをブロック)
Disallow: /member/ (特定のディレクトリをブロック)
■パラメーターを含む特定ページ・特定の文字列を含むディレクトリのアクセスブロック
User-agent: *
Disallow: /test.html* (パラメーターを含む特定ページ・特定ページをブロック)
Disallow: /member*/ (特定の文字列を含むディレクトリ・特定ディレクトリをブロック)
■クローラーによってアクセス制限
User-agent: Googlebot
Allow: /
User-agent: Baiduspider
Disallow: /
[参考]google webmaster toolヘルプ 「robots.txt ファイルを使用してページをブロックまたは削除する」