Robots.txt

技術&インフラ

検索エンジンのクローラーにサイト内のインデックス対象ページと除外ページを指示するファイルです。

定義

robots.txtは、ウェブサイトのルートディレクトリに配置されるテキストファイルで、検索エンジンのクローラーにどのページやディレクトリにアクセスできるか、またはできないかを指示します。すべての主要な検索エンジンが尊重するRobots Exclusion Protocolに従います。ファイルには特定のユーザーエージェント(クローラー名)に対するルールと、異なるURLパスへのアクセスを制御するAllowおよびDisallowディレクティブが含まれます。robots.txtはアクセス制御メカニズムではなく推奨事項ですが、Google、Bing、AIベースのクローラーなどの信頼できる検索エンジンは一貫してこれらの指示に従います。

重要な理由

適切に設定されたrobots.txtがないと、検索エンジンは管理パネル、ステージング環境、APIエンドポイント、重複コンテンツなど、非公開にしたいページをクロールしてインデックスする可能性があります。逆に、間違ったパスをブロックすると、公開中のフリップブックや出版物が検索結果に表示されなくなる恐れがあります。適切に管理されたrobots.txtは、検索エンジンのクロールバジェット(一定期間内にクローラーがサイト上で訪問するページ数)を、実際に発見してもらいたいコンテンツに集中させます。フリップブックをホストするパブリッシャーにとって、これはランディングページ、[SEOメタデータ](/glossary/seo)、プレビューページがクローラーに完全にアクセス可能であることを保証することを意味します。

FlipLinkでの使い方

FlipLinkのマーケティングサイトでは、すべての公開ページ、ブログ記事、機能ページ、用語集エントリ、ガイドのクロールを許可し、内部APIルートやアプリケーションパスをブロックするrobots.txtを使用しています。GPTBot、ClaudeBot、Google-Extended、PerplexityBot、Applebot-ExtendedなどのAIクローラーも明示的に許可されており、フリップブック関連のコンテンツがAI搭載の検索回答に表示されるようになっています。[カスタムドメイン](/features/custom-domains)でフリップブックを公開する場合、そのドメイン上で独自のrobots.txtを設定して、検索エンジンがホストされた出版物をどのように扱うかを制御できます。[SEO&ソーシャルプレビュー](/features/seo-and-social-previews)機能はrobots.txtと連携して、インデックスされたページが従来の検索エンジンとAI検索エンジンの両方に対して最適化されたメタデータを提示することを保証します。

技術的な詳細

robots.txtファイルはシンプルな構文を使用します。各ブロックはルールが適用されるクローラーを指定する`User-agent`行で始まり、`Disallow`と`Allow`ディレクティブが続きます: - **User-agent: \*** — すべてのクローラーにルールを適用 - **Disallow: /api/** — /api/配下へのクローラーのアクセスを禁止 - **Allow: /blog/** — ブログディレクトリへのアクセスを明示的に許可 - **[Sitemap](/glossary/sitemap):** — クローラーの発見用にXML[サイトマップ](/glossary/sitemap)の場所を宣言 ルールは上から下に評価され、より具体的なパスが優先されます。ファイルは正確なURL `https://yourdomain.com/robots.txt` でアクセス可能でなければなりません。他の場所は機能しません。他のサイトからリンクされている場合、robots.txtではページのインデックスを防げないことに注意してください。その場合は`noindex`メタタグまたはHTTPヘッダーが必要です。

よくある誤解

- **「robots.txtはページを検索結果からブロックする。」** 完全ではありません。クローラーがページを訪問するのを防ぎますが、他のサイトがそのURLにリンクしている場合、検索エンジンは限られた情報でそれをリストする可能性があります。検索結果から本当に除外したいページには`noindex`メタタグを使用してください。 - **「Googlebotのルールだけあれば十分。」** Bing、Yandex、DuckDuckGo、AIクローラーもすべてrobots.txtを読みます。それらを無視すると、代替検索エンジンやAI回答ツールからのトラフィックを逃すことになります。 - **「一度設定すれば、更新する必要はない。」** robots.txtはサイトの成長に合わせて進化させるべきです。新しいセクション、ツール、コンテンツパスがクロール可能であることを確認する必要があります。AIクローラーのユーザーエージェントも常に拡大しています。 - **「robots.txtはセキュリティ対策である。」** そうではありません。ファイルは公開的に読み取り可能で、アクセス制御を提供しません。機密パスは認証で保護すべきであり、Disallowディレクティブだけでは不十分です。

セットアップチェックリスト

1. **すべての公開パスを特定** — 検索結果に表示されるべきサイトのすべてのセクション(ブログ、機能、用語集、ランディングページ)をリストアップします。 2. **すべてのプライベートパスをリスト** — APIエンドポイント、管理ルート、ステージングページ、埋め込みエンドポイント、内部ツール。 3. **ユーザーエージェントルールを作成** — プライベートパスに対するDisallowディレクティブを含む`User-agent: *`ブロックを作成します。 4. **AIクローラーの許可を追加** — GPTBot、ClaudeBot、Google-Extended、PerplexityBotなどのAIクローラー用の明示的な`User-agent`ブロックを適切なAllowルールとともに追加します。 5. **サイトマップを宣言** — XMLサイトマップURLを指す`Sitemap:`行を追加します。 6. **Google Search Consoleでテスト** — robots.txtテスターを使用して、重要なページがアクセス可能で、プライベートページがブロックされていることを確認します。 7. **四半期ごとにレビュー** — サイトに新しいセクションやツールが追加されたら、現在の構造を反映するようにrobots.txtを更新します。

関連用語

他の言語で利用可能

PDFを
もっと活用しませんか?

FlipLinkを活用して、PDFから魅力的でインタラクティブなコンテンツを作成している多くの企業に加わりませんか。クレジットカード不要で無料スタートできます。