Robots.txt 產生器

為搜尋引擎建立可直接用於正式環境的 robots.txt 檔案，並在發佈前驗證指令。產生全域和特定漫遊器的規則，添加網站地圖和檢索提示，並捕捉常見錯誤，例如缺少使用者代理群組、無效的網站地圖 URL 或過於寬泛的禁止模式。

Robots.txt 產生器

▦ 快速範例

載入完整預設值以生成適用於正式網站的實用 robots.txt 文件、測試更嚴格的電子商務抓取政策，或貼上現有文件並在部署前進行檢查。

模式

選擇工作流

操作從結構化欄位生成新的 robots.txt 文件，或驗證您已有的文件。

基礎設定

定義網站語境

網站 URL 用於將網站地圖路徑轉換為絕對 URL，例如 `https://example.com/sitemap.xml`。

主要 User-agent 使用 `*` 代表所有爬蟲，或針對特定機器人如 `Googlebot`。

頂部註解生成文件頂部的可選註解行。請保持簡短且具操作性。

規則

設置全域允許與禁止路徑

Allow (允許) 指令每行一個路徑。範例：`/` 或 `/wp-admin/admin-ajax.php`。

Disallow (禁止) 指令適時屏蔽低價值區域，如 `/cart/`、`/checkout/`、`/search` 或 `/admin/`。

機器人

添加網站地圖與特定機器人區塊

網站地圖 URL 每行一個網站地圖。相對路徑將根據網站 URL 進行轉換。

額外的 User-agent 區塊在此處貼上原始的 `User-agent:` 分組，用於圖片機器人、廣告機器人或測試環境規則。

Crawl-delay (抓取延遲) 可選。並非所有搜尋引擎都統一支持此指令。

Host (主機) 可選。通常是純主機名，如 `example.com`。

Clean-param 指令可選的特定引擎參數清理規則，每行一個指令。

驗證

貼上您要檢查的文件

Robots.txt 內容完整貼上現有文件，包括註解和多個爬蟲分組。

指南

此工具檢查什麼

報告會查找結構性問題，例如缺失的 `User-agent` 分組、非絕對路徑的網站地圖 URL、非數值的 `Crawl-delay` 值，以及可能屏蔽重要資源或整個網站的模式。

使用 robots.txt 進行抓取管理，而非將其作為敏感內容的安全屏障。
內部搜尋、購物車、結帳和管理路徑是 `Disallow` 的常見對象。
不要隨意屏蔽幫助搜尋引擎渲染頁面的 CSS、JavaScript 或共享資源。
將最終文件發布在網域根目錄，使正式 URL 變為 `https://example.com/robots.txt`。

User-agent Allow / Disallow Sitemap Crawl-delay

結果區域包括最終文件、抓取摘要，以及一組您可以在部署前審查的警告或備註。

Embed Robots.txt 產生器 Widget

Robots.txt 產生器

robots.txt 文件告訴爬蟲可以抓取網站的哪些部分、哪些路徑應留在抓取隊列之外，以及 XML 網站地圖的位置。為了 SEO 和地理可見性，目標並非預設屏蔽所有風險，而是保護低價值的抓取路徑、為標準頁面保留抓取配額，並使文件與網域上實際公開的內容保持一致。一個實用的 robots.txt 政策通常會提及具體的區塊，例如管理資料夾、結帳流程、內部搜尋 URL、多面篩選器或僅供測試的區塊，而非含糊的「SEO 設置」。

如何使用

選擇生成或驗證模式。 使用「生成 robots.txt」從結構化輸入構建新文件，或者如果您已有草案或正式文件，請切換到「驗證現有的 robots.txt」。
輸入抓取規則與網站地圖詳情。 添加公開網站 URL、您的主要 User-agent、每行一個允許或禁止路徑，以及任何額外的機器人特定區塊或網站地圖 URL。
建立報告。 執行此計算機工具以構建最終文件、查看解析後的爬蟲分組，並檢查是否存在風險模式（如屏蔽的資源或缺失的絕對路徑網站地圖 URL）。
審核後發布。 當規則反映了您真實的抓取意圖時複製輸出，然後將文件放置在正式主機名的 `/robots.txt` 處，並測試部署後的 URL。

指令策略與常見錯誤

指令或模式	何時有幫助	常見錯誤
`User-agent: *`	在不需要特殊處理時，為大多數機器人創建全域規則集。	在定義任何 User-agent 組之前就添加 `Allow` 和 `Disallow` 行，這會削弱解析器的清晰度。
`Disallow: /search`	用於屏蔽內部搜尋頁面，這些頁面會產生稀薄且重複的 URL 組合。	因路徑模式比預期更寬而意外屏蔽了公共分類或產品頁面。
`Sitemap: https://example.com/sitemap.xml`	幫助爬蟲更快發現標準 URL 和新鮮內容。	在生產環境中使用相對路徑或過時的測試環境網站地圖 URL。
`Crawl-delay`	有時為明確支持請求節流的爬蟲添加。	假設 Google 會遵守它。Google 會忽略 `Crawl-delay`，因此它不是一種全域的頻率控制機制。
`Disallow: /assets/js/`	在一般的公共網站上很少需要。	屏蔽了搜尋引擎用來理解佈局、功能和頁面質量的渲染資源。

實際應用案例

在 WordPress 網站上，常見規則是禁止 `/wp-admin/` 但允許 `/wp-admin/admin-ajax.php`，因為這可以在不屏蔽頻繁需要的端點的情況下，將大多數管理畫面排除在抓取路徑之外。在電子商務網站上，robots.txt 常被用來限制購物車頁面、帳戶區域、結帳流程、多面導航或由排序和篩選參數生成的內部結果頁面的抓取浪費。在測試網站上，臨時性的全站禁止是合理的，但在上線前應將其移除，並在 DNS 或部署更改後重新檢查。

當從另一個團隊接手文件時，驗證器也非常有用。它可以發現細微的問題，例如非絕對路徑的網站地圖行、格式錯誤的 `Host` 指令，或者寫成純文本而非數字的 `Crawl-delay` 值。這些細節很重要，因為 robots.txt 文件雖然簡單，但生產環境中的錯誤往往也很簡單。

Robots.txt 不能做什麼

Robots.txt 是一個抓取管理文件，而不是訪問控制系統，也不是保證去索引的開關。如果一個 URL 被屏蔽但被其他地方鏈接，搜尋引擎仍可能在不抓取其完整內容的情況下，在搜尋結果中顯示該 URL。敏感文件、管理工具和私有環境應通過身份驗證、網絡限制或在可抓取頁面上使用明確的 noindex 策略來保護。這種區別是技術 SEO 討論中最常見的誤解之一。

常見問題

一般的公共網站，robots.txt 文件應該包含什麼？

一個合理的正式文件通常以 User-agent 組開始，僅屏蔽低價值或私有的抓取路徑，如管理區域、內部搜尋頁面、購物車流程或帳戶畫面，並包含一個帶有完整協議和主機名的網站地圖 URL。大多數公共網站不應屏蔽 CSS、JavaScript 或其主要的內容資料夾。

robots.txt 會阻止頁面被索引嗎？

不，僅憑它自己不會。Robots.txt 告訴爬蟲什麼不要抓取，但被屏蔽的 URL 仍可能根據外部鏈接或先前發現的信號被索引。如果您的真實目標是索引控制，您需要專為該目的設計的方法，例如在可抓取頁面上使用 noindex 或對私有資源進行身份驗證。

我應該在 robots.txt 中添加 sitemap 行嗎？

通常是肯定的。Sitemap: 指令是對爬蟲強有力的操作提示，對於大型、多語言或頻繁更新的網站來說是一個好習慣。請使用絕對 URL 而非相對路徑，以確保信號明確。

為什麼報告中會標記 crawl-delay？

主要搜尋引擎對 Crawl-delay 的支持並不一致。某些爬蟲可能會識別它，但 Google 不會。此計算機工具會標記它，以便您將其視為針對特定爬蟲的指令，而非全域性的抓取頻率設置。

引用此內容、頁面或工具為：

"Robots.txt 產生器" 於 https://MiniWebtool.com/zh-tw/robots.txt-產生器/，來自 MiniWebtool，https://MiniWebtool.com/

由 miniwebtool 團隊提供。更新日期：2026-03-09

其他相關工具:

Robots.txt 產生器

選擇工作流

定義網站語境

設置全域允許與禁止路徑

添加網站地圖與特定機器人區塊

貼上您要檢查的文件

Robots.txt 產生器

如何使用

指令策略與常見錯誤

實際應用案例

Robots.txt 不能做什麼

常見問題

一般的公共網站，robots.txt 文件應該包含什麼？

robots.txt 會阻止頁面被索引嗎？

我應該在 robots.txt 中添加 sitemap 行嗎？

為什麼報告中會標記 crawl-delay？

其他相關工具:

網站管理工具:

常用工具: