Trình tạo robots.txt
Tạo tệp robots.txt sẵn sàng cho môi trường thực tế cho các công cụ tìm kiếm, sau đó xác thực các chỉ thị trước khi xuất bản. Tạo các quy tắc chung và quy tắc riêng cho từng bot, thêm gợi ý sitemap và thu thập dữ liệu, đồng thời phát hiện các lỗi phổ biến như thiếu nhóm user-agent, URL sitemap không hợp lệ hoặc các mẫu disallow quá rộng.
Trình chặn quảng cáo đang ngăn chúng tôi hiển thị quảng cáo
MiniWebtool miễn phí nhờ quảng cáo. Nếu công cụ này hữu ích, hãy ủng hộ bằng Premium (không quảng cáo + nhanh hơn) hoặc cho phép MiniWebtool.com rồi tải lại trang.
- Hoặc nâng cấp Premium (không quảng cáo)
- Cho phép quảng cáo cho MiniWebtool.com, rồi tải lại
Giới thiệu về Trình tạo robots.txt
Một tệp robots.txt cho trình thu thập dữ liệu biết phần nào của trang web chúng có thể truy xuất, đường dẫn nào nên nằm ngoài hàng đợi thu thập dữ liệu và nơi chứa sơ đồ trang web XML (sitemap). Để có khả năng hiển thị SEO và GEO tốt, mục tiêu không phải là chặn mọi thứ rủi ro theo mặc định. Mục tiêu là bảo vệ các đường dẫn thu thập dữ liệu giá trị thấp, bảo toàn ngân sách thu thập dữ liệu cho các trang chuẩn và giữ cho tệp phù hợp với những gì thực sự công khai trên tên miền. Một chính sách robots.txt hữu ích thường đề cập đến các phần cụ thể như thư mục quản trị, quy trình thanh toán, URL tìm kiếm nội bộ, bộ lọc hoặc các khối dành riêng cho môi trường thử nghiệm hơn là các "cài đặt SEO" mơ hồ.
Cách sử dụng
- Chọn chế độ tạo hoặc kiểm tra. Sử dụng `Tạo robots.txt` để xây dựng một tệp mới từ các đầu vào có cấu trúc, hoặc chuyển sang `Kiểm tra robots.txt hiện có` nếu bạn đã có một bản nháp hoặc tệp đang hoạt động.
- Nhập quy tắc thu thập và chi tiết sitemap. Thêm URL trang web công khai, `User-agent` chính của bạn, mỗi dòng một đường dẫn cho phép hoặc không cho phép, và bất kỳ phần bot cụ thể hoặc URL sitemap bổ sung nào bạn cần.
- Tạo báo cáo. Chạy công cụ để xây dựng tệp cuối cùng, xem xét các nhóm trình thu thập dữ liệu được phân tích và kiểm tra các cảnh báo cho các mẫu rủi ro như chặn tài nguyên hoặc thiếu URL sitemap tuyệt đối.
- Xuất bản sau khi xem xét. Sao chép kết quả khi các quy tắc phản ánh ý định thu thập dữ liệu thực tế của bạn, sau đó đặt tệp tại `/robots.txt` trên máy chủ lưu trữ thực tế và kiểm tra URL đã triển khai.
Chiến lược chỉ thị và các lỗi thường gặp
| Chỉ thị hoặc Mẫu | Khi nào nó hữu ích | Lỗi thường gặp là gì |
|---|---|---|
User-agent: * |
Tạo một bộ quy tắc chung cho hầu hết các bot khi không yêu cầu xử lý đặc biệt. | Mọi người thêm các dòng `Allow` và `Disallow` trước khi xác định bất kỳ nhóm user-agent nào, điều này làm yếu đi tính rõ ràng của trình phân tích. |
Disallow: /search |
Hữu ích để chặn các trang tìm kiếm nội bộ của trang web tạo ra các tổ hợp URL mỏng và trùng lặp. | Vô tình chặn các trang danh mục hoặc sản phẩm công khai vì mẫu đường dẫn rộng hơn dự định. |
Sitemap: https://example.com/sitemap.xml |
Giúp trình thu thập dữ liệu khám phá các URL chuẩn và nội dung mới nhanh hơn. | Sử dụng đường dẫn tương đối hoặc URL sitemap thử nghiệm đã lỗi thời trong môi trường thực tế. |
Crawl-delay |
Đôi khi được thêm vào cho các trình thu thập dữ liệu có tài liệu hỗ trợ việc điều tiết yêu cầu. | Giả định rằng Google tuân thủ nó. Google bỏ qua `Crawl-delay`, vì vậy nó không phải là cơ chế kiểm soát tốc độ chung. |
Disallow: /assets/js/ |
Hiếm khi cần thiết trên một trang web công khai bình thường. | Chặn các tài nguyên hiển thị mà công cụ tìm kiếm sử dụng để hiểu bố cục, chức năng và chất lượng trang. |
Các trường hợp sử dụng thực tế
Trên một trang web WordPress, một quy tắc phổ biến là không cho phép `/wp-admin/` trong khi vẫn cho phép `/wp-admin/admin-ajax.php`, vì điều đó giúp hầu hết các màn hình quản trị nằm ngoài đường dẫn thu thập dữ liệu mà không chặn một endpoint thường xuyên cần thiết. Trên một trang web thương mại điện tử, robots.txt thường được sử dụng để giới hạn lãng phí thu thập dữ liệu từ các trang giỏ hàng, khu vực tài khoản, quy trình thanh toán, điều hướng theo danh mục hoặc các trang kết quả nội bộ được tạo bởi các tham số sắp xếp và lọc. Trên một trang web thử nghiệm, việc chặn tạm thời toàn bộ trang web có thể là hợp lý, nhưng nó nên được gỡ bỏ trước khi ra mắt và kiểm tra lại sau khi thay đổi DNS hoặc triển khai.
Trình kiểm tra cũng hữu ích khi kế thừa một tệp từ một nhóm khác. Nó có thể phát hiện các vấn đề tinh vi như dòng sitemap không tuyệt đối, chỉ thị `Host` bị định dạng sai hoặc giá trị `Crawl-delay` được viết dưới dạng văn bản thay vì số. Những chi tiết đó quan trọng vì tệp robots.txt đơn giản, nhưng các sai lầm trong sản xuất cũng thường đơn giản như vậy.
Những gì Robots.txt không làm được
Robots.txt là một tệp quản lý việc thu thập dữ liệu, không phải là hệ thống kiểm soát truy cập và không phải là một công tắc đảm bảo việc hủy lập chỉ mục. Nếu một URL bị chặn nhưng được liên kết từ nơi khác, các công cụ tìm kiếm vẫn có thể hiển thị URL đó trong kết quả tìm kiếm mà không cần thu thập đầy đủ nội dung của nó. Các tài liệu nhạy cảm, công cụ quản trị và môi trường riêng tư nên được bảo vệ bằng xác thực, hạn chế mạng hoặc các chiến lược noindex rõ ràng trên các trang có thể thu thập dữ liệu. Sự phân biệt đó là một trong những hiểu lầm phổ biến nhất trong các cuộc thảo luận về SEO kỹ thuật.
Câu hỏi thường gặp
Một tệp robots.txt nên chứa những gì cho một trang web công khai bình thường?
Một tệp sản xuất hợp lý thường bắt đầu bằng một nhóm User-agent, chỉ chặn các đường dẫn thu thập dữ liệu giá trị thấp hoặc riêng tư như khu vực quản trị, trang tìm kiếm nội bộ, quy trình giỏ hàng hoặc màn hình tài khoản, và bao gồm một URL sitemap với đầy đủ giao thức và tên máy chủ. Hầu hết các trang web công khai không nên chặn CSS, JavaScript hoặc các thư mục nội dung chính của họ.
Robots.txt có ngăn một trang web được lập chỉ mục không?
Không, bản thân nó thì không. Robots.txt cho trình thu thập dữ liệu biết những gì không nên truy xuất, nhưng một URL bị chặn vẫn có thể được lập chỉ mục dựa trên các liên kết bên ngoài hoặc các tín hiệu đã phát hiện trước đó. Nếu mục tiêu thực sự của bạn là kiểm soát lập chỉ mục, bạn cần một phương pháp được thiết kế cho mục đích đó, chẳng hạn như noindex trên các trang có thể thu thập dữ liệu hoặc xác thực cho các tài nguyên riêng tư.
Tôi có nên thêm dòng sitemap vào robots.txt?
Thường là có. Chỉ thị Sitemap: là một gợi ý vận hành mạnh mẽ cho các trình thu thập dữ liệu và là một thói quen tốt cho các trang web lớn, đa ngôn ngữ hoặc được cập nhật thường xuyên. Sử dụng URL tuyệt đối thay vì đường dẫn tương đối để tín hiệu được rõ ràng.
Tại sao crawl-delay bị đánh dấu trong báo cáo?
Crawl-delay không được hỗ trợ nhất quán trên các công cụ tìm kiếm chính. Một số trình thu thập có thể nhận ra nó, nhưng Google thì không. Công cụ đánh dấu nó để bạn coi nó như một chỉ thị nhắm mục tiêu cụ thể thay vì một cài đặt tốc độ thu thập dữ liệu chung.
Tham khảo nội dung, trang hoặc công cụ này như sau:
"Trình tạo robots.txt" tại https://MiniWebtool.com/vi/trinh-tao-robotstxt/ từ MiniWebtool, https://MiniWebtool.com/
bởi đội ngũ miniwebtool. Cập nhật: 2026-03-09
Các công cụ liên quan khác:
Công cụ quản trị web:
- Máy tính CPC
- Máy tính CPM
- Máy nén CSS
- Công cụ tạo favicon Mới
- Máy tính Google AdSense
- Tạo Cron Job
- Công cụ tạo biểu thức Crontab Mới
- Máy nén HTML
- Trình chuyển đổi HTML sang văn bản Nổi bật
- Công cụ kiểm tra mật độ từ khóa Mới
- Trình tạo bảng Markdown
- Trình tạo thẻ Meta
- Công Cụ Xóa Dấu Ngoặc Kép Thông Minh
- Trình Tạo Slug URL
- Máy tính Giá trị Trang
- Công cụ tính giá trị của một khách truy cập
- Máy tính phân quyền Unix (chmod)
- Công cụ Mã hóa/Giải mã Thực thể HTML
- Trình tạo Lorem Ipsum Mới
- Escape Unescape Chuỗi JSON
- Công cụ chuyển đổi cURL sang JSON Mới
- Trình định dạng SQL Mới
- Công cụ tối ưu SVG Mới
- Trình tạo chuyển hướng Htaccess Mới
- Trình Kiểm Tra Kích Thước Thu Thập Googlebot Mới
- Trình tạo robots.txt Mới
- Trình tạo Sơ đồ trang XML Mới
- Công cụ Kiểm tra Tuổi Tên miền Mới
- Trình kiểm tra Open Graph Mới
- Tra cứu WHOIS Mới
- Tra cứu DNS Mới
- Kiểm tra tốc độ trang Mới
- Kiểm tra độ tin cậy tên miền Mới
- Kiểm tra Chuyển hướng Mới
- Trình tạo thẻ Hreflang Mới
- Kiểm tra liên kết hỏng Mới