Tôi có nên thêm dòng sitemap vào robots.txt không?

Có, trong hầu hết các trường hợp, việc bao gồm một hoặc nhiều chỉ thị Sitemap với URL tuyệt đối là rất hữu ích. Điều đó giúp trình thu thập dữ liệu có con đường khám phá trực tiếp đến các trang chuẩn (canonical) và có thể giúp các trang web lớn hoặc được cập nhật thường xuyên dễ thu thập dữ liệu hơn.

Trình tạo robots.txt

Tạo tệp robots.txt sẵn sàng cho môi trường thực tế cho các công cụ tìm kiếm, sau đó xác thực các chỉ thị trước khi xuất bản. Tạo các quy tắc chung và quy tắc riêng cho từng bot, thêm gợi ý sitemap và thu thập dữ liệu, đồng thời phát hiện các lỗi phổ biến như thiếu nhóm user-agent, URL sitemap không hợp lệ hoặc các mẫu disallow quá rộng.

▦ Ví dụ nhanh

Tải một cấu hình có sẵn để tạo tệp robots.txt thực tế cho trang web đang hoạt động, thử nghiệm chính sách thu thập dữ liệu nghiêm ngặt hơn cho thương mại điện tử hoặc dán một tệp có sẵn để kiểm tra trước khi triển khai.

Chế độ

Chọn quy trình làm việc

Hành động Tạo một tệp robots.txt mới từ các trường có cấu trúc, hoặc kiểm tra một tệp bạn đã có.

Cơ bản

Xác định ngữ cảnh trang web

URL trang web Được sử dụng để chuyển các đường dẫn sitemap thành URL tuyệt đối như `https://example.com/sitemap.xml`.

User-agent chính Sử dụng `*` cho tất cả trình thu thập, hoặc nhắm mục tiêu một bot cụ thể như `Googlebot`.

Bình luận tiêu đề Dòng bình luận tùy chọn cho phần trên cùng của tệp được tạo. Giữ cho nó ngắn gọn và mang tính vận hành.

Quy tắc

Thiết lập đường dẫn cho phép và không cho phép chung

Chỉ thị Allow Mỗi dòng một đường dẫn. Ví dụ: `/` hoặc `/wp-admin/admin-ajax.php`.

Chỉ thị Disallow Chặn các khu vực có giá trị thấp như `/cart/`, `/checkout/`, `/search`, hoặc `/admin/` khi thích hợp.

Bots

Thêm sitemap và các phần dành riêng cho bot

URL Sitemap Mỗi dòng một sitemap. Các đường dẫn tương đối được chuyển đổi dựa trên URL trang web.

Các khối user-agent bổ sung Dán các nhóm `User-agent:` thô tại đây cho bot hình ảnh, bot quảng cáo hoặc quy tắc môi trường thử nghiệm.

Crawl-delay Tùy chọn. Chỉ thị này không được hỗ trợ đồng nhất trên tất cả các công cụ tìm kiếm.

Host Tùy chọn. Thường là một tên máy chủ thuần túy như `example.com`.

Chỉ thị Clean-param Các quy tắc làm sạch tham số tùy chọn dành riêng cho công cụ tìm kiếm, mỗi dòng một chỉ thị.

Kiểm tra

Dán tệp bạn muốn kiểm tra

Nội dung Robots.txt Dán tệp hiện có chính xác như nó xuất hiện, bao gồm cả các bình luận và nhiều nhóm trình thu thập dữ liệu.

Hướng dẫn

Công cụ này kiểm tra những gì

Báo cáo tìm kiếm các vấn đề về cấu trúc như thiếu nhóm `User-agent`, URL sitemap không tuyệt đối, giá trị `Crawl-delay` không phải là số, và các mẫu có thể chặn các tài nguyên quan trọng hoặc toàn bộ trang web.

Sử dụng robots.txt để quản lý việc thu thập dữ liệu, không phải là rào cản bảo mật cho nội dung nhạy cảm.
Tìm kiếm nội bộ, giỏ hàng, thanh toán và đường dẫn quản trị là những ứng cử viên phổ biến cho `Disallow`.
Đừng chặn CSS, JavaScript hoặc các tài nguyên dùng chung một cách tùy tiện vì chúng giúp công cụ tìm kiếm hiển thị trang web.
Xuất bản tệp cuối cùng tại thư mục gốc của tên miền để URL thực tế trở thành `https://example.com/robots.txt`.

User-agent Allow / Disallow Sitemap Crawl-delay

Khu vực kết quả bao gồm tệp cuối cùng, tóm tắt thu thập dữ liệu và một bộ các cảnh báo hoặc ghi chú bạn có thể xem lại trước khi triển khai.

Embed Trình tạo robots.txt Widget

Giới thiệu về Trình tạo robots.txt

Một tệp robots.txt cho trình thu thập dữ liệu biết phần nào của trang web chúng có thể truy xuất, đường dẫn nào nên nằm ngoài hàng đợi thu thập dữ liệu và nơi chứa sơ đồ trang web XML (sitemap). Để có khả năng hiển thị SEO và GEO tốt, mục tiêu không phải là chặn mọi thứ rủi ro theo mặc định. Mục tiêu là bảo vệ các đường dẫn thu thập dữ liệu giá trị thấp, bảo toàn ngân sách thu thập dữ liệu cho các trang chuẩn và giữ cho tệp phù hợp với những gì thực sự công khai trên tên miền. Một chính sách robots.txt hữu ích thường đề cập đến các phần cụ thể như thư mục quản trị, quy trình thanh toán, URL tìm kiếm nội bộ, bộ lọc hoặc các khối dành riêng cho môi trường thử nghiệm hơn là các "cài đặt SEO" mơ hồ.

Cách sử dụng

Chọn chế độ tạo hoặc kiểm tra. Sử dụng `Tạo robots.txt` để xây dựng một tệp mới từ các đầu vào có cấu trúc, hoặc chuyển sang `Kiểm tra robots.txt hiện có` nếu bạn đã có một bản nháp hoặc tệp đang hoạt động.
Nhập quy tắc thu thập và chi tiết sitemap. Thêm URL trang web công khai, `User-agent` chính của bạn, mỗi dòng một đường dẫn cho phép hoặc không cho phép, và bất kỳ phần bot cụ thể hoặc URL sitemap bổ sung nào bạn cần.
Tạo báo cáo. Chạy công cụ để xây dựng tệp cuối cùng, xem xét các nhóm trình thu thập dữ liệu được phân tích và kiểm tra các cảnh báo cho các mẫu rủi ro như chặn tài nguyên hoặc thiếu URL sitemap tuyệt đối.
Xuất bản sau khi xem xét. Sao chép kết quả khi các quy tắc phản ánh ý định thu thập dữ liệu thực tế của bạn, sau đó đặt tệp tại `/robots.txt` trên máy chủ lưu trữ thực tế và kiểm tra URL đã triển khai.

Chiến lược chỉ thị và các lỗi thường gặp

Chỉ thị hoặc Mẫu	Khi nào nó hữu ích	Lỗi thường gặp là gì
`User-agent: *`	Tạo một bộ quy tắc chung cho hầu hết các bot khi không yêu cầu xử lý đặc biệt.	Mọi người thêm các dòng `Allow` và `Disallow` trước khi xác định bất kỳ nhóm user-agent nào, điều này làm yếu đi tính rõ ràng của trình phân tích.
`Disallow: /search`	Hữu ích để chặn các trang tìm kiếm nội bộ của trang web tạo ra các tổ hợp URL mỏng và trùng lặp.	Vô tình chặn các trang danh mục hoặc sản phẩm công khai vì mẫu đường dẫn rộng hơn dự định.
`Sitemap: https://example.com/sitemap.xml`	Giúp trình thu thập dữ liệu khám phá các URL chuẩn và nội dung mới nhanh hơn.	Sử dụng đường dẫn tương đối hoặc URL sitemap thử nghiệm đã lỗi thời trong môi trường thực tế.
`Crawl-delay`	Đôi khi được thêm vào cho các trình thu thập dữ liệu có tài liệu hỗ trợ việc điều tiết yêu cầu.	Giả định rằng Google tuân thủ nó. Google bỏ qua `Crawl-delay`, vì vậy nó không phải là cơ chế kiểm soát tốc độ chung.
`Disallow: /assets/js/`	Hiếm khi cần thiết trên một trang web công khai bình thường.	Chặn các tài nguyên hiển thị mà công cụ tìm kiếm sử dụng để hiểu bố cục, chức năng và chất lượng trang.

Các trường hợp sử dụng thực tế

Trên một trang web WordPress, một quy tắc phổ biến là không cho phép `/wp-admin/` trong khi vẫn cho phép `/wp-admin/admin-ajax.php`, vì điều đó giúp hầu hết các màn hình quản trị nằm ngoài đường dẫn thu thập dữ liệu mà không chặn một endpoint thường xuyên cần thiết. Trên một trang web thương mại điện tử, robots.txt thường được sử dụng để giới hạn lãng phí thu thập dữ liệu từ các trang giỏ hàng, khu vực tài khoản, quy trình thanh toán, điều hướng theo danh mục hoặc các trang kết quả nội bộ được tạo bởi các tham số sắp xếp và lọc. Trên một trang web thử nghiệm, việc chặn tạm thời toàn bộ trang web có thể là hợp lý, nhưng nó nên được gỡ bỏ trước khi ra mắt và kiểm tra lại sau khi thay đổi DNS hoặc triển khai.

Trình kiểm tra cũng hữu ích khi kế thừa một tệp từ một nhóm khác. Nó có thể phát hiện các vấn đề tinh vi như dòng sitemap không tuyệt đối, chỉ thị `Host` bị định dạng sai hoặc giá trị `Crawl-delay` được viết dưới dạng văn bản thay vì số. Những chi tiết đó quan trọng vì tệp robots.txt đơn giản, nhưng các sai lầm trong sản xuất cũng thường đơn giản như vậy.

Những gì Robots.txt không làm được

Robots.txt là một tệp quản lý việc thu thập dữ liệu, không phải là hệ thống kiểm soát truy cập và không phải là một công tắc đảm bảo việc hủy lập chỉ mục. Nếu một URL bị chặn nhưng được liên kết từ nơi khác, các công cụ tìm kiếm vẫn có thể hiển thị URL đó trong kết quả tìm kiếm mà không cần thu thập đầy đủ nội dung của nó. Các tài liệu nhạy cảm, công cụ quản trị và môi trường riêng tư nên được bảo vệ bằng xác thực, hạn chế mạng hoặc các chiến lược noindex rõ ràng trên các trang có thể thu thập dữ liệu. Sự phân biệt đó là một trong những hiểu lầm phổ biến nhất trong các cuộc thảo luận về SEO kỹ thuật.

Câu hỏi thường gặp

Một tệp robots.txt nên chứa những gì cho một trang web công khai bình thường?

Một tệp sản xuất hợp lý thường bắt đầu bằng một nhóm User-agent, chỉ chặn các đường dẫn thu thập dữ liệu giá trị thấp hoặc riêng tư như khu vực quản trị, trang tìm kiếm nội bộ, quy trình giỏ hàng hoặc màn hình tài khoản, và bao gồm một URL sitemap với đầy đủ giao thức và tên máy chủ. Hầu hết các trang web công khai không nên chặn CSS, JavaScript hoặc các thư mục nội dung chính của họ.

Robots.txt có ngăn một trang web được lập chỉ mục không?

Không, bản thân nó thì không. Robots.txt cho trình thu thập dữ liệu biết những gì không nên truy xuất, nhưng một URL bị chặn vẫn có thể được lập chỉ mục dựa trên các liên kết bên ngoài hoặc các tín hiệu đã phát hiện trước đó. Nếu mục tiêu thực sự của bạn là kiểm soát lập chỉ mục, bạn cần một phương pháp được thiết kế cho mục đích đó, chẳng hạn như noindex trên các trang có thể thu thập dữ liệu hoặc xác thực cho các tài nguyên riêng tư.

Tôi có nên thêm dòng sitemap vào robots.txt?

Thường là có. Chỉ thị Sitemap: là một gợi ý vận hành mạnh mẽ cho các trình thu thập dữ liệu và là một thói quen tốt cho các trang web lớn, đa ngôn ngữ hoặc được cập nhật thường xuyên. Sử dụng URL tuyệt đối thay vì đường dẫn tương đối để tín hiệu được rõ ràng.

Tại sao crawl-delay bị đánh dấu trong báo cáo?

Crawl-delay không được hỗ trợ nhất quán trên các công cụ tìm kiếm chính. Một số trình thu thập có thể nhận ra nó, nhưng Google thì không. Công cụ đánh dấu nó để bạn coi nó như một chỉ thị nhắm mục tiêu cụ thể thay vì một cài đặt tốc độ thu thập dữ liệu chung.

Tham khảo nội dung, trang hoặc công cụ này như sau:

"Trình tạo robots.txt" tại https://MiniWebtool.com/vi/trinh-tao-robotstxt/ từ MiniWebtool, https://MiniWebtool.com/

bởi đội ngũ miniwebtool. Cập nhật: 2026-03-09

Các công cụ liên quan khác:

Công cụ Kiểm tra Tuổi Tên miềnMới

Trình tạo thẻ HreflangMới

Trình tạo chuyển hướng HtaccessMới

Làm đẹp HTMLMới

Trình tạo thẻ Meta

Trình kiểm tra Open GraphMới

Kiểm tra Chuyển hướngMới

Trình tạo Schema MarkupMới

Tra cứu WHOISMới

Trình tạo Sơ đồ trang XMLMới

Công cụ quản trị web:

Máy tính CPC
Máy tính CPM
Máy nén CSS
Công cụ tạo favicon Mới
Máy tính Google AdSense
Tạo Cron Job
Công cụ tạo biểu thức Crontab Mới
Máy nén HTML
Trình chuyển đổi HTML sang văn bản Nổi bật
Công cụ kiểm tra mật độ từ khóa Mới
Trình tạo bảng Markdown
Trình tạo thẻ Meta
Công Cụ Xóa Dấu Ngoặc Kép Thông Minh
Trình Tạo Slug URL
Máy tính Giá trị Trang
Công cụ tính giá trị của một khách truy cập
Máy tính phân quyền Unix (chmod)
Công cụ Mã hóa/Giải mã Thực thể HTML
Trình tạo Lorem Ipsum Mới
Escape Unescape Chuỗi JSON
Công cụ chuyển đổi cURL sang JSON Mới
Trình định dạng SQL Mới
Công cụ tối ưu SVG Mới
Trình tạo chuyển hướng Htaccess Mới
Trình Kiểm Tra Kích Thước Thu Thập Googlebot Mới
Trình tạo robots.txt Mới
Trình tạo Sơ đồ trang XML Mới
Công cụ Kiểm tra Tuổi Tên miền Mới
Trình kiểm tra Open Graph Mới
Tra cứu WHOIS Mới
Tra cứu DNS Mới
Kiểm tra tốc độ trang Mới
Kiểm tra độ tin cậy tên miền Mới
Kiểm tra Chuyển hướng Mới
Trình tạo thẻ Hreflang Mới
Kiểm tra liên kết hỏng Mới

Trình tạo robots.txt

Chọn quy trình làm việc

Xác định ngữ cảnh trang web

Thiết lập đường dẫn cho phép và không cho phép chung

Thêm sitemap và các phần dành riêng cho bot

Dán tệp bạn muốn kiểm tra

Giới thiệu về Trình tạo robots.txt

Cách sử dụng

Chiến lược chỉ thị và các lỗi thường gặp

Các trường hợp sử dụng thực tế

Những gì Robots.txt không làm được

Câu hỏi thường gặp

Một tệp robots.txt nên chứa những gì cho một trang web công khai bình thường?

Robots.txt có ngăn một trang web được lập chỉ mục không?

Tôi có nên thêm dòng sitemap vào robots.txt?

Tại sao crawl-delay bị đánh dấu trong báo cáo?

Các công cụ liên quan khác:

Công cụ quản trị web:

Công cụ nổi bật: