เครื่องมือสร้าง robots.txt

สร้างไฟล์ robots.txt ที่พร้อมใช้งานสำหรับ search engine พร้อมตรวจสอบคำสั่งก่อนนำไปเผยแพร่ สร้างกฎทั่วไปและกฎเฉพาะสำหรับบอท เพิ่มคำแนะนำ sitemap และ crawl hints รวมถึงตรวจจับข้อผิดพลาดที่พบบ่อย เช่น การขาดกลุ่ม user-agent, URL ของ sitemap ไม่ถูกต้อง หรือรูปแบบ disallow ที่กว้างเกินไป

▦ ตัวอย่างด่วน

โหลดค่าที่ตั้งไว้ล่วงหน้าเพื่อสร้างไฟล์ robots.txt ที่ใช้งานได้จริงสำหรับไซต์สาธารณะ, ทดสอบนโยบายการรวบรวมข้อมูลอีคอมเมิร์ซที่เข้มงวดขึ้น หรือวางไฟล์ที่มีอยู่แล้วเพื่อตรวจสอบก่อนการใช้งานจริง

โหมด

เลือกขั้นตอนการทำงาน

การดำเนินการ สร้างไฟล์ robots.txt ใหม่จากฟิลด์ที่มีโครงสร้าง หรือตรวจสอบไฟล์ที่คุณมีอยู่แล้ว

พื้นฐาน

กำหนดบริบทของไซต์

URL ของไซต์ ใช้เพื่อแปลงเส้นทาง sitemap ให้เป็น URL แบบสมบูรณ์ เช่น `https://example.com/sitemap.xml`

user-agent หลัก ใช้ `*` สำหรับ crawler ทั้งหมด หรือระบุบอทเฉพาะเจาะจง เช่น `Googlebot`

ข้อความส่วนหัว (คอมเมนต์) บรรทัดคำอธิบายเพิ่มเติมที่ด้านบนสุดของไฟล์ที่สร้างขึ้น ควรเขียนให้สั้นและเป็นทางการ

กฎ

กำหนดเส้นทาง allow และ disallow ทั่วโลก

คำสั่ง Allow หนึ่งเส้นทางต่อบรรทัด ตัวอย่าง: `/` หรือ `/wp-admin/admin-ajax.php`

คำสั่ง Disallow บล็อกพื้นที่ที่มีมูลค่าต่ำ เช่น `/cart/`, `/checkout/`, `/search` หรือ `/admin/` ตามความเหมาะสม

บอท

เพิ่ม sitemap และส่วนเฉพาะสำหรับบอท

URL ของ Sitemap หนึ่ง sitemap ต่อบรรทัด เส้นทางสัมพัทธ์จะถูกแปลงโดยใช้ URL ของไซต์

บล็อก user-agent เพิ่มเติม วางกลุ่ม `User-agent:` แบบดิบที่นี่ สำหรับบอทรูปภาพ, บอทโฆษณา หรือกฎสำหรับ staging

Crawl-delay ไม่บังคับ คำสั่งนี้ไม่ได้รับการรองรับอย่างสม่ำเสมอในทุกโปรแกรมค้นหา

Host ไม่บังคับ มักจะเป็นชื่อโฮสต์เปล่าๆ เช่น `example.com`

คำสั่ง Clean-param ไม่บังคับ กฎการล้างพารามิเตอร์เฉพาะสำหรับบางเอนจิน หนึ่งคำสั่งต่อหนึ่งบรรทัด

การตรวจสอบ

วางไฟล์ที่คุณต้องการตรวจสอบ

เนื้อหา Robots.txt วางไฟล์ที่มีอยู่ให้เหมือนต้นฉบับทุกประการ รวมถึงคอมเมนต์และกลุ่ม crawler หลายกลุ่ม

คู่มือ

สิ่งที่เครื่องมือนี้ตรวจสอบ

รายงานจะมองหาปัญหาทางโครงสร้าง เช่น กลุ่ม `User-agent` ที่หายไป, URL ของ sitemap ที่ไม่สมบูรณ์, ค่า `Crawl-delay` ที่ไม่ใช่ตัวเลข และรูปแบบที่อาจบล็อกทรัพยากรที่สำคัญหรือทั้งไซต์

ใช้ robots.txt สำหรับการจัดการการรวบรวมข้อมูล ไม่ใช่เพื่อเป็นเกราะป้องกันความปลอดภัยสำหรับเนื้อหาที่ละเอียดอ่อน
การค้นหาภายใน, ตะกร้าสินค้า, หน้าชำระเงิน และเส้นทางผู้ดูแลระบบเป็นสิ่งที่ควรพิจารณาสำหรับ `Disallow`
อย่าบล็อก CSS, JavaScript หรือสินทรัพย์ที่แชร์ซึ่งช่วยให้โปรแกรมค้นหาประมวลผลหน้าเว็บได้โดยไม่จำเป็น
เผยแพร่ไฟล์สุดท้ายที่รูทของโดเมนเพื่อให้ URL จริงกลายเป็น `https://example.com/robots.txt`

User-agent Allow / Disallow Sitemap Crawl-delay

พื้นที่ผลลัพธ์จะรวมถึงไฟล์สุดท้าย, สรุปการรวบรวมข้อมูล และชุดคำเตือนหรือหมายเหตุที่คุณสามารถตรวจสอบได้ก่อนการใช้งานจริง

Embed เครื่องมือสร้าง robots.txt Widget

เกี่ยวกับ เครื่องมือสร้าง robots.txt

ไฟล์ robots.txt บอก crawler ว่าส่วนใดของไซต์ที่บอทสามารถดึงข้อมูลได้ ส่วนใดที่ควรอยู่นอกคิวการรวบรวมข้อมูล และ XML sitemap อยู่ที่ไหน เพื่อการมองเห็นในด้าน SEO และภูมิศาสตร์ เป้าหมายไม่ใช่การบล็อกทุกอย่างที่เสี่ยงโดยค่าเริ่มต้น แต่เป้าหมายคือการปกป้องเส้นทางที่มีมูลค่าต่ำ ประหยัดงบประมาณการรวบรวมข้อมูล (crawl budget) สำหรับหน้าหลัก และทำให้ไฟล์สอดคล้องกับสิ่งที่เป็นสาธารณะจริงๆ บนโดเมน นโยบาย robots.txt ที่มีประโยชน์มักระบุส่วนที่เป็นรูปธรรม เช่น โฟลเดอร์ผู้ดูแลระบบ, ขั้นตอนการชำระเงิน, URL การค้นหาภายใน, ตัวกรองรายละเอียด หรือบล็อกเฉพาะสำหรับ staging มากกว่าแค่ "การตั้งค่า SEO" ที่คลุมเครือ

วิธีใช้งาน

เลือกโหมดสร้างหรือตรวจสอบ ใช้ `สร้าง robots.txt` เพื่อสร้างไฟล์ใหม่จากอินพุตที่มีโครงสร้าง หรือสลับไปที่ `ตรวจสอบ robots.txt ที่มีอยู่` หากคุณมีฉบับร่างหรือไฟล์จริงอยู่แล้ว
ป้อนกฎการรวบรวมข้อมูลและรายละเอียด sitemap เพิ่ม URL ของไซต์สาธารณะ, `User-agent` หลักของคุณ, เส้นทาง allow หรือ disallow หนึ่งรายการต่อบรรทัด และส่วนเฉพาะบอทหรือ URL sitemap เพิ่มเติมที่คุณต้องการ
สร้างรายงาน เรียกใช้เครื่องมือเพื่อสร้างไฟล์สุดท้าย ตรวจสอบกลุ่ม crawler ที่วิเคราะห์ได้ และตรวจสอบคำเตือนสำหรับรูปแบบที่เสี่ยง เช่น สินทรัพย์ที่ถูกบล็อก หรือ URL sitemap ที่ไม่สมบูรณ์
เผยแพร่หลังจากตรวจสอบแล้วเท่านั้น คัดลอกผลลัพธ์เมื่อกฎสะท้อนถึงความตั้งใจในการรวบรวมข้อมูลจริงของคุณ จากนั้นนำไฟล์ไปไว้ที่ `/robots.txt` บนโฮสต์จริงและทดสอบ URL ที่ติดตั้ง

กลยุทธ์การใช้คำสั่งและข้อผิดพลาดทั่วไป

คำสั่งหรือรูปแบบ	เมื่อใดที่ช่วยได้	สิ่งที่มักจะผิดพลาด
`User-agent: *`	สร้างชุดกฎสากลสำหรับบอทส่วนใหญ่เมื่อไม่จำเป็นต้องมีการจัดการพิเศษ	มีการเพิ่มบรรทัด `Allow` และ `Disallow` ก่อนกำหนดกลุ่ม user-agent ใดๆ ซึ่งทำให้ความชัดเจนของตัววิเคราะห์ลดลง
`Disallow: /search`	มีประโยชน์สำหรับการบล็อกหน้าการค้นหาภายในไซต์ที่สร้างชุด URL ที่ซ้ำซ้อนและมีเนื้อหาน้อย	การบล็อกหน้าหมวดหมู่สาธารณะหรือหน้าผลิตภัณฑ์โดยอุบัติเหตุ เนื่องจากรูปแบบเส้นทางกว้างกว่าที่ตั้งใจไว้
`Sitemap: https://example.com/sitemap.xml`	ช่วยให้ crawler ค้นพบ URL หลักและเนื้อหาใหม่ได้เร็วขึ้น	การใช้เส้นทางสัมพัทธ์หรือ URL sitemap ของ staging ที่ล้าสมัยในสภาพแวดล้อมจริง
`Crawl-delay`	บางครั้งถูกเพิ่มสำหรับ crawler ที่ระบุว่ารองรับการหน่วงเวลาคำขอ	การทึกทักเอาเองว่า Google ปฏิบัติตาม Google จะเพิกเฉยต่อ `Crawl-delay` ดังนั้นมันจึงไม่ใช่กลไกควบคุมอัตราสากล
`Disallow: /assets/js/`	ไม่ค่อยจำเป็นสำหรับไซต์สาธารณะทั่วไป	การบล็อกทรัพยากรที่ใช้ในการประมวลผลหน้าเว็บ ซึ่งโปรแกรมค้นหาใช้เพื่อทำความเข้าใจเค้าโครง ฟังก์ชันการทำงาน และคุณภาพของหน้า

กรณีการใช้งานจริง

ในไซต์ WordPress กฎทั่วไปคือการปฏิเสธ `/wp-admin/` ในขณะที่อนุญาต `/wp-admin/admin-ajax.php` เพราะนั่นจะทำให้หน้าผู้ดูแลระบบส่วนใหญ่อยู่นอกเส้นทางการรวบรวมข้อมูลโดยไม่บล็อกเอนด์พอยต์ที่จำเป็นต้องใช้บ่อยๆ ในไซต์อีคอมเมิร์ซ robots.txt มักใช้เพื่อจำกัดการสิ้นเปลืองทรัพยากรจากการรวบรวมข้อมูลหน้าตะกร้าสินค้า, พื้นที่บัญชีผู้ใช้, ขั้นตอนการชำระเงิน, การนำทางแบบละเอียด หรือหน้าผลลัพธ์ภายในที่เกิดจากพารามิเตอร์การจัดเรียงและตัวกรอง ในไซต์ staging การปฏิเสธทั้งไซต์ชั่วคราวเป็นเรื่องที่เหมาะสม แต่ควรถูกเอาออกก่อนการเปิดตัวและตรวจสอบอีกครั้งหลังจากการเปลี่ยน DNS หรือการติดตั้งใหม่

ตัวตรวจสอบยังมีประโยชน์เมื่อได้รับไฟล์ต่อมาจากทีมอื่น โดยสามารถจับประเด็นเล็กๆ น้อยๆ เช่น บรรทัด sitemap ที่ไม่ใช่ URL แบบสมบูรณ์, คำสั่ง `Host` ที่ผิดรูปแบบ หรือค่า `Crawl-delay` ที่เขียนเป็นข้อความแทนที่จะเป็นตัวเลข รายละเอียดเหล่านี้มีความสำคัญเพราะไฟล์ robots.txt นั้นเรียบง่าย แต่ความผิดพลาดในระบบจริงก็มักจะเป็นเรื่องง่ายๆ เช่นกัน

สิ่งที่ Robots.txt ไม่ได้ทำ

Robots.txt เป็นไฟล์จัดการการรวบรวมข้อมูล ไม่ใช่ระบบควบคุมการเข้าถึงและไม่ใช่สวิตช์รับประกันการนำออกจากดัชนี หาก URL ถูกบล็อกแต่มีการลิงก์มาจากที่อื่น โปรแกรมค้นหาอาจยังคงแสดง URL นั้นในผลการค้นหาโดยไม่ได้รวบรวมข้อมูลเนื้อหาทั้งหมด เอกสารที่ละเอียดอ่อน, เครื่องมือผู้ดูแลระบบ และสภาพแวดล้อมส่วนตัวควรได้รับการปกป้องด้วยการยืนยันตัวตน, การจำกัดเครือข่าย หรือกลยุทธ์ noindex ที่ชัดเจนในหน้าที่รวบรวมข้อมูลได้ ความแตกต่างนี้เป็นหนึ่งในความเข้าใจผิดที่พบบ่อยที่สุดในการสนทนาเรื่อง Technical SEO

คำถามที่พบบ่อย (FAQ)

ไฟล์ robots.txt สำหรับเว็บไซต์สาธารณะทั่วไปควรประกอบด้วยอะไรบ้าง?

ไฟล์ที่ใช้งานจริงที่เหมาะสมมักจะเริ่มต้นด้วยกลุ่ม User-agent, บล็อกเฉพาะเส้นทางที่มีมูลค่าต่ำหรือเป็นส่วนตัว เช่น พื้นที่ผู้ดูแลระบบ, หน้าค้นหาภายใน, ตะกร้าสินค้า หรือหน้าบัญชีผู้ใช้ และรวม URL ของ sitemap พร้อมโปรโตคอลและชื่อโฮสต์ที่ครบถ้วน ไซต์สาธารณะส่วนใหญ่ไม่ควรบล็อก CSS, JavaScript หรือโฟลเดอร์เนื้อหาหลัก

robots.txt ป้องกันไม่ให้หน้าถูกทำดัชนี (index) หรือไม่?

ไม่ ไม่ใช่ด้วยตัวมันเอง Robots.txt บอก crawler ว่าไม่ต้องดึงข้อมูลอะไร แต่ URL ที่ถูกบล็อกยังสามารถถูกทำดัชนีได้จากลิงก์ภายนอกหรือสัญญาณที่พบก่อนหน้านี้ หากเป้าหมายที่แท้จริงของคุณคือการควบคุมดัชนี คุณต้องใช้วิธีที่ออกแบบมาเพื่อจุดประสงค์นั้น เช่น noindex ในหน้าที่รวบรวมข้อมูลได้ หรือการยืนยันตัวตนสำหรับทรัพยากรส่วนตัว

ฉันควรเพิ่มบรรทัด sitemap ใน robots.txt หรือไม่?

โดยปกติแล้วควรเพิ่ม คำสั่ง Sitemap: เป็นคำแนะนำที่สำคัญสำหรับ crawler และเป็นนิสัยที่ดีสำหรับไซต์ขนาดใหญ่ ไซต์หลายภาษา หรือไซต์ที่มีการอัปเดตบ่อย ให้ใช้ URL แบบสมบูรณ์แทนเส้นทางสัมพัทธ์เพื่อให้สัญญาณมีความชัดเจน

ทำไม crawl-delay ถึงถูกแจ้งเตือนในรายงาน?

Crawl-delay ไม่ได้รับการสนับสนุนอย่างสม่ำเสมอในโปรแกรมค้นหาหลักๆ crawler บางตัวอาจจดจำได้ แต่ Google ไม่รองรับ เครื่องมือนี้จึงแจ้งเตือนเพื่อให้คุณทราบว่าควรใช้เป็นคำสั่งเฉพาะกลุ่มบอท ไม่ใช่การตั้งค่าอัตราการรวบรวมข้อมูลสากล

อ้างอิงเนื้อหา หน้าหรือเครื่องมือนี้ว่า:

"เครื่องมือสร้าง robots.txt" ที่ https://MiniWebtool.com/th/เครื่องมือสร้าง-robots.txt/ จาก MiniWebtool, https://MiniWebtool.com/

โดยทีมงาน miniwebtool อัปเดตเมื่อ: 2026-03-09