Generador de Robots.txt

Cree un archivo robots.txt listo para producción para motores de búsqueda y luego valide las directivas antes de publicarlo. Genere reglas globales y específicas por bot, añada sugerencias de sitemap y rastreo, y detecte errores comunes como grupos de user-agent faltantes, URLs de sitemap inválidas o patrones de desautorización demasiado amplios.

▦ Ejemplos rápidos

Cargue un ajuste preestablecido completo para generar un archivo robots.txt práctico para un sitio en vivo, pruebe una política de rastreo más estricta para comercio electrónico o pegue un archivo existente e inspecciónelo antes del despliegue.

Modo

Elija el flujo de trabajo

Acción Genere un nuevo archivo robots.txt a partir de campos estructurados o valide un archivo que ya tenga.

Conceptos Básicos

Defina el contexto del sitio

URL del Sitio Se usa para convertir las rutas de sitemap en URLs absolutas como `https://example.com/sitemap.xml`.

User-agent principal Use `*` para todos los rastreadores o apunte a un bot específico como `Googlebot`.

Comentario de encabezado Línea de comentario opcional para la parte superior del archivo generado. Manténgala operativa y breve.

Reglas

Establezca rutas globales de allow y disallow

Directivas Allow Una ruta por línea. Ejemplo: `/` o `/wp-admin/admin-ajax.php`.

Directivas Disallow Bloquee áreas de bajo valor como `/cart/`, `/checkout/`, `/search` o `/admin/` cuando sea apropiado.

Bots

Añada sitemap y secciones específicas de bots

URLs de Sitemap Un sitemap por línea. Las rutas relativas se convierten usando la URL del sitio.

Bloques adicionales de user-agent Pegue grupos crudos de `User-agent:` aquí para bots de imágenes, anuncios o reglas de prueba.

Crawl-delay Opcional. Esta directiva no es compatible de manera uniforme en todos los motores de búsqueda.

Host Opcional. Generalmente un nombre de host simple como `example.com`.

Directivas Clean-param Reglas opcionales de limpieza de parámetros específicas del motor, una directiva por línea.

Validación

Pegue el archivo que desea revisar

Contenido de Robots.txt Pegue el archivo existente exactamente como aparece, incluyendo comentarios y múltiples grupos de rastreadores.

Guía

Qué comprueba esta herramienta

El informe busca problemas estructurales como la falta de grupos `User-agent`, URLs de sitemap que no son absolutas, valores de `Crawl-delay` no numéricos y patrones que pueden bloquear recursos importantes o el sitio completo.

Use robots.txt para la gestión del rastreo, no como barrera de seguridad para contenido sensible.
La búsqueda interna, el carrito, el pago y las rutas de administración son candidatos comunes para `Disallow`.
No bloquee a la ligera el CSS, JavaScript o activos compartidos que ayudan a los motores de búsqueda a renderizar la página.
Publique el archivo final en la raíz del dominio para que la URL en vivo sea `https://example.com/robots.txt`.

User-agent Allow / Disallow Sitemap Crawl-delay

El área de resultados incluye el archivo final, un resumen de rastreo y un conjunto de advertencias o notas que puede revisar antes del despliegue.

Embed Generador de Robots.txt Widget

Generador de Robots.txt

Un archivo robots.txt indica a los rastreadores qué partes de un sitio pueden obtener, qué rutas deben permanecer fuera de la cola de rastreo y dónde se encuentra el sitemap XML. Para la visibilidad SEO y GEO, el objetivo no es bloquear todo lo arriesgado de forma predeterminada. El objetivo es proteger las rutas de rastreo de bajo valor, preservar el presupuesto de rastreo para las páginas canónicas y mantener el archivo alineado con lo que es realmente público en el dominio. Una política de robots.txt útil suele mencionar secciones concretas como carpetas de administración, flujos de pago, URLs de búsqueda interna, filtros por facetas o bloques exclusivos de prueba, en lugar de "ajustes de SEO" imprecisos.

Cómo Utilizar

Elija el modo generar o validar. Use `Generar robots.txt` para crear un nuevo archivo a partir de entradas estructuradas, o cambie a `Validar robots.txt existente` si ya tiene un borrador o archivo en vivo.
Ingrese las reglas de rastreo y detalles del sitemap. Añada la URL pública del sitio, su `User-agent` principal, una ruta de allow o disallow por línea y cualquier sección adicional específica para bots o URLs de sitemap que necesite.
Crear el informe. Ejecute la herramienta para construir el archivo final, revise los grupos de rastreadores analizados e inspeccione las advertencias sobre patrones riesgosos como activos bloqueados o falta de URLs de sitemap absolutas.
Publicar solo después de la revisión. Copie el resultado cuando las reglas reflejen su intención real de rastreo, luego coloque el archivo en `/robots.txt` en el nombre de host en vivo y pruebe la URL desplegada.

Estrategia de Directivas y Errores Comunes

Directiva o Patrón	Cuándo Ayuda	Qué Suele Salir Mal
`User-agent: *`	Crea un conjunto de reglas globales para la mayoría de los bots cuando no se requiere un manejo especial.	Se añaden líneas de `Allow` y `Disallow` antes de definir cualquier grupo de user-agent, lo que debilita la claridad del analizador.
`Disallow: /search`	Útil para bloquear páginas de búsqueda interna del sitio que crean combinaciones de URLs delgadas y duplicadas.	Bloqueo accidental de páginas públicas de categorías o productos porque el patrón de ruta es más amplio de lo previsto.
`Sitemap: https://example.com/sitemap.xml`	Ayuda a los rastreadores a descubrir URLs canónicas y contenido nuevo más rápido.	Uso de una ruta relativa o una URL de sitemap de prueba obsoleta en producción.
`Crawl-delay`	A veces se añade para rastreadores que documentan soporte para la limitación de solicitudes.	Asumir que Google lo obedece. Google ignora `Crawl-delay`, por lo que no es un mecanismo universal de control de frecuencia.
`Disallow: /assets/js/`	Raramente necesario en un sitio público normal.	Bloquear recursos de renderizado que los motores de búsqueda utilizan para comprender el diseño, la funcionalidad y la calidad de la página.

Casos de Uso Prácticos

En un sitio WordPress, una regla común es no permitir `/wp-admin/` mientras se permite `/wp-admin/admin-ajax.php`, porque eso mantiene la mayoría de las pantallas de administración fuera de las rutas de rastreo sin bloquear un endpoint frecuentemente necesario. En un sitio de comercio electrónico, el robots.txt se utiliza a menudo para limitar el desperdicio de rastreo de las páginas del carrito, áreas de cuenta, flujos de pago, navegación por facetas o páginas de resultados internos generadas por parámetros de ordenación y filtrado. En un sitio de prueba (staging), un bloqueo temporal de todo el sitio puede ser razonable, pero debe eliminarse antes del lanzamiento y volver a comprobarse tras cambios de DNS o de despliegue.

El validador también es útil al heredar un archivo de otro equipo. Puede detectar problemas sutiles como una línea de sitemap no absoluta, una directiva `Host` mal formada o un valor de `Crawl-delay` escrito como texto en lugar de número. Esos detalles importan porque un archivo robots.txt es sencillo, pero los errores de producción a menudo también lo son.

Qué No Hace Robots.txt

Robots.txt es un archivo de gestión de rastreo, no un sistema de control de acceso y no es un interruptor garantizado de desindexación. Si una URL está bloqueada pero enlazada desde otro lugar, los motores de búsqueda pueden seguir mostrando esa URL en los resultados de búsqueda sin rastrear su contenido completo. Los documentos sensibles, herramientas de administración y entornos privados deben protegerse con autenticación, restricciones de red o estrategias explícitas de noindex en páginas rastreables. Esa distinción es uno de los malentendidos más comunes en las conversaciones técnicas de SEO.

FAQ

¿Qué debe contener un archivo robots.txt para un sitio web público normal?

Un archivo de producción sensato suele comenzar con un grupo de User-agent, bloquea solo rutas de rastreo privadas o de bajo valor como áreas de administración, páginas de búsqueda interna, flujos de carrito o pantallas de cuenta, e incluye una URL de sitemap con el protocolo y nombre de host completos. La mayoría de los sitios públicos no deberían bloquear CSS, JavaScript ni sus carpetas de contenido principal.

¿El archivo robots.txt evita que una página sea indexada?

No, no por sí solo. Robots.txt indica a los rastreadores qué no obtener, pero una URL bloqueada aún puede ser indexada basándose en enlaces externos o señales descubiertas previamente. Si su objetivo real es el control del índice, necesita un método diseñado para ese propósito, como noindex en páginas rastreables o autenticación para recursos privados.

¿Debo añadir una línea de sitemap a robots.txt?

Normalmente sí. Una directiva Sitemap: es una fuerte indicación operativa para los rastreadores y un buen hábito para sitios grandes, multilingües o actualizados frecuentemente. Use una URL absoluta en lugar de una ruta relativa para que la señal sea inequívoca.

¿Por qué se señala crawl-delay en el informe?

Crawl-delay no es compatible de manera consistente entre los principales motores de búsqueda. Algunos rastreadores pueden reconocerlo, pero Google no. La herramienta lo señala para que lo trate como una directiva específica en lugar de una configuración universal de frecuencia de rastreo.

Cite este contenido, página o herramienta como:

"Generador de Robots.txt" en https://MiniWebtool.com/es/generador-de-robotstxt/ de MiniWebtool, https://MiniWebtool.com/

por el equipo de miniwebtool. Actualizado: 2026-03-09

Otras herramientas relacionadas:

Comprobador de antigüedad de dominioNuevo

Generador de Etiquetas HreflangNuevo

Generador de redirecciones HtaccessNuevo

Embellecedor de HTMLNuevo

Generador de Etiquetas Meta

Verificador de Open GraphNuevo

Verificador de RedireccionesNuevo

Generador de Marcado SchemaNuevo

Consulta WHOISNuevo

Generador de Sitemap XMLNuevo

Herramientas para administradores web:

Calculadora CPC
Calculadora CPM Destacado
Compresor CSS en línea
Generador de Favicon Nuevo
Calculadora de Google AdSense
Generador de Cron Job
Generador de expresión crontab Nuevo
Compresor HTML en línea
Conversor de HTML a Texto Destacado
Verificador de Densidad de Palabras Clave Nuevo
Generador de Tablas Markdown
Generador de Etiquetas Meta
Eliminador de Comillas Inteligentes
Generador de Slug de URL
Calculadora de Valor de Vista de Página
Calculadora de Valor de Visitantes
Calculadora de Permisos Unix (chmod)
Codificador/Decodificador de Entidades HTML
Generador de Lorem Ipsum Nuevo
Escape/Unescape de Cadenas JSON
Convertidor de cURL a JSON Nuevo
Formateador SQL Nuevo
Optimizador de SVG Nuevo
Generador de redirecciones Htaccess Nuevo
Verificador de Tamaño de Rastreo Googlebot Nuevo
Generador de Robots.txt Nuevo
Generador de Sitemap XML Nuevo
Comprobador de antigüedad de dominio Nuevo
Verificador de Open Graph Nuevo
Consulta WHOIS Nuevo
Consulta DNS Nuevo
Verificador de Velocidad de Página Nuevo
Verificador de Confianza de Dominio Nuevo
Verificador de Redirecciones Nuevo
Generador de Etiquetas Hreflang Nuevo
Verificador de Enlaces Rotos Nuevo

Generador de Robots.txt

Elija el flujo de trabajo

Defina el contexto del sitio

Establezca rutas globales de allow y disallow

Añada sitemap y secciones específicas de bots

Pegue el archivo que desea revisar

Generador de Robots.txt

Cómo Utilizar

Estrategia de Directivas y Errores Comunes

Casos de Uso Prácticos

Qué No Hace Robots.txt

FAQ

¿Qué debe contener un archivo robots.txt para un sitio web público normal?

¿El archivo robots.txt evita que una página sea indexada?

¿Debo añadir una línea de sitemap a robots.txt?

¿Por qué se señala crawl-delay en el informe?

Otras herramientas relacionadas:

Herramientas para administradores web:

Herramientas destacadas: