¿Qué hace esta herramienta?

Lee cualquier bloque de texto, cuenta cada palabra distinta y las clasifica de mayor a menor frecuencia. Verás la tabla clasificada, un gráfico de barras animado dimensionado según la palabra principal, una nube de palabras con tamaños de fuente a escala de raíz cuadrada y estadísticas de diversidad léxica. Puedes descargar los resultados como CSV.

¿Por qué filtrar las palabras de parada?

En español, las palabras más comunes (como 'el', 'de', 'y', 'a', 'en') ahogan todo lo que realmente aporta significado. Las listas de palabras de parada eliminan estas palabras funcionales de alta frecuencia para que el informe resalte las palabras de las que trata realmente tu texto. Ofrecemos listas seleccionadas para español, inglés, francés, alemán, italiano y portugués, y puedes añadir paradas personalizadas como nombres de personajes o marcas de productos.

¿Qué es la Relación Tipo-Token?

La Relación Tipo-Token (TTR) = palabras únicas / palabras totales. Es una medida clásica de la diversidad léxica. Un artículo de noticias corto suele rondar el 0.5-0.7, mientras que una novela larga a menudo cae a 0.1-0.2 porque las palabras comunes se repiten. Una TTR más alta significa un vocabulario más rico en el nivel analizado.

¿Por qué la nube de palabras se dimensiona por raíz cuadrada y no por conteo?

Si la palabra principal aparece 200 veces y la siguiente palabra aparece 20 veces, el dimensionamiento lineal hace que la palabra principal tenga 10 veces más altura, lo que aplasta visualmente la nube y no permite leer nada más. La escala de raíz cuadrada comprime la diferencia a aproximadamente 3 veces para que la nube siga siendo legible y al mismo tiempo destaque las palabras dominantes. Así es como siempre han funcionado las herramientas profesionales de nube de palabras.

Analizador de Frecuencia de Palabras

Pegue cualquier texto y vea instantáneamente qué palabras aparecen con más frecuencia. Obtenga una tabla de frecuencia clasificada, un gráfico de barras animado, una nube de palabras interactiva, una puntuación de diversidad léxica y filtrado opcional de palabras vacías en 6 idiomas. Exporte los resultados como CSV.

📚 Probar un ejemplo

Tu texto Pega cualquier prosa: un artículo, un ensayo, una transcripción o incluso el capítulo completo de una novela. Hasta 200,000 caracteres por ejecución.

Lista de palabras de parada

Longitud mínima de palabra

Mostrar principales

Palabras de parada personalizadas (opcional) Añade nombres de personajes, nombres de marcas o cualquier palabra que desees filtrar, separadas por comas o espacios.

Distinguir mayúsculas y minúsculas Lematización básica (corres → correr) Contar números

Embed Analizador de Frecuencia de Palabras Widget

Analizador de Frecuencia de Palabras

El Analizador de Frecuencia de Palabras responde a una pregunta sencilla con una profundidad sorprendente: ¿qué palabras utiliza realmente más un texto? Pega cualquier bloque de prosa (una publicación de blog, una transcripción, un capítulo, una descripción de puesto, un discurso) y clasificará cada palabra distinta según la frecuencia con la que aparece, trazará la distribución y generará una nube de palabras interactiva dimensionada por frecuencia. Esta herramienta está diseñada para escritores que revisan repeticiones accidentales de palabras, especialistas en SEO que buscan una densidad de palabras clave natural, estudiantes que estudian el vocabulario de un autor, investigadores que realizan una comprobación rápida de la diversidad léxica y traductores o lingüistas que exploran un texto desconocido. Todo se ejecuta en tu navegador o en nuestro servidor y nunca se almacena.

Qué hace diferente a este analizador

Vista previa en vivo mientras escribes. El panel lateral actualiza instantáneamente el conteo de palabras únicas, las palabras totales, la TTR (diversidad léxica) y las 5 palabras principales en vivo, sin necesidad de hacer clic en Analizar. Puedes ajustar los filtros en cuestión de segundos.
Listas de palabras de parada en seis idiomas. Español, inglés, francés, alemán, italiano y portugués: listas seleccionadas meticulosamente, no vaciados masivos de datos. Además, incluye un campo de palabras de parada personalizadas de formato libre para nombres de personajes, nombres de marcas o textos de relleno.
Nube de palabras con escala de raíz cuadrada. La mayoría de los generadores de nubes dimensionan las palabras según el conteo bruto, lo que significa que la palabra principal puede tener 50 veces la altura de las palabras de rango medio, aplastando visualmente la nube. La escala de raíz cuadrada comprime la diferencia a aproximadamente 3 veces para que la nube siga siendo legible, un enfoque que es el estándar de la industria desde Wordle (2009).
Vista en "podio" de los 3 primeros puestos. Un vistazo a las tarjetas de oro, plata y bronce te muestra las palabras en las que más se apoya tu texto; lo primero que debes revisar si sospechas de una repetición accidental.
Métricas de diversidad léxica. La Relación Tipo-Token y el conteo de hapax legomena te ofrecen una puntuación de riqueza, no solo un simple vaciado de frecuencias. Una prosa corta con una TTR > 0.6 es rica; una TTR por debajo de 0.2 en un documento largo resulta repetitiva.
Exportación a CSV con un solo clic. Descarga o copia la tabla clasificada completa para su análisis en hojas de cálculo.

Cómo usar esta herramienta

Pega tu texto. Hasta 200,000 caracteres, aproximadamente 30,000 palabras, que equivalen a la longitud de un capítulo largo de una novela o de varias publicaciones de blog combinadas.
Elige un idioma de palabras de parada. Si no filtras las palabras de parada, la parte superior de la tabla estará llena de palabras como "el", "de", "y" (informativas una vez, pero nunca más). Elige el idioma de tu texto o selecciona Ninguno para obtener un conteo de frecuencia bruto real.
Establece una longitud mínima de palabra. Configúrala en 3 o 4 si deseas omitir palabras como "a", "y", "en", "no". Establécela en 1 para conservar todo.
Elige cuántos resultados mostrar. Los 50 principales es el punto ideal para la mayoría de las prosas; los 500 principales te ofrecen la cola larga completa.
Controles opcionales. Activa la opción de distinguir mayúsculas y minúsculas si te importa la diferencia entre "París" y "parís". Activa la lematización básica para unificar palabras como "corres", "corrió" y "corriendo" bajo "correr". Activa el recuento de números si los números de versión, los años y las estadísticas son significativos en tu texto.
Haz clic en Analizar. Lee el podio, examina la tabla de gráfico de barras, echa un vistazo a la nube y exporta el CSV si deseas profundizar más.

Las matemáticas detrás de las métricas

Frecuencia y porcentaje

Para cada palabra distinta \( w \), el conteo es el número de veces que aparece en la lista de tokens conservados, y el porcentaje es \( \text{conteo}(w) / N \), donde \( N \) es el total de tokens conservados. El ancho de la barra es relativo a la palabra más común, lo que te permite ver la forma de la distribución de un vistazo.

Relación Tipo-Token (TTR)

\( \text{TTR} = U / N \), donde \( U \) es el número de palabras únicas (tipos) y \( N \) es el total de tokens contados. La TTR es la medida más simple de la diversidad léxica. Una nota de prensa corta suele situarse entre 0.5 y 0.7; una novela larga desciende a 0.15-0.25 porque las palabras comunes se repiten. La TTR es sensible a la longitud: los textos largos siempre tienen una TTR más baja que los cortos, por lo que no se debe comparar la TTR entre documentos de tamaños muy diferentes.

Hapax legomena

Un hapax legomenon (del griego "dicho una vez") es una palabra que aparece exactamente una vez en el texto. El conteo de hapax y el porcentaje de hapax son señales clásicas de la riqueza del vocabulario. En las obras completas de Shakespeare, aproximadamente 14,000 de sus 31,000 palabras distintas son hapax, alrededor del 45%. Una publicación de blog moderna a menudo alcanza el 60% o más de hapax porque no hay suficiente texto para que las palabras se repitan.

Dimensionamiento de fuente en la nube de palabras

El tamaño de la fuente para la palabra \( w \) en la nube utiliza una escala de raíz cuadrada entre los conteos mínimos y máximos en pantalla:

\( \text{tamaño}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{conteo}(w)} - \sqrt{\text{mín}}}{\sqrt{\text{máx}} - \sqrt{\text{mín}}} \)

Esto comprime el rango dinámico para que una palabra que aparece 200 veces tenga aproximadamente 3 veces la altura de una que aparece 20 veces, en lugar de 10 veces. Sin esta compresión, la nube estaría dominada por una o dos palabras gigantes.

Niveles de frecuencia codificados por colores

Las barras y las palabras de la nube están codificadas por colores según su nivel de clasificación para que puedas identificar la estructura de la distribución de un vistazo:

Nivel 1 — clasificaciones 1–5Las 5 palabras en las que más se apoya tu texto. Si una palabra con significado real aterriza aquí, ese es tu tema central.

Nivel 2 — clasificaciones 6–15El reparto secundario. Sustantivos y verbos recurrentes que utilizas para desarrollar la idea principal.

Nivel 3 — clasificaciones 16–40El vocabulario más amplio que rodea a tus temas principales.

Nivel 4 — clasificaciones 41–100Términos especializados o específicos: nombres propios, jerga, entidades identificadas.

Nivel 5 — clasificaciones 101+La cola larga. Palabras utilizadas una o dos veces. A menudo es donde reside el vocabulario más interesante.

Casos de uso

Escritores: detectar repeticiones involuntarias

Te sorprenderá ver con qué frecuencia una sola palabra ("rápidamente", "realmente", "esencialmente", el nombre de un personaje) se cuela en la parte superior de tu borrador. Pega un capítulo y observa el podio de oro, plata y bronce. Si aparece allí una palabra con contenido semántico que no enfatizaste conscientemente, tienes un tic lingüístico que corregir.

SEO y marketing de contenidos

Configura el filtro de palabras de parada y la longitud mínima, y luego lee las 25 principales. Estas son las palabras que los motores de búsqueda asociarán con mayor fuerza a tu página. Si no coinciden con tu grupo de palabras clave objetivo, el SEO de tu página tendrá un rendimiento inferior. Evita la saturación de palabras clave (keyword stuffing): los algoritmos modernos penalizan la densidad antinatural. Un objetivo saludable es de aproximadamente el 1-2% para tu palabra clave principal.

Estudios literarios y estilística

Pega un capítulo de Dickens frente a uno de Hemingway y compara la TTR, el porcentaje de hapax y la longitud promedio de las palabras. Las huellas numéricas de los estilos de autoría son notablemente consistentes en todo el conjunto de sus obras; esta es la base de la estilometría computacional.

Análisis de discursos y transcripciones

Los políticos y los directores ejecutivos tienen sus palabras favoritas. Pasa un discurso por el analizador eliminando las palabras de parada y las 15 principales revelarán la estrategia del mensaje. Compara dos discursos del mismo orador para ver qué ha cambiado.

Traducción y aprendizaje de idiomas

Al trabajar en una traducción, ejecuta primero el texto de origen para ver qué palabras de contenido dominan. Asegúrate de que tu traducción preserve el mismo énfasis. Para los estudiantes de idiomas, elegir un artículo de 200 palabras y ejecutarlo sin filtrado de palabras de parada muestra qué palabras funcionales necesitas reconocer con fluidez.

Investigación y redacción académica

Muchas revistas científicas esperan un vocabulario controlado en los resúmenes. Una comprobación de frecuencia antes del envío detecta el uso excesivo y accidental de jerga. Los investigadores que realizan estudios de lingüística de corpus utilizan las listas de frecuencia como datos de entrada iniciales para trabajos de colocación, n-gramas y modelado de temas; esta herramienta genera esos datos de entrada.

Configuraciones recomendadas por tipo de documento

Documento	Palabras de parada	Longitud mín.	Principales N	Lematizar
Publicación de blog / artículo	Español (o tu idioma)	3	50	Desactivado
Capítulo de novela	Español	3	100	Activado (unificar "corres"/"corrió")
Artículo académico	Español	4	100	Activado
Hilo de Tweet / publicación corta	Ninguno	1	25	Desactivado
Investigación SEO	Español	3	50	Activado
Transcripción de discurso	Español	3	25	Desactivado (se busca la frase exacta)
Texto en idioma extranjero	Hacer coincidir el idioma	1	50	Desactivado (lematizador solo en inglés)

Preguntas frecuentes

¿Qué se considera una "palabra"?

El tokenizador reconoce una o más letras Unicode, opcionalmente unidas por apóstrofes o guiones. Por lo tanto, don't, state-of-the-art y l'ovvio son cada uno una sola palabra. Los números se excluyen de forma predeterminada; activa "Contar números" si deseas incluirlos. El tokenizador funciona con escrituras latinas, cirílicas, griegas y CJK.

¿Qué hace el lematizador básico y qué no hace?

Realiza tres transformaciones ligeras: elimina el posesivo inglés 's, unifica las terminaciones verbales comunes (-ing, -ed) y los plurales simples (-s, -es, -ies → -y). No realiza una lematización morfológica completa (como better → good o went → go). Una lematización completa requeriría incluir el léxico de WordNet y resultaría excesiva para un análisis de frecuencia, donde a menudo lo que se desea ver son las formas exactas de las palabras. Este enfoque conservador también evita el peor fallo de los analizadores de raíces: unificar palabras semánticamente distintas (como "universidad" y "universo" que comparten raíz en Porter).

¿Por qué difieren ligeramente la vista previa en vivo y el resultado del servidor?

La vista previa en vivo solo filtra las palabras de parada en inglés en el lado del cliente para mantener el script muy ligero; los demás idiomas se filtran por completo en el servidor. El servidor también aplica la lematización básica cuando está activada. El conteo total de tokens siempre es idéntico entre ambos.

¿La herramienta maneja escrituras no latinas?

Sí, el tokenizador utiliza clases de caracteres Unicode, por lo que los textos en alfabeto cirílico, griego, árabe, hebreo, chino, japonés y coreano se tokenizan correctamente. Dado que el chino y el japonés no utilizan espacios entre palabras, cada secuencia continua de caracteres CJK se trata como un único "token"; para una segmentación de palabras real en esos idiomas necesitarías un tokenizador especializado como jieba (chino) o MeCab (japonés).

¿Cuál es el límite máximo del tamaño del texto?

200,000 caracteres por ejecución, aproximadamente 30,000 palabras en inglés o el capítulo típico de una novela. Más allá de eso, la memoria del navegador y el tamaño de la solicitud se convierten en un problema; divide el texto en partes más pequeñas.

¿Es privado mi texto?

Sí. El texto se procesa en memoria para generar la página de resultados y nunca se escribe en el disco. Las miniestadísticas en vivo mientras escribes se ejecutan por completo en tu navegador. No registramos, almacenamos ni analizamos el contenido que pegas.

Una breve historia del análisis de frecuencia de palabras

Las listas de frecuencia de palabras se encuentran entre las herramientas más antiguas de la lingüística. La primera lista de frecuencias generada por una máquina para el inglés fue el Index Thomisticus (1949–1980) del Padre Roberto Busa, que contó cada palabra en las obras de Tomás de Aquino utilizando máquinas de tarjetas perforadas de IBM, considerado unánimemente el proyecto fundacional de las humanidades digitales. El Brown Corpus (1961) proporcionó la primera lista de frecuencias de un millón de palabras muestreada sistemáticamente del inglés americano moderno. Hoy en día, cada motor de búsqueda, sistema de traducción automática, modelo de lenguaje grande (LLM) y herramienta SEO funciona con estadísticas de frecuencia de palabras y tokens a gran escala. La misma clasificación simple basada en contadores que ves en esta herramienta constituye el núcleo de este campo.

Cite este contenido, página o herramienta como:

"Analizador de Frecuencia de Palabras" en https://MiniWebtool.com/es/analizador-de-frecuencia-de-palabras/ de MiniWebtool, https://MiniWebtool.com/

por el equipo de miniwebtool. Actualizado: 27 de mayo de 2026

API para desarrolladores disponible: Ejecuta esta herramienta desde tu app, automatización o agente con una solicitud HTTP JSON. Ver documentación de la API

Herramientas estadísticas de texto:

Contador de caracteres
Contar el número de caracteres
Contador de líneas Destacado
Calculadora de puntuación de legibilidad
Contador de palabras para ensayos
Analizador de Titulares Nuevo
Detector de Contenido con IA Nuevo
Contador de Tokens con IA Nuevo
Contador de Sílabas Nuevo
Contador de Oraciones Nuevo
Contador de Párrafos Nuevo
Calculadora de Tiempo de Discurso Nuevo
Calculadora de Tiempo de Lectura Nuevo
Editor de Legibilidad Estilo Hemingway Nuevo
Analizador de Variación de Longitud de Oraciones Nuevo
Analizador de Frecuencia de Palabras Nuevo

Analizador de Frecuencia de Palabras

Analizador de Frecuencia de Palabras

Qué hace diferente a este analizador

Cómo usar esta herramienta

Las matemáticas detrás de las métricas

Frecuencia y porcentaje

Relación Tipo-Token (TTR)

Hapax legomena

Dimensionamiento de fuente en la nube de palabras

Niveles de frecuencia codificados por colores

Casos de uso

Escritores: detectar repeticiones involuntarias

SEO y marketing de contenidos

Estudios literarios y estilística

Análisis de discursos y transcripciones

Traducción y aprendizaje de idiomas

Investigación y redacción académica

Configuraciones recomendadas por tipo de documento

Preguntas frecuentes

¿Qué se considera una "palabra"?

¿Qué hace el lematizador básico y qué no hace?

¿Por qué difieren ligeramente la vista previa en vivo y el resultado del servidor?

¿La herramienta maneja escrituras no latinas?

¿Cuál es el límite máximo del tamaño del texto?

¿Es privado mi texto?

Una breve historia del análisis de frecuencia de palabras

Herramientas estadísticas de texto:

Herramientas destacadas: