Analizador de Frecuencia de Palabras
Pegue cualquier texto y vea instantáneamente qué palabras aparecen con más frecuencia. Obtenga una tabla de frecuencia clasificada, un gráfico de barras animado, una nube de palabras interactiva, una puntuación de diversidad léxica y filtrado opcional de palabras vacías en 6 idiomas. Exporte los resultados como CSV.
Tu bloqueador de anuncios impide que mostremos anuncios
MiniWebtool es gratis gracias a los anuncios. Si esta herramienta te ayudó, apóyanos con Premium (sin anuncios + herramientas más rápidas) o añade MiniWebtool.com a la lista de permitidos y recarga la página.
- O pásate a Premium (sin anuncios)
- Permite anuncios para MiniWebtool.com y luego recarga
Analizador de Frecuencia de Palabras
El Analizador de Frecuencia de Palabras responde a una pregunta sencilla con una profundidad sorprendente: ¿qué palabras utiliza realmente más un texto? Pega cualquier bloque de prosa (una publicación de blog, una transcripción, un capítulo, una descripción de puesto, un discurso) y clasificará cada palabra distinta según la frecuencia con la que aparece, trazará la distribución y generará una nube de palabras interactiva dimensionada por frecuencia. Esta herramienta está diseñada para escritores que revisan repeticiones accidentales de palabras, especialistas en SEO que buscan una densidad de palabras clave natural, estudiantes que estudian el vocabulario de un autor, investigadores que realizan una comprobación rápida de la diversidad léxica y traductores o lingüistas que exploran un texto desconocido. Todo se ejecuta en tu navegador o en nuestro servidor y nunca se almacena.
Qué hace diferente a este analizador
- Vista previa en vivo mientras escribes. El panel lateral actualiza instantáneamente el conteo de palabras únicas, las palabras totales, la TTR (diversidad léxica) y las 5 palabras principales en vivo, sin necesidad de hacer clic en Analizar. Puedes ajustar los filtros en cuestión de segundos.
- Listas de palabras de parada en seis idiomas. Español, inglés, francés, alemán, italiano y portugués: listas seleccionadas meticulosamente, no vaciados masivos de datos. Además, incluye un campo de palabras de parada personalizadas de formato libre para nombres de personajes, nombres de marcas o textos de relleno.
- Nube de palabras con escala de raíz cuadrada. La mayoría de los generadores de nubes dimensionan las palabras según el conteo bruto, lo que significa que la palabra principal puede tener 50 veces la altura de las palabras de rango medio, aplastando visualmente la nube. La escala de raíz cuadrada comprime la diferencia a aproximadamente 3 veces para que la nube siga siendo legible, un enfoque que es el estándar de la industria desde Wordle (2009).
- Vista en "podio" de los 3 primeros puestos. Un vistazo a las tarjetas de oro, plata y bronce te muestra las palabras en las que más se apoya tu texto; lo primero que debes revisar si sospechas de una repetición accidental.
- Métricas de diversidad léxica. La Relación Tipo-Token y el conteo de hapax legomena te ofrecen una puntuación de riqueza, no solo un simple vaciado de frecuencias. Una prosa corta con una TTR > 0.6 es rica; una TTR por debajo de 0.2 en un documento largo resulta repetitiva.
- Exportación a CSV con un solo clic. Descarga o copia la tabla clasificada completa para su análisis en hojas de cálculo.
Cómo usar esta herramienta
- Pega tu texto. Hasta 200,000 caracteres, aproximadamente 30,000 palabras, que equivalen a la longitud de un capítulo largo de una novela o de varias publicaciones de blog combinadas.
- Elige un idioma de palabras de parada. Si no filtras las palabras de parada, la parte superior de la tabla estará llena de palabras como "el", "de", "y" (informativas una vez, pero nunca más). Elige el idioma de tu texto o selecciona Ninguno para obtener un conteo de frecuencia bruto real.
- Establece una longitud mínima de palabra. Configúrala en 3 o 4 si deseas omitir palabras como "a", "y", "en", "no". Establécela en 1 para conservar todo.
- Elige cuántos resultados mostrar. Los 50 principales es el punto ideal para la mayoría de las prosas; los 500 principales te ofrecen la cola larga completa.
- Controles opcionales. Activa la opción de distinguir mayúsculas y minúsculas si te importa la diferencia entre "París" y "parís". Activa la lematización básica para unificar palabras como "corres", "corrió" y "corriendo" bajo "correr". Activa el recuento de números si los números de versión, los años y las estadísticas son significativos en tu texto.
- Haz clic en Analizar. Lee el podio, examina la tabla de gráfico de barras, echa un vistazo a la nube y exporta el CSV si deseas profundizar más.
Las matemáticas detrás de las métricas
Frecuencia y porcentaje
Para cada palabra distinta \( w \), el conteo es el número de veces que aparece en la lista de tokens conservados, y el porcentaje es \( \text{conteo}(w) / N \), donde \( N \) es el total de tokens conservados. El ancho de la barra es relativo a la palabra más común, lo que te permite ver la forma de la distribución de un vistazo.
Relación Tipo-Token (TTR)
\( \text{TTR} = U / N \), donde \( U \) es el número de palabras únicas (tipos) y \( N \) es el total de tokens contados. La TTR es la medida más simple de la diversidad léxica. Una nota de prensa corta suele situarse entre 0.5 y 0.7; una novela larga desciende a 0.15-0.25 porque las palabras comunes se repiten. La TTR es sensible a la longitud: los textos largos siempre tienen una TTR más baja que los cortos, por lo que no se debe comparar la TTR entre documentos de tamaños muy diferentes.
Hapax legomena
Un hapax legomenon (del griego "dicho una vez") es una palabra que aparece exactamente una vez en el texto. El conteo de hapax y el porcentaje de hapax son señales clásicas de la riqueza del vocabulario. En las obras completas de Shakespeare, aproximadamente 14,000 de sus 31,000 palabras distintas son hapax, alrededor del 45%. Una publicación de blog moderna a menudo alcanza el 60% o más de hapax porque no hay suficiente texto para que las palabras se repitan.
Dimensionamiento de fuente en la nube de palabras
El tamaño de la fuente para la palabra \( w \) en la nube utiliza una escala de raíz cuadrada entre los conteos mínimos y máximos en pantalla:
\( \text{tamaño}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{conteo}(w)} - \sqrt{\text{mín}}}{\sqrt{\text{máx}} - \sqrt{\text{mín}}} \)
Esto comprime el rango dinámico para que una palabra que aparece 200 veces tenga aproximadamente 3 veces la altura de una que aparece 20 veces, en lugar de 10 veces. Sin esta compresión, la nube estaría dominada por una o dos palabras gigantes.
Niveles de frecuencia codificados por colores
Las barras y las palabras de la nube están codificadas por colores según su nivel de clasificación para que puedas identificar la estructura de la distribución de un vistazo:
Casos de uso
Escritores: detectar repeticiones involuntarias
Te sorprenderá ver con qué frecuencia una sola palabra ("rápidamente", "realmente", "esencialmente", el nombre de un personaje) se cuela en la parte superior de tu borrador. Pega un capítulo y observa el podio de oro, plata y bronce. Si aparece allí una palabra con contenido semántico que no enfatizaste conscientemente, tienes un tic lingüístico que corregir.
SEO y marketing de contenidos
Configura el filtro de palabras de parada y la longitud mínima, y luego lee las 25 principales. Estas son las palabras que los motores de búsqueda asociarán con mayor fuerza a tu página. Si no coinciden con tu grupo de palabras clave objetivo, el SEO de tu página tendrá un rendimiento inferior. Evita la saturación de palabras clave (keyword stuffing): los algoritmos modernos penalizan la densidad antinatural. Un objetivo saludable es de aproximadamente el 1-2% para tu palabra clave principal.
Estudios literarios y estilística
Pega un capítulo de Dickens frente a uno de Hemingway y compara la TTR, el porcentaje de hapax y la longitud promedio de las palabras. Las huellas numéricas de los estilos de autoría son notablemente consistentes en todo el conjunto de sus obras; esta es la base de la estilometría computacional.
Análisis de discursos y transcripciones
Los políticos y los directores ejecutivos tienen sus palabras favoritas. Pasa un discurso por el analizador eliminando las palabras de parada y las 15 principales revelarán la estrategia del mensaje. Compara dos discursos del mismo orador para ver qué ha cambiado.
Traducción y aprendizaje de idiomas
Al trabajar en una traducción, ejecuta primero el texto de origen para ver qué palabras de contenido dominan. Asegúrate de que tu traducción preserve el mismo énfasis. Para los estudiantes de idiomas, elegir un artículo de 200 palabras y ejecutarlo sin filtrado de palabras de parada muestra qué palabras funcionales necesitas reconocer con fluidez.
Investigación y redacción académica
Muchas revistas científicas esperan un vocabulario controlado en los resúmenes. Una comprobación de frecuencia antes del envío detecta el uso excesivo y accidental de jerga. Los investigadores que realizan estudios de lingüística de corpus utilizan las listas de frecuencia como datos de entrada iniciales para trabajos de colocación, n-gramas y modelado de temas; esta herramienta genera esos datos de entrada.
Configuraciones recomendadas por tipo de documento
| Documento | Palabras de parada | Longitud mín. | Principales N | Lematizar |
|---|---|---|---|---|
| Publicación de blog / artículo | Español (o tu idioma) | 3 | 50 | Desactivado |
| Capítulo de novela | Español | 3 | 100 | Activado (unificar "corres"/"corrió") |
| Artículo académico | Español | 4 | 100 | Activado |
| Hilo de Tweet / publicación corta | Ninguno | 1 | 25 | Desactivado |
| Investigación SEO | Español | 3 | 50 | Activado |
| Transcripción de discurso | Español | 3 | 25 | Desactivado (se busca la frase exacta) |
| Texto en idioma extranjero | Hacer coincidir el idioma | 1 | 50 | Desactivado (lematizador solo en inglés) |
Preguntas frecuentes
¿Qué se considera una "palabra"?
El tokenizador reconoce una o más letras Unicode, opcionalmente unidas por apóstrofes o guiones. Por lo tanto, don't, state-of-the-art y l'ovvio son cada uno una sola palabra. Los números se excluyen de forma predeterminada; activa "Contar números" si deseas incluirlos. El tokenizador funciona con escrituras latinas, cirílicas, griegas y CJK.
¿Qué hace el lematizador básico y qué no hace?
Realiza tres transformaciones ligeras: elimina el posesivo inglés 's, unifica las terminaciones verbales comunes (-ing, -ed) y los plurales simples (-s, -es, -ies → -y). No realiza una lematización morfológica completa (como better → good o went → go). Una lematización completa requeriría incluir el léxico de WordNet y resultaría excesiva para un análisis de frecuencia, donde a menudo lo que se desea ver son las formas exactas de las palabras. Este enfoque conservador también evita el peor fallo de los analizadores de raíces: unificar palabras semánticamente distintas (como "universidad" y "universo" que comparten raíz en Porter).
¿Por qué difieren ligeramente la vista previa en vivo y el resultado del servidor?
La vista previa en vivo solo filtra las palabras de parada en inglés en el lado del cliente para mantener el script muy ligero; los demás idiomas se filtran por completo en el servidor. El servidor también aplica la lematización básica cuando está activada. El conteo total de tokens siempre es idéntico entre ambos.
¿La herramienta maneja escrituras no latinas?
Sí, el tokenizador utiliza clases de caracteres Unicode, por lo que los textos en alfabeto cirílico, griego, árabe, hebreo, chino, japonés y coreano se tokenizan correctamente. Dado que el chino y el japonés no utilizan espacios entre palabras, cada secuencia continua de caracteres CJK se trata como un único "token"; para una segmentación de palabras real en esos idiomas necesitarías un tokenizador especializado como jieba (chino) o MeCab (japonés).
¿Cuál es el límite máximo del tamaño del texto?
200,000 caracteres por ejecución, aproximadamente 30,000 palabras en inglés o el capítulo típico de una novela. Más allá de eso, la memoria del navegador y el tamaño de la solicitud se convierten en un problema; divide el texto en partes más pequeñas.
¿Es privado mi texto?
Sí. El texto se procesa en memoria para generar la página de resultados y nunca se escribe en el disco. Las miniestadísticas en vivo mientras escribes se ejecutan por completo en tu navegador. No registramos, almacenamos ni analizamos el contenido que pegas.
Una breve historia del análisis de frecuencia de palabras
Las listas de frecuencia de palabras se encuentran entre las herramientas más antiguas de la lingüística. La primera lista de frecuencias generada por una máquina para el inglés fue el Index Thomisticus (1949–1980) del Padre Roberto Busa, que contó cada palabra en las obras de Tomás de Aquino utilizando máquinas de tarjetas perforadas de IBM, considerado unánimemente el proyecto fundacional de las humanidades digitales. El Brown Corpus (1961) proporcionó la primera lista de frecuencias de un millón de palabras muestreada sistemáticamente del inglés americano moderno. Hoy en día, cada motor de búsqueda, sistema de traducción automática, modelo de lenguaje grande (LLM) y herramienta SEO funciona con estadísticas de frecuencia de palabras y tokens a gran escala. La misma clasificación simple basada en contadores que ves en esta herramienta constituye el núcleo de este campo.
Cite este contenido, página o herramienta como:
"Analizador de Frecuencia de Palabras" en https://MiniWebtool.com/es// de MiniWebtool, https://MiniWebtool.com/
por el equipo de miniwebtool. Actualizado: 27 de mayo de 2026