O que esta ferramenta faz?

Ela lê qualquer bloco de texto, conta cada palavra distinta e as classifica da mais para a menos frequente. Você vê a tabela classificada, um gráfico de barras animado dimensionado pela palavra principal, uma nuvem de palavras com tamanhos de fonte dimensionados por raiz quadrada e estatísticas de diversidade lexical. Você pode baixar os resultados como CSV.

Por que filtrar palavras de parada (stop words)?

Em português ou inglês, as palavras mais comuns (como 'o', 'de', 'e', 'a', 'em') ofuscam tudo o que realmente carrega significado. As listas de palavras de parada removem essas palavras funcionais de alta frequência para que o relatório revele sobre o que o seu texto realmente trata. Fornecemos listas selecionadas para inglês, espanhol, francês, alemão, italiano e português, e você pode adicionar paradas personalizadas, como nomes de personagens ou marcas de produtos.

O que é a Relação Tipo-Token?

A Relação Tipo-Token (TTR) = palavras únicas / total de palavras. É uma medida clássica de diversidade lexical. Um artigo de notícias curto fica em torno de 0,5-0,7, enquanto um romance longo geralmente cai para 0,1-0,2 porque as palavras comuns se repetem. Uma TTR mais alta significa um vocabulário mais rico no nível analisado.

O que são hapax legomena?

Palavras que aparecem exatamente uma vez. Elas são um forte sinal de riqueza de vocabulário. Nas obras completas de Shakespeare, cerca de 14.000 de suas 31.000 palavras distintas são hapax. Uma alta porcentagem de hapax significa muitas ideias únicas; uma porcentagem baixa significa forte reutilização de um vocabulário pequeno.

Por que a nuvem de palavras é dimensionada pela raiz quadrada e não pela contagem?

Se a palavra principal aparece 200 vezes e a próxima palavra aparece 20 vezes, o dimensionamento linear torna a palavra principal 10× maior em altura — isso esmaga visualmente a nuvem e você não consegue ler mais nada. O dimensionamento por raiz quadrada comprime a diferença para cerca de 3×, mantendo a nuvem legível e ainda enfatizando as palavras dominantes. É assim que as ferramentas profissionais de nuvem de palavras sempre funcionaram.

Analisador de Frequência de Palavras

Cole qualquer texto e veja instantaneamente quais palavras aparecem com mais frequência. Obtenha uma tabela de frequência rankeada, um gráfico de barras animado, uma nuvem de palavras interativa, pontuação de diversidade lexical e filtragem opcional de stop-words em 6 idiomas. Exporte os resultados como CSV.

📚 Experimente um exemplo

Seu texto Cole qualquer prosa — um artigo, um ensaio, uma transcrição, até mesmo um capítulo inteiro de livro. Até 200.000 caracteres por execução.

Lista de palavras de parada

Comprimento mínimo da palavra

Mostrar os top

Palavras de parada personalizadas (opcional) Adicione nomes de personagens, nomes de marcas ou quaisquer palavras que você queira filtrar — separadas por vírgulas ou espaços.

Diferenciar maiúsculas/minúsculas Lematização básica (correm → correr) Contar números

Embed Analisador de Frequência de Palavras Widget

Analisador de Frequência de Palavras

O Analisador de Frequência de Palavras responde a uma pergunta simples com uma profundidade surpreendente: quais palavras este texto realmente mais utiliza? Cole qualquer bloco de prosa — um post de blog, uma transcrição, um capítulo, uma descrição de cargo, um discurso — e ele classifica cada palavra distinta pela frequência com que aparece, mapeia a distribuição e renderiza uma nuvem de palavras interativa dimensionada por frequência. A ferramenta foi feita para escritores verificarem repetições acidentais de palavras, especialistas em SEO que procuram densidade natural de palavras-chave, estudantes que estudam o vocabulário de um autor, pesquisadores que realizam uma verificação rápida de diversidade lexical e tradutores ou linguistas que exploram um texto desconhecido. Tudo roda no seu navegador ou em nosso servidor e nunca é armazenado.

O que torna este analisador diferente

Pré-visualização ao vivo enquanto você digita. O painel lateral atualiza instantaneamente a contagem de palavras únicas, total de palavras, TTR (diversidade lexical) e o top 5 ao vivo — sem precisar clicar em Analisar. Você pode testar filtros em segundos.
Listas de palavras de parada em seis idiomas. Inglês, espanhol, francês, alemão, italiano e português — listas selecionadas, sem excessos desnecessários. Além de um campo livre de palavras de parada personalizadas para nomes de personagens, marcas ou textos padrão.
Nuvem de palavras dimensionada por raiz quadrada. A maioria dos geradores de nuvem dimensiona as palavras pela contagem bruta, o que significa que a palavra principal pode ter 50× a altura das palavras de classificação intermediária, esmagando visualmente a nuvem. O dimensionamento por raiz quadrada mantém a nuvem legível e é a abordagem padrão do setor desde o Wordle (2009).
Visualização em pódio dos top 3. Uma olhada nos cartões de ouro/prata/bronze revela as palavras nas quais o seu texto mais se apoia — a primeira coisa a verificar quando você suspeita de repetição acidental.
Métricas de diversidade lexical. A Relação Tipo-Token e a contagem de hapax legomena fornecem uma pontuação de riqueza, não apenas uma lista bruta de frequências. Uma prosa curta com TTR > 0,6 é rica; uma TTR abaixo de 0,2 em um documento longo indica muita repetição.
Exportação em CSV com um clique. Baixe ou copie a tabela classificada completa para análise em planilhas.

Como usar esta ferramenta

Cole seu texto. Até 200.000 caracteres — cerca de 30,000 palavras, o comprimento de um capítulo longo de romance ou de vários posts de blog combinados.
Escolha o idioma das palavras de parada. Se você não filtrar as palavras de parada, o topo da tabela será preenchido com "o", "de", "e" — informativo uma vez, mas nunca mais. Escolha o idioma do seu texto ou selecione Nenhum para uma contagem de frequência totalmente bruta.
Defina um comprimento mínimo de palavra. Defina para 3 ou 4 se quiser pular "a", "o", "e", "não". Defina para 1 para manter tudo.
Escolha quantos resultados exibir. Top 50 é o ponto ideal para a maioria das prosas; Top 500 oferece toda a extensão da cauda longa.
Opções adicionais de alternância. Ative a diferenciação de maiúsculas/minúsculas se você se importa com a diferença entre "Paris" e "paris". Ative a lematização básica para agrupar variações como "correndo", "correu" e "correm" em "correr". Ative a contagem de números se números de versão, anos e estatísticas forem significativos no seu texto.
Clique em Analisar. Leia o pódio, examine a tabela com gráfico de barras, dê uma olhada na nuvem e exporte o CSV se quiser se aprofundar.

A matemática por trás das métricas

Frequência e porcentagem

Para cada palavra distinta \( w \), a contagem é o número de vezes que ela aparece na lista de tokens mantidos, e a porcentagem é \( \text{count}(w) / N \) onde \( N \) é o total de tokens mantidos. A largura da barra é relativa à palavra mais comum para que você possa ver o formato da distribuição num relance.

Relação Tipo-Token (TTR)

\( \text{TTR} = U / N \) onde \( U \) é o número de palavras únicas (tipos) e \( N \) é o total de tokens contados. A TTR é a medida mais simples de diversidade lexical. Um resumo de notícias curto geralmente fica entre 0,5 e 0,7; um romance longo cai para 0,15–0,25 porque as palavras comuns reaparecem constantemente. A TTR é sensível ao tamanho do texto — textos longos sempre têm TTR menor do que textos curtos, portanto, não compare a TTR entre documentos de tamanhos muito diferentes.

Hapax legomena

Um hapax legomenon (grego para "dito uma vez") é uma palavra que aparece exatamente uma vez no texto. A contagem de hapax e a porcentagem de hapax são sinais clássicos da riqueza do vocabulário. Nas obras completas de Shakespeare, cerca de 14.000 de suas 31.000 palavras distintas são hapax — aproximadamente 45%. Um post de blog moderno costuma atingir 60% ou mais de hapax porque não há texto suficiente para que as palavras se repitam.

Dimensionamento da fonte na nuvem de palavras

O tamanho da fonte para a palavra \( w \) na nuvem utiliza o dimensionamento por raiz quadrada entre as contagens mínima e máxima em exibição:

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

Isso comprime o alcance dinâmico para que uma palavra que aparece 200× tenha cerca de 3× a altura de uma palavra que aparece 20×, e não 10×. Sem essa compressão, a nuvem seria dominada por apenas uma ou duas palavras gigantes.

Níveis de frequência codificados por cores

As barras e as palavras da nuvem são codificadas por cores de acordo com o nível de classificação para que você possa identificar o formato da sua distribuição num relance:

Nível 1 — classificações 1–5As 5 palavras nas quais seu texto mais se apoia. Se uma palavra de conteúdo relevante parar aqui, esse é o seu tema principal.

Nível 2 — classificações 6–15O elenco de apoio. Substantivos e verbos recorrentes que você usa para desenvolver a ideia principal.

Nível 3 — classificações 16–40O vocabulário mais amplo que envolve seus temas principais.

Nível 4 — classificações 41–100Termos especializados ou específicos — nomes próprios, jargões, entidades nomeadas.

Nível 5 — classificações 101+A cauda longa. Palavras usadas apenas uma ou duas vezes. Geralmente é onde vive o vocabulário mais interessante.

Casos de uso

Escritores — detectando repetição não intencional

Você ficará surpreso com a frequência com que uma única palavra ("rapidamente", "realmente", "essencialmente", o nome de um personagem) entra furtivamente no topo do seu rascunho. Cole um capítulo e observe o pódio de ouro-prata-bronze. Se uma palavra de conteúdo aparecer ali sem que você a tenha enfatizado conscientemente, você tem um vício de linguagem para editar.

SEO e marketing de conteúdo

Defina o filtro de palavras de parada e o comprimento mínimo e depois leia as top 25. Essas são as palavras que os mecanismos de pesquisa mais associarão à sua página. Se elas não corresponderem ao seu grupo de palavras-chave ideal, o SEO da sua página terá um desempenho abaixo do esperado. Evite o excesso de palavras-chave (keyword stuffing) — os algoritmos modernos penalizam a densidade não natural. Uma meta saudável é de cerca de 1–2% para a sua palavra-chave principal.

Estudo literário e estilística

Cole um capítulo de Dickens versus Hemingway e compare a TTR, a porcentagem de hapax e o comprimento médio das palavras. As impressões digitais numéricas dos estilos de escrita são incrivelmente consistentes em todas as suas obras — essa é a base da estilometria computacional.

Análise de discursos e transcrições

Políticos e CEOs têm suas palavras favoritas. Execute um discurso no analisador com as palavras de parada removidas e as top 15 revelarão a estratégia da mensagem. Compare dois discursos do mesmo palestrante para ver o que mudou.

Tradução e aprendizado de idiomas

Ao trabalhar em uma tradução, execute o texto de origem primeiro para ver quais palavras de conteúdo dominam. Certifique-se de que sua tradução preserve a mesma ênfase. Para estudantes, escolher um artigo de 200 palavras e executá-lo sem filtragem de palavras de parada mostra quais palavras funcionais você precisa reconhecer fluentemente.

Pesquisa e escrita acadêmica

Muitos periódicos científicos esperam um vocabulário controlado nos resumos. Uma verificação de frequência antes do envio detecta o uso excessivo e acidental de jargões. Pesquisadores que realizam estudos de linguística de corpus usam listas de frequência como entrada inicial para trabalhos de colocação, n-gramas e modelagem de tópicos — esta ferramenta gera essa entrada.

Configurações recomendadas por tipo de documento

Documento	Palavras de parada	Comprimento mín	Top N	Lematizar
Post de blog / artigo	Português (ou seu idioma)	3	50	Desativado
Capítulo de romance	Português	3	100	Ativado (agrupa variações de verbos/plurais)
Artigo acadêmico	Português	4	100	Ativado
Thread do Tweet / post curto	Nenhum	1	25	Desativado
Pesquisa de SEO	Português	3	50	Ativado
Transcrição de discurso	Português	3	25	Desativado (você quer o fraseado exato)
Texto em idioma estrangeiro	Corresponder ao idioma	1	50	Desativado (lematizador apenas em inglês)

Perguntas frequentes

O que conta como uma "palavra"?

O tokenizador identifica uma ou mais letras Unicode, opcionalmente unidas por apóstrofos ou hífens. Assim, don't, state-of-the-art e l'ovvio são considerados, cada um, uma palavra. Os números são excluídos por padrão — ative "Contar números" se quiser incluí-los. O tokenizador funciona com os alfabetos Latino, Cirílico, Grego e escritas CJK.

O que o lematizador básico faz e o que ele não faz?

Ele realiza três transformações leves: remove o 's possessivo do inglês, agrupa terminações verbais comuns (-ing, -ed) e plurais simples (-s, -es, -ies → -y). Ele não realiza uma lematização morfológica completa (como melhor → bom, fui → ir). A lematização completa exigiria incluir o léxico WordNet e seria um exagero para a análise de frequência, onde as formas exatas das palavras costumam ser o que você deseja ver. Essa abordagem conservadora também evita as piores falhas de agrupamento radical: unir palavras semanticamente distintas (como "universidade" e "universo").

Por que a pré-visualização ao vivo e o resultado do servidor diferem ligeiramente?

A pré-visualização ao vivo apenas filtra palavras de parada em inglês no lado do cliente para manter o script leve — outros idiomas são totalmente filtrados no servidor. O servidor também aplica a lematização básica quando ativado. A contagem total de tokens é sempre a mesma entre os dois.

A ferramenta suporta escritas não latinas?

Sim — o tokenizador usa classes de caracteres Unicode, de modo que textos em Cirílico, Grego, Árabe, Hebraico, Chinês, Japonês e Coreano são tokenizados corretamente. O Chinês e o Japonês não usam espaços entre as palavras, portanto, cada sequência contínua de caracteres CJK é tratada como um único "token" — para uma segmentação de palavras real nesses idiomas, você precisaria de um tokenizador dedicado como o jieba (Chinês) ou MeCab (Japonês).

Qual é o limite máximo para o tamanho do texto?

200.000 caracteres por execução — cerca de 30.000 palavras em inglês ou um capítulo típico de romance. Além disso, a memória do navegador e o tamanho da requisição tornam-se uma preocupação; divida seu texto em partes menores.

O meu texto é privado?

Sim. O texto é processado em memória para renderizar a página de resultados e nunca é gravado no disco. As miniestatísticas ao vivo enquanto você digita rodam inteiramente no seu navegador. Nós não registramos, armazenamos ou analisamos o conteúdo que você cola.

Uma breve história da análise de frequência de palavras

As listas de frequência de palavras estão entre as ferramentas mais antigas da linguística. A primeira lista de frequência gerada por máquina em inglês foi o Index Thomisticus do Padre Roberto Busa, produzido entre 1949 e 1980, que contou cada palavra nas obras de Tomás de Aquino usando máquinas de cartões perfurados da IBM — amplamente considerado o projeto fundador das humanidades digitais. O Brown Corpus (1961) forneceu a primeira lista de frequência de um milhão de palavras amostrada sistematicamente do inglês americano moderno. Hoje, cada mecanismo de pesquisa, sistema de tradução automática, grande modelo de linguagem e ferramenta de SEO funciona com estatísticas de frequência de palavras e tokens em larga escala. A mesma classificação simples baseada em contadores que você vê nesta ferramenta é o núcleo desse campo de estudo.

Cite este conteúdo, página ou ferramenta como:

"Analisador de Frequência de Palavras" em https://MiniWebtool.com/br/analisador-de-frequencia-de-palavras/ de MiniWebtool, https://MiniWebtool.com/

pela equipe miniwebtool. Atualizado: 27 de maio de 2026

API para desenvolvedores disponível: Execute esta ferramenta no seu app, automação ou agente com uma requisição HTTP JSON. Ver documentação da API

Ferramentas estatísticas textuais:

Contador de caracteres
Contar Número de Caracteres
Contador de linhas Em Destaque
Calculadora de pontuação de legibilidade
Contador de palavras para ensaios
Analisador de Títulos Novo
Detector de Conteúdo por IA Novo
Contador de Tokens com IA Novo
Contador de Sílabas Novo
Contador de Frases Novo
Contador de Parágrafos Novo
Calculadora de Tempo de Fala Novo
Calculadora de Tempo de Leitura Novo
Editor de Legibilidade Estilo Hemingway Novo
Analisador de Variação de Comprimento de Frases Novo
Analisador de Frequência de Palavras Novo

Analisador de Frequência de Palavras

Analisador de Frequência de Palavras

O que torna este analisador diferente

Como usar esta ferramenta

A matemática por trás das métricas

Frequência e porcentagem

Relação Tipo-Token (TTR)

Hapax legomena

Dimensionamento da fonte na nuvem de palavras

Níveis de frequência codificados por cores

Casos de uso

Escritores — detectando repetição não intencional

SEO e marketing de conteúdo

Estudo literário e estilística

Análise de discursos e transcrições

Tradução e aprendizado de idiomas

Pesquisa e escrita acadêmica

Configurações recomendadas por tipo de documento

Perguntas frequentes

O que conta como uma "palavra"?

O que o lematizador básico faz e o que ele não faz?

Por que a pré-visualização ao vivo e o resultado do servidor diferem ligeiramente?

A ferramenta suporta escritas não latinas?

Qual é o limite máximo para o tamanho do texto?

O meu texto é privado?

Uma breve história da análise de frequência de palavras

Ferramentas estatísticas textuais:

Ferramentas em destaque: