Analisador de Frequência de Palavras
Cole qualquer texto e veja instantaneamente quais palavras aparecem com mais frequência. Obtenha uma tabela de frequência rankeada, um gráfico de barras animado, uma nuvem de palavras interativa, pontuação de diversidade lexical e filtragem opcional de stop-words em 6 idiomas. Exporte os resultados como CSV.
Seu bloqueador de anúncios está impedindo a exibição de anúncios
O MiniWebtool é gratuito graças aos anúncios. Se esta ferramenta ajudou você, apoie-nos indo para o Premium (sem anúncios + ferramentas mais rápidas) ou coloque MiniWebtool.com na lista de permissões e recarregue a página.
- Ou faça upgrade para o Premium (sem anúncios)
- Permita anúncios para MiniWebtool.com e recarregue
Analisador de Frequência de Palavras
O Analisador de Frequência de Palavras responde a uma pergunta simples com uma profundidade surpreendente: quais palavras este texto realmente mais utiliza? Cole qualquer bloco de prosa — um post de blog, uma transcrição, um capítulo, uma descrição de cargo, um discurso — e ele classifica cada palavra distinta pela frequência com que aparece, mapeia a distribuição e renderiza uma nuvem de palavras interativa dimensionada por frequência. A ferramenta foi feita para escritores verificarem repetições acidentais de palavras, especialistas em SEO que procuram densidade natural de palavras-chave, estudantes que estudam o vocabulário de um autor, pesquisadores que realizam uma verificação rápida de diversidade lexical e tradutores ou linguistas que exploram um texto desconhecido. Tudo roda no seu navegador ou em nosso servidor e nunca é armazenado.
O que torna este analisador diferente
- Pré-visualização ao vivo enquanto você digita. O painel lateral atualiza instantaneamente a contagem de palavras únicas, total de palavras, TTR (diversidade lexical) e o top 5 ao vivo — sem precisar clicar em Analisar. Você pode testar filtros em segundos.
- Listas de palavras de parada em seis idiomas. Inglês, espanhol, francês, alemão, italiano e português — listas selecionadas, sem excessos desnecessários. Além de um campo livre de palavras de parada personalizadas para nomes de personagens, marcas ou textos padrão.
- Nuvem de palavras dimensionada por raiz quadrada. A maioria dos geradores de nuvem dimensiona as palavras pela contagem bruta, o que significa que a palavra principal pode ter 50× a altura das palavras de classificação intermediária, esmagando visualmente a nuvem. O dimensionamento por raiz quadrada mantém a nuvem legível e é a abordagem padrão do setor desde o Wordle (2009).
- Visualização em pódio dos top 3. Uma olhada nos cartões de ouro/prata/bronze revela as palavras nas quais o seu texto mais se apoia — a primeira coisa a verificar quando você suspeita de repetição acidental.
- Métricas de diversidade lexical. A Relação Tipo-Token e a contagem de hapax legomena fornecem uma pontuação de riqueza, não apenas uma lista bruta de frequências. Uma prosa curta com TTR > 0,6 é rica; uma TTR abaixo de 0,2 em um documento longo indica muita repetição.
- Exportação em CSV com um clique. Baixe ou copie a tabela classificada completa para análise em planilhas.
Como usar esta ferramenta
- Cole seu texto. Até 200.000 caracteres — cerca de 30,000 palavras, o comprimento de um capítulo longo de romance ou de vários posts de blog combinados.
- Escolha o idioma das palavras de parada. Se você não filtrar as palavras de parada, o topo da tabela será preenchido com "o", "de", "e" — informativo uma vez, mas nunca mais. Escolha o idioma do seu texto ou selecione Nenhum para uma contagem de frequência totalmente bruta.
- Defina um comprimento mínimo de palavra. Defina para 3 ou 4 se quiser pular "a", "o", "e", "não". Defina para 1 para manter tudo.
- Escolha quantos resultados exibir. Top 50 é o ponto ideal para a maioria das prosas; Top 500 oferece toda a extensão da cauda longa.
- Opções adicionais de alternância. Ative a diferenciação de maiúsculas/minúsculas se você se importa com a diferença entre "Paris" e "paris". Ative a lematização básica para agrupar variações como "correndo", "correu" e "correm" em "correr". Ative a contagem de números se números de versão, anos e estatísticas forem significativos no seu texto.
- Clique em Analisar. Leia o pódio, examine a tabela com gráfico de barras, dê uma olhada na nuvem e exporte o CSV se quiser se aprofundar.
A matemática por trás das métricas
Frequência e porcentagem
Para cada palavra distinta \( w \), a contagem é o número de vezes que ela aparece na lista de tokens mantidos, e a porcentagem é \( \text{count}(w) / N \) onde \( N \) é o total de tokens mantidos. A largura da barra é relativa à palavra mais comum para que você possa ver o formato da distribuição num relance.
Relação Tipo-Token (TTR)
\( \text{TTR} = U / N \) onde \( U \) é o número de palavras únicas (tipos) e \( N \) é o total de tokens contados. A TTR é a medida mais simples de diversidade lexical. Um resumo de notícias curto geralmente fica entre 0,5 e 0,7; um romance longo cai para 0,15–0,25 porque as palavras comuns reaparecem constantemente. A TTR é sensível ao tamanho do texto — textos longos sempre têm TTR menor do que textos curtos, portanto, não compare a TTR entre documentos de tamanhos muito diferentes.
Hapax legomena
Um hapax legomenon (grego para "dito uma vez") é uma palavra que aparece exatamente uma vez no texto. A contagem de hapax e a porcentagem de hapax são sinais clássicos da riqueza do vocabulário. Nas obras completas de Shakespeare, cerca de 14.000 de suas 31.000 palavras distintas são hapax — aproximadamente 45%. Um post de blog moderno costuma atingir 60% ou mais de hapax porque não há texto suficiente para que as palavras se repitam.
Dimensionamento da fonte na nuvem de palavras
O tamanho da fonte para a palavra \( w \) na nuvem utiliza o dimensionamento por raiz quadrada entre as contagens mínima e máxima em exibição:
\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)
Isso comprime o alcance dinâmico para que uma palavra que aparece 200× tenha cerca de 3× a altura de uma palavra que aparece 20×, e não 10×. Sem essa compressão, a nuvem seria dominada por apenas uma ou duas palavras gigantes.
Níveis de frequência codificados por cores
As barras e as palavras da nuvem são codificadas por cores de acordo com o nível de classificação para que você possa identificar o formato da sua distribuição num relance:
Casos de uso
Escritores — detectando repetição não intencional
Você ficará surpreso com a frequência com que uma única palavra ("rapidamente", "realmente", "essencialmente", o nome de um personagem) entra furtivamente no topo do seu rascunho. Cole um capítulo e observe o pódio de ouro-prata-bronze. Se uma palavra de conteúdo aparecer ali sem que você a tenha enfatizado conscientemente, você tem um vício de linguagem para editar.
SEO e marketing de conteúdo
Defina o filtro de palavras de parada e o comprimento mínimo e depois leia as top 25. Essas são as palavras que os mecanismos de pesquisa mais associarão à sua página. Se elas não corresponderem ao seu grupo de palavras-chave ideal, o SEO da sua página terá um desempenho abaixo do esperado. Evite o excesso de palavras-chave (keyword stuffing) — os algoritmos modernos penalizam a densidade não natural. Uma meta saudável é de cerca de 1–2% para a sua palavra-chave principal.
Estudo literário e estilística
Cole um capítulo de Dickens versus Hemingway e compare a TTR, a porcentagem de hapax e o comprimento médio das palavras. As impressões digitais numéricas dos estilos de escrita são incrivelmente consistentes em todas as suas obras — essa é a base da estilometria computacional.
Análise de discursos e transcrições
Políticos e CEOs têm suas palavras favoritas. Execute um discurso no analisador com as palavras de parada removidas e as top 15 revelarão a estratégia da mensagem. Compare dois discursos do mesmo palestrante para ver o que mudou.
Tradução e aprendizado de idiomas
Ao trabalhar em uma tradução, execute o texto de origem primeiro para ver quais palavras de conteúdo dominam. Certifique-se de que sua tradução preserve a mesma ênfase. Para estudantes, escolher um artigo de 200 palavras e executá-lo sem filtragem de palavras de parada mostra quais palavras funcionais você precisa reconhecer fluentemente.
Pesquisa e escrita acadêmica
Muitos periódicos científicos esperam um vocabulário controlado nos resumos. Uma verificação de frequência antes do envio detecta o uso excessivo e acidental de jargões. Pesquisadores que realizam estudos de linguística de corpus usam listas de frequência como entrada inicial para trabalhos de colocação, n-gramas e modelagem de tópicos — esta ferramenta gera essa entrada.
Configurações recomendadas por tipo de documento
| Documento | Palavras de parada | Comprimento mín | Top N | Lematizar |
|---|---|---|---|---|
| Post de blog / artigo | Português (ou seu idioma) | 3 | 50 | Desativado |
| Capítulo de romance | Português | 3 | 100 | Ativado (agrupa variações de verbos/plurais) |
| Artigo acadêmico | Português | 4 | 100 | Ativado |
| Thread do Tweet / post curto | Nenhum | 1 | 25 | Desativado |
| Pesquisa de SEO | Português | 3 | 50 | Ativado |
| Transcrição de discurso | Português | 3 | 25 | Desativado (você quer o fraseado exato) |
| Texto em idioma estrangeiro | Corresponder ao idioma | 1 | 50 | Desativado (lematizador apenas em inglês) |
Perguntas frequentes
O que conta como uma "palavra"?
O tokenizador identifica uma ou mais letras Unicode, opcionalmente unidas por apóstrofos ou hífens. Assim, don't, state-of-the-art e l'ovvio são considerados, cada um, uma palavra. Os números são excluídos por padrão — ative "Contar números" se quiser incluí-los. O tokenizador funciona com os alfabetos Latino, Cirílico, Grego e escritas CJK.
O que o lematizador básico faz e o que ele não faz?
Ele realiza três transformações leves: remove o 's possessivo do inglês, agrupa terminações verbais comuns (-ing, -ed) e plurais simples (-s, -es, -ies → -y). Ele não realiza uma lematização morfológica completa (como melhor → bom, fui → ir). A lematização completa exigiria incluir o léxico WordNet e seria um exagero para a análise de frequência, onde as formas exatas das palavras costumam ser o que você deseja ver. Essa abordagem conservadora também evita as piores falhas de agrupamento radical: unir palavras semanticamente distintas (como "universidade" e "universo").
Por que a pré-visualização ao vivo e o resultado do servidor diferem ligeiramente?
A pré-visualização ao vivo apenas filtra palavras de parada em inglês no lado do cliente para manter o script leve — outros idiomas são totalmente filtrados no servidor. O servidor também aplica a lematização básica quando ativado. A contagem total de tokens é sempre a mesma entre os dois.
A ferramenta suporta escritas não latinas?
Sim — o tokenizador usa classes de caracteres Unicode, de modo que textos em Cirílico, Grego, Árabe, Hebraico, Chinês, Japonês e Coreano são tokenizados corretamente. O Chinês e o Japonês não usam espaços entre as palavras, portanto, cada sequência contínua de caracteres CJK é tratada como um único "token" — para uma segmentação de palavras real nesses idiomas, você precisaria de um tokenizador dedicado como o jieba (Chinês) ou MeCab (Japonês).
Qual é o limite máximo para o tamanho do texto?
200.000 caracteres por execução — cerca de 30.000 palavras em inglês ou um capítulo típico de romance. Além disso, a memória do navegador e o tamanho da requisição tornam-se uma preocupação; divida seu texto em partes menores.
O meu texto é privado?
Sim. O texto é processado em memória para renderizar a página de resultados e nunca é gravado no disco. As miniestatísticas ao vivo enquanto você digita rodam inteiramente no seu navegador. Nós não registramos, armazenamos ou analisamos o conteúdo que você cola.
Uma breve história da análise de frequência de palavras
As listas de frequência de palavras estão entre as ferramentas mais antigas da linguística. A primeira lista de frequência gerada por máquina em inglês foi o Index Thomisticus do Padre Roberto Busa, produzido entre 1949 e 1980, que contou cada palavra nas obras de Tomás de Aquino usando máquinas de cartões perfurados da IBM — amplamente considerado o projeto fundador das humanidades digitais. O Brown Corpus (1961) forneceu a primeira lista de frequência de um milhão de palavras amostrada sistematicamente do inglês americano moderno. Hoje, cada mecanismo de pesquisa, sistema de tradução automática, grande modelo de linguagem e ferramenta de SEO funciona com estatísticas de frequência de palavras e tokens em larga escala. A mesma classificação simples baseada em contadores que você vê nesta ferramenta é o núcleo desse campo de estudo.
Cite este conteúdo, página ou ferramenta como:
"Analisador de Frequência de Palavras" em https://MiniWebtool.com/br// de MiniWebtool, https://MiniWebtool.com/
pela equipe miniwebtool. Atualizado: 27 de maio de 2026