Cosa fa questo strumento?

Legge qualsiasi blocco di testo, conta ogni parola distinta e le ordina dalla più alla meno frequente. Visualizzerai la tabella ordinata, un grafico a barre animato ridimensionato in base alla parola principale, una word cloud con dimensioni dei caratteri in scala radice quadrata e le statistiche di diversità lessicale. È possibile scaricare i risultati in formato CSV.

Perché filtrare le stop-word?

In inglese o in italiano, le parole più comuni (come 'il', 'di', 'e', 'un', 'a') oscurano tutto ciò che effettivamente trasporta un significato. Gli elenchi di stop-word rimuovono queste parole funzionali ad alta frequenza in modo che il report faccia emergere le parole su cui verte realmente il tuo testo. Offriamo elenchi curati per inglese, spagnolo, francese, tedesco, italiano e portoghese, ed è possibile aggiungere stop-word personalizzate come nomi di personaggi o marchi di prodotti.

Cos'è il Type-Token Ratio?

Il Type-Token Ratio (TTR) = parole uniche / parole totali. È una misura classica della diversità lessicale. Un breve articolo di giornale si aggira intorno a 0.5-0.7, mentre un lungo romanzo spesso scende a 0.1-0.2 perché le parole comuni ricorrono frequentemente. Un TTR più alto indica un vocabolario più ricco al livello analizzato.

Perché la word cloud è ridimensionata in base alla radice quadrata e non al conteggio?

Se la parola principale appare 200 volte e la parola successiva 20 volte, il ridimensionamento lineare renderebbe la parola principale 10 volte più alta, schiacciando visivamente la nuvola e rendendo il resto illeggibile. La scala a radice quadrata comprime la differenza a circa 3 volte, in modo che la nuvola rimanga leggibile pur continuando a enfatizzare le parole dominanti. È così che funzionano da sempre gli strumenti professionali di word cloud.

L'analizzatore conserva il mio testo?

No. Il tuo testo viene elaborato in memoria per generare questa pagina e non viene mai scritto su disco. Le mini-statistiche in tempo reale mentre digiti vengono eseguite interamente nel tuo browser. Non è presente alcun tracciamento di terze parti dei contenuti incollati.

Analizzatore di Frequenza delle Parole

Incolla qualsiasi testo e vedi istantaneamente quali parole appaiono più spesso. Ottieni una tabella delle frequenze classificata, un grafico a barre animato, una word cloud interattiva, il punteggio di diversità lessicale e il filtraggio opzionale delle stop-word in 6 lingue. Esporta i risultati come CSV.

📚 Prova un esempio

Il tuo testo Incolla qualsiasi testo: un articolo, un saggio, una trascrizione o persino l'intero capitolo di un romanzo. Fino a 200.000 caratteri per sessione.

Elenco stop-word

Lunghezza minima parola

Mostra i primi

Stop-word personalizzate (opzionale) Aggiungi nomi di personaggi, marchi o qualsiasi parola che desideri filtrare, separati da virgole o spazi.

Distingui maiuscole/minuscole Lemmatizzazione di base (corrono → correre) Conta i numeri

Embed Analizzatore di Frequenza delle Parole Widget

Analizzatore di Frequenza delle Parole

L'Analizzatore di Frequenza delle Parole risponde a una domanda semplice con una profondità sorprendente: quali parole usa di più questo testo? Incolla qualsiasi blocco di testo (un post di un blog, una trascrizione, un capitolo, una descrizione del lavoro, un discorso) e lo strumento ordinerà ogni parola distinta in base alla frequenza con cui appare, traccerà la distribuzione e genererà una word cloud interattiva dimensionata per frequenza. Questo strumento è pensato per gli scrittori che vogliono verificare la ripetizione accidentale di parole, per gli specialisti SEO alla ricerca di una densità di parole chiave naturale, per gli studenti che studiano il vocabolario di un autore, per i ricercatori che eseguono un rapido controllo della diversità lessicale e per i traduttori o linguisti che esplorano un testo non familiare. Tutto viene eseguito nel browser o sul nostro server e non viene mai memorizzato.

Cosa rende questo analizzatore diverso

Anteprima in tempo reale mentre digiti. Il pannello laterale aggiorna istantaneamente il conteggio delle parole uniche, delle parole totali, del TTR (diversità lessicale) e le prime 5 parole in tempo reale, senza dover fare clic su Analizza. Consente di testare i filtri in pochi secondi.
Elenchi di stop-word in sei lingue. Inglese, spagnolo, francese, tedesco, italiano e portoghese: elenchi curati accuratamente, non elenchi generici e sovraccarichi. Inoltre è presente un campo a formato libero per inserire stop-word personalizzate utili a escludere nomi di personaggi, marchi o testi standard.
Word cloud in scala a radice quadrata. La maggior parte dei generatori di nuvole di parole ridimensiona le parole in base al conteggio grezzo; ciò significa che la parola principale può avere un'altezza 50 volte superiore rispetto alle parole intermedie, schiacciando visivamente la nuvola. La scala basata sulla radice quadrata (sqrt) mantiene la nuvola leggibile ed è l'approccio standard del settore fin dai tempi di Wordle (2009).
La vista a "podio" dei primi 3. Un'occhiata alle schede oro, argento e bronzo ti mostra le parole su cui il tuo testo fa più affidamento: la prima cosa da verificare se sospetti una ripetizione accidentale.
Metriche di diversità lessicale. Il Type-Token Ratio e il conteggio degli hapax legomena forniscono un punteggio di ricchezza del testo, non un semplice elenco di frequenze. Un testo breve con un TTR > 0.6 è ricco; un TTR inferiore a 0.2 in un documento lungo indica ripetitività.
Esportazione CSV in un clic. Scarica o copia l'intera tabella ordinata per analizzarla in un foglio di calcolo.

Come usare questo strumento

Incolla il tuo testo. Fino a 200.000 caratteri, ovvero circa 30.000 parole, la lunghezza di un lungo capitolo di un romanzo o di diversi post di un blog combinati.
Scegli una lingua per le stop-word. Se non filtri le stop-word, la parte superiore della tabella sarà occupata da articoli e preposizioni come "il", "di", "e": utile una volta, ma non per analisi successive. Scegli la lingua del tuo testo o seleziona Nessuna per un conteggio reale delle frequenze grezze.
Imposta una lunghezza minima della parola. Impostala su 3 o 4 se desideri saltare parole corte come "a", "il", "no". Impostala su 1 per mantenere tutto.
Scegli quanti risultati visualizzare. I primi 50 sono il punto ideale per la maggior parte dei testi; i primi 500 ti mostrano l'intera coda lunga.
Opzioni facoltative. Attiva la distinzione tra maiuscole e minuscole se ritieni importante distinguere "Parigi" da "parigi". Attiva la lemmatizzazione di base per unire forme correlate come "corrono", "corse" e "correndo" sotto la voce radice. Attiva il conteggio dei numeri se i numeri di versione, gli anni e le statistiche sono significativi nel tuo testo.
Fai clic su Analizza. Leggi il podio, esamina la tabella con il grafico a barre, dai un'occhiata alla nuvola ed esporta il file CSV se desideri approfondire l'analisi.

La matematica dietro le metriche

Frequenza e percentuale

Per ogni parola distinta \( w \), il conteggio rappresenta il numero di volte in cui appare nell'elenco dei token mantenuti, e la percentuale è data da \( \text{count}(w) / N \) dove \( N \) è il totale dei token mantenuti. La larghezza della barra è relativa alla parola più comune, permettendoti di visualizzare la forma della distribuzione a colpo d'occhio.

Type-Token Ratio (TTR)

\( \text{TTR} = U / N \) dove \( U \) è il numero di parole uniche (types) e \( N \) è il totale dei token conteggiati. Il TTR è la misura più semplice della diversità lessicale. Un breve articolo di notizie si attesta solitamente su 0.5–0.7; un lungo romanzo scende a 0.15–0.25 perché le parole comuni ricorrono continuamente. Il TTR è sensibile alla lunghezza: i testi lunghi hanno sempre un TTR inferiore rispetto a quelli brevi, pertanto non confrontare il TTR tra documenti di dimensioni molto diverse.

Hapax legomena

Un hapax legomenon (dal greco "detto una sola volta") è una parola che compare esattamente una sola volta nel testo. Il conteggio e la percentuale degli hapax sono indicatori classici della ricchezza del vocabolario. Nelle opere complete di Shakespeare, circa 14.000 delle sue 31.000 parole distinte sono hapax, ovvero circa il 45%. Un moderno post di un blog raggiunge spesso il 60% o più di hapax perché non c'è abbastanza testo affinché le parole si ripetano.

Dimensionamento dei caratteri nella word cloud

La dimensione del carattere per la parola \( w \) nella nuvola utilizza un ridimensionamento a radice quadrata compreso tra i conteggi minimi e massimi visualizzati:

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

Questo sistema comprime l'intervallo dinamico in modo che una parola presente 200 volte sia circa 3 volte più alta di una parola presente 20 vezes, invece di 10 volte. Senza questa compressione, la nuvola verrebbe dominata solo da una o due parole giganti.

Livelli di frequenza codificati a colori

Le barre e le parole della nuvola sono codificate a colori in base al livello della loro posizione in classifica per individuare immediatamente la struttura della distribuzione:

Livello 1 — posizioni 1–5Le 5 parole su cui il tuo testo si appoggia maggiormente. Se una parola di contenuto finisce qui, rappresenta il tuo tema principale.

Livello 2 — posizioni 6–15Il cast di supporto. Sostantivi e verbi ricorrenti usati per sviluppare l'idea principale.

Livello 3 — posizioni 16–40Il vocabolario più ampio che circonda i temi principali.

Livello 4 — posizioni 41–100Termini specialistici o specifici: nomi propri, gergo, entità nominate.

Livello 5 — posizioni 101+La coda lunga. Parole usate una o due volte. Spesso è qui che risiede il vocabolario più interessante.

Casi d'uso

Scrittori — individuare ripetizioni non intenzionali

Ti sorprenderà vedere quanto spesso una singola parola ("rapidamente", "davvero", "essenzialmente", il nome di un personaggio) si intrufoli in cima alla tua bozza. Incolla un capitolo e guarda il podio oro-argento-bronzo. Se appare una parola di contenuto che non volevi enfatizzare consapevolmente, hai trovato un tic linguistico da correggere.

SEO e content marketing

Imposta il filtro delle stop-word e la lunghezza minima, quindi esamina le prime 25 parole. Queste sono le parole che i motori di ricerca assoceranno più fortemente alla tua pagina. Se non corrispondono al tuo cluster di parole chiave di destinazione, la tua SEO on-page non sarà efficace. Evita il keyword stuffing: gli algoritmi moderni penalizzano la densità innaturale. Un obiettivo salutare è di circa l'1–2% per la parola chiave principale.

Studi letterari e stilistica

Incolla un capitolo di Dickens rispetto a uno di Hemingway e confronta il TTR, la percentuale di hapax e la lunghezza media delle parole. Le impronte digitali numeriche degli stili d'autore sono straordinariamente coerenti in tutte le loro opere: questa è la base della stilometria computazionale.

Analisi di discorsi e trascrizioni

I politici e i CEO hanno parole preferite. Inserisci un discorso nell'analizzatore rimuovendo le stop-word e le prime 15 parole riveleranno la strategia di comunicazione utilizzata. Confronta due discorsi dello stesso oratore per vedere cosa è cambiato.

Traduzione e apprendimento delle lingue

Quando lavori a una traduzione, esegui prima il testo sorgente per vedere quali parole di contenuto dominano. Assicurati che la tua traduzione mantenga la stessa enfasi. Per gli studenti, scegliere un articolo di 200 parole ed eseguirlo senza filtri per le stop-word mostra quali parole funzionali sia necessario riconoscere con fluidità.

Ricerca e scrittura accademica

Molte riviste richiedono un vocabolario controllato negli abstract. Un controllo della frequenza prima dell'invio evita un uso eccessivo e accidentale del gergo specialistico. I ricercatori che conducono studi di linguistica dei corpora utilizzano gli elenchi di frequenza come input di partenza per lavori di collocazione, n-grammi e modellazione dei temi: questo strumento genera tale input.

Impostazioni consigliate per tipo di documento

Documento	Stop-word	Lunghezza min	Primi N	Lemmatizzazione
Post di un blog / articolo	Italiano (o la tua lingua)	3	50	Disattivato
Capitolo di un romanzo	Italiano	3	100	Attivato (unisce forme flesse dello stesso lemma)
Articolo accademico	Italiano	4	100	Attivato
Thread di tweet / post breve	Nessuna	1	25	Disattivato
Ricerca SEO	Italiano	3	50	Attivato
Trascrizione di un discorso	Italiano	3	25	Disattivato (serve il fraseggio esatto)
Testo in lingua straniera	Corrispondente alla lingua	1	50	Disattivato (lemmatizzatore solo inglese)

Domande frequenti

Cosa viene considerato come una "parola"?

Il tokenizer identifica una o più lettere Unicode, opzionalmente unite da apostrofi o trattini. Quindi don't, state-of-the-art e l'ovvio sono considerati ciascuno come una sola parola. I numeri sono esclusi per impostazione predefinita; attiva l'opzione "Conta i numeri" se desideri includerli. Il tokenizer funziona con caratteri latini, cirillici, greci e CJK.

Cosa fa il lemmatizzatore di base e cosa non fa?

Esegue tre trasformazioni leggere: elimina il genitivo sassone 's inglese, riduce le desinenze verbali comuni (-ing, -ed) e i plurali semplici (-s, -es, -ies → -y). Non esegue una lemmatizzazione morfologica completa (come better → good o went → go). Una lemmatizzazione completa richiederebbe l'integrazione del lessico WordNet, il che è eccessivo per un'analisi di frequenza in cui spesso si desidera visualizzare le forme esatte delle parole. Questo approccio conservativo evita inoltre il peggior errore dei sistemi di stemming: unire parole semanticamente diverse.

Perché l'anteprima in tempo reale e il risultato del server differiscono leggermente?

L'anteprima dal vivo filtra solo le stop-word inglesi lato client per mantenere lo script estremamente leggero; le altre lingue vengono filtrate completamente sul server. Il server applica inoltre la lemmatizzazione di base quando questa è attivata. Il conteggio totale dei token è comunque sempre lo stesso tra i due sistemi.

Lo strumento gestisce script non latini?

Sì, il tokenizer utilizza le classi di caratteri Unicode, quindi i testi in cirillico, greco, arabo, ebraico, cinese, giapponese e coreano vengono suddivisi correttamente in token. Il cinese e il giapponese non utilizzano spazi tra le parole, quindi ogni blocco contiguo di caratteri CJK viene trattato come un singolo "token"; per una vera segmentazione delle parole in quelle lingue sarebbe necessario un tokenizer dedicato come jieba (cinese) o MeCab (giapponese).

Qual è il limite massimo per la dimensione del testo?

200.000 caratteri per sessione, all'incirca 30.000 parole in inglese o un tipico capitolo di un romanzo. Oltre questo limite, la memoria del browser e la dimensione della richiesta diventano problematiche; si consiglia di suddividere il testo in parti più piccole.

Il mio testo è privato?

Sì. Il testo viene elaborato in memoria per generare la pagina dei risultati e non viene mai scritto su disco. Le mini-statistiche in tempo reale mentre digiti funzionano interamente nel tuo browser. Non registriamo, memorizziamo o analizziamo i contenuti incollati.

Una breve storia dell'analisi di frequenza delle parole

Gli elenchi di frequenza delle parole sono tra gli strumenti più antichi della linguistica. Il primo elenco di frequenze generato da una macchina per la lingua inglese è stato l'Index Thomisticus (1949–1980) di Padre Roberto Busa, che ha conteggiato ogni parola nelle opere di Tommaso d'Aquino utilizzando macchine a schede perforate IBM, progetto ampiamente considerato come l'atto fondativo delle discipline umanistiche digitali. Il Brown Corpus (1961) ha fornito il primo elenco di frequenza campionato sistematicamente su un milione di parole dell'inglese americano moderno. Oggi, ogni motore di ricerca, sistema di traduzione automatica, grande modello linguistico e strumento SEO si basa su statistiche di frequenza di parole e token su larga scala. La stessa semplice classifica basata su un contatore che vedi in questo strumento costituisce il nucleo fondamentale di questo campo di studi.

Cita questo contenuto, pagina o strumento come:

"Analizzatore di Frequenza delle Parole" su https://MiniWebtool.com/it/analizzatore-di-frequenza-delle-parole/ di MiniWebtool, https://MiniWebtool.com/

dal team miniwebtool. Aggiornato: 27 maggio 2026

API per sviluppatori disponibile: Esegui questo strumento dalla tua app, automazione o agente con una richiesta HTTP JSON. Vedi documentazione API

Strumenti statistici per il testo:

Contatore di caratteri
Conta il numero di caratteri In Primo Piano
Contatore di linea In Primo Piano
Calcolatore del punteggio di leggibilità
Contatore di parole per temi
Analizzatore di Titoli Nuovo
Rilevatore di contenuti IA Nuovo
Contatore di Token AI Nuovo
Contatore di Sillabe Nuovo
Contatore di Frasi Nuovo
Contatore di Paragrafi Nuovo
Calcolatore del Tempo di Parola Nuovo
Calcolatore del Tempo di Lettura Nuovo
Editor di Leggibilità Stile Hemingway Nuovo
Analizzatore di Varianza di Lunghezza Frasi Nuovo
Analizzatore di Frequenza delle Parole Nuovo

Analizzatore di Frequenza delle Parole

Analizzatore di Frequenza delle Parole

Cosa rende questo analizzatore diverso

Come usare questo strumento

La matematica dietro le metriche

Frequenza e percentuale

Type-Token Ratio (TTR)

Hapax legomena

Dimensionamento dei caratteri nella word cloud

Livelli di frequenza codificati a colori

Casi d'uso

Scrittori — individuare ripetizioni non intenzionali

SEO e content marketing

Studi letterari e stilistica

Analisi di discorsi e trascrizioni

Traduzione e apprendimento delle lingue

Ricerca e scrittura accademica

Impostazioni consigliate per tipo di documento

Domande frequenti

Cosa viene considerato come una "parola"?

Cosa fa il lemmatizzatore di base e cosa non fa?

Perché l'anteprima in tempo reale e il risultato del server differiscono leggermente?

Lo strumento gestisce script non latini?

Qual è il limite massimo per la dimensione del testo?

Il mio testo è privato?

Una breve storia dell'analisi di frequenza delle parole

Strumenti statistici per il testo:

Strumenti in primo piano: