Il lit n'importe quel bloc de texte, compte chaque mot distinct et les classe du plus au moins fréquent. Vous voyez le tableau classé, un graphique à barres animé dimensionné selon le mot le plus fréquent, un nuage de mots avec des tailles de police à l'échelle de la racine carrée et des statistiques de diversité lexicale. Vous pouvez télécharger les résultats au format CSV.

Pourquoi filtrer les mots vides ?

En anglais ou en français, les mots les plus fréquents ('le', 'de', 'et', 'un', 'à') masquent tout ce qui apporte réellement du sens. Les listes de mots vides suppriment ces mots fonctionnels à haute fréquence afin que le rapport fasse ressortir les mots qui traitent véritablement de votre texte. Nous proposons des listes sélectionnées pour l'anglais, l'espagnol, le français, l'allemand, l'italien et le portugais, et vous pouvez ajouter des mots vides personnalisés comme des noms de personnages ou des marques de produits.

Qu'est-ce que le Ratio Type-Token ?

Le Ratio Type-Token (TTR) = mots uniques / total des mots. C'est une mesure classique de la diversité lexicale. Un court article de presse se situe autour de 0,5-0,7, un long roman tombe souvent à 0,1-0,2 parce que les mots courants se répètent. Un TTR plus élevé signifie un vocabulaire plus riche au niveau analysé.

Pourquoi le nuage de mots est-il dimensionné par la racine carrée et non par le décompte brut ?

Si le mot principal apparaît 200 times et le mot suivant 20 times, un dimensionnement linéaire rend le mot principal 10× plus grand — cela écrase visuellement le nuage et vous ne pouvez plus rien lire d'autre. L'échelle de la racine carrée compresse la différence à environ 3× pour que le nuage reste lisible tout en mettant l'accent sur les mots dominants. C'est ainsi que les outils sérieux de nuage de mots ont toujours fonctionné.

Analyseur de Fréquence des Mots

Collez n’importe quel texte et voyez instantanément quels mots apparaissent le plus souvent. Obtenez un tableau de fréquence classé, un graphique en barres animé, un nuage de mots interactif, un score de diversité lexicale et un filtrage optionnel des mots vides dans 6 langues. Exportez les résultats au format CSV.

📚 Tester un exemple

Votre texte Collez de la prose — un article, un essai, une transcription, ou même un chapitre entier de roman. Jusqu'à 200 000 caractères par analyse.

Liste de mots vides

Longueur minimale des mots

Afficher le top

Mots vides personnalisés (optionnel) Ajoutez des noms de personnages, des noms de marques ou tout mot que vous souhaitez exclure — séparés par des virgules ou des espaces.

Sensible à la casse Lemmatisation de base (mangeons → manger) Compter les chiffres

Embed Analyseur de Fréquence des Mots Widget

Analyseur de Fréquence des Mots

L'Analyseur de Fréquence des Mots répond à une question simple avec une profondeur surprenante : quels mots ce texte utilise-t-il vraiment le plus ? Collez n'importe quel bloc de prose — un article de blog, une transcription, un chapitre, une description de poste, un discours — et il classe chaque mot distinct selon sa fréquence d'apparition, cartographie la distribution et génère un nuage de mots interactif proportionnel à leur récurrence. Cet outil est conçu pour les écrivains qui vérifient les répétitions involontaires de mots, les spécialistes du SEO à la recherche d'une densité naturelle de mots-clés, les étudiants qui étudient le vocabulaire d'un auteur, les chercheurs effectuant un contrôle rapide de la diversité lexicale, ainsi que les traducteurs ou linguistes explorant un texte inconnu. Tout s'exécute dans votre navigateur ou sur notre serveur et n'est jamais stocké.

Ce qui rend cet analyseur différent

Aperçu en direct pendant la frappe. Le panneau latéral met instantanément à jour le décompte des mots uniques, le total des mots, le TTR (diversité lexicale) et le top 5 actuel — sans avoir à cliquer sur Analyser. Vous pouvez ajuster vos filtres en quelques secondes.
Listes de mots vides en six langues. Anglais, espagnol, français, allemand, italien et portugais — des listes triées sur le volet, et non des bases de données surchargées. Comprend également un champ de mots vides personnalisés en texte libre pour filtrer les noms de personnages, les noms de marque ou les textes récurrents.
Nuage de mots à l'échelle de la racine carrée. La plupart des générateurs de nuages dimensionnent les mots selon leur décompte brut, ce qui signifie que le mot principal peut faire 50× la hauteur des mots de rang intermédiaire et écraser visuellement le nuage. L'échelle de la racine carrée préserve la lisibilité du nuage et constitue l'approche standard de l'industrie depuis Wordle (2009).
La vue "podium" du top 3. Un coup d'œil aux cartes or, argent et bronze vous indique les mots sur lesquels votre texte s'appuie le plus — la première chose à vérifier lorsque vous soupçonnez une répétition accidentelle.
Mesures de diversité lexicale. Le Ratio Type-Token et le décompte des hapax legomena vous donnent un score de richesse, et non un simple listing de fréquences. Une prose courte avec un TTR > 0,6 est riche ; un TTR inférieur à 0,2 dans un document long est répétitif.
Exportation CSV en un clic. Téléchargez ou copiez l'intégralité du tableau classé pour une analyse approfondie sur tableur.

Comment utiliser cet outil

Collez votre texte. Jusqu'à 200 000 caractères — environ 30 000 mots, soit la longueur d'un long chapitre de roman ou de plusieurs articles de blog combinés.
Sélectionnez une langue de mots vides. Si vous ne filtrez pas les mots vides, le haut du tableau sera saturé de "le", "de", "et" — une information utile une fois, mais plus après. Choisissez la langue de votre texte, ou sélectionnez "Aucune" pour obtenir un décompte de fréquence brut réel.
Définissez une longueur minimale de mot. Réglez-la sur 3 ou 4 si vous souhaitez ignorer les mots courts comme "à", "je", "il", "ne". Réglez-la sur 1 pour tout conserver.
Choisissez le nombre de résultats à afficher. Le Top 50 est idéal pour la plupart des textes en prose ; le Top 500 vous offre l'intégralité de la longue traîne.
Options facultatives. Activez la sensibilité à la casse si vous distinguez "Paris" de "paris". Activez la lemmatisation de base pour regrouper "mange", "mangeons" et "mangeait" sous la forme "manger". Activez le décompte des chiffres si les numéros de version, les années et les statistiques ont du sens dans votre texte.
Cliquez sur Analyser. Lisez le podium, parcourez le tableau graphique, jetez un coup d'œil au nuage et exportez le fichier CSV si vous souhaitez approfondir vos recherches.

Les mathématiques derrière les indicateurs

Fréquence et pourcentage

Pour chaque mot distinct \( w \), le décompte correspond au nombre de fois où il apparaît dans la liste des jetons conservés, et le pourcentage est \( \text{count}(w) / N \) où \( N \) est le total des jetons conservés. La largeur de la barre est relative au mot le plus fréquent pour vous permettre d'observer la forme de la distribution d'un seul coup d'œil.

Ratio Type-Token (TTR)

\( \text{TTR} = U / N \) où \( U \) est le nombre de mots uniques (types) et \( N \) est le total des jetons comptés. Le TTR est la mesure la plus simple de la diversité lexicale. Un court bulletin d'information se situe généralement entre 0,5 et 0,7 ; un long roman descend entre 0,15 et 0,25 car les mots courants se répètent fréquemment. Le TTR est sensible à la longueur — les textes longs ont toujours un TTR plus faible que les textes courts, il ne faut donc pas comparer le TTR de documents de tailles très différentes.

Hapax legomena

Un hapax legomenon (expression grecque signifiant "dit une seule fois") est un mot qui n'apparaît qu'une seule et unique fois dans le texte. Le décompte et le pourcentage d'hapax sont des indicateurs classiques de la richesse du vocabulaire. Dans les œuvres complètes de Shakespeare, environ 14 000 de ses 31 000 mots distincts sont des hapax — soit environ 45 %. Un article de blog moderne atteint souvent 60 % ou plus d'hapax car le texte n'est pas assez long pour que les mots se répètent.

Dimensionnement de la police du nuage de mots

La taille de la police pour le mot \( w \) dans le nuage utilise une échelle de racine carrée entre les décomptes minimum et maximum affichés :

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

Cela compresse la plage dynamique de sorte qu'un mot apparaissant 200× n'a qu'environ 3× la hauteur d'un mot apparaissant 20×, et non 10×. Sans cette compression, le nuage serait dominé par seulement un ou deux mots géants.

Niveaux de fréquence codés par couleur

Les barres et les mots du nuage sont codés par couleur selon leur niveau de classement afin que vous puissiez repérer la structure de votre distribution en un coup d'œil :

Niveau 1 — rangs 1 à 5Les 5 mots sur lesquels votre texte s'appuie le plus. Si un mot sémantique se trouve ici, il représente votre thème principal.

Niveau 2 — rangs 6 à 15Le groupe de soutien. Des noms et verbes récurrents que vous utilisez pour développer l'idée principale.

Niveau 3 — rangs 16 à 40Le vocabulaire plus large qui entoure vos thèmes principaux.

Niveau 4 — rangs 41 à 100Termes spécialisés ou spécifiques — noms propres, jargon, entités nommées.

Niveau 5 — rangs 101+La longue traîne. Mots utilisés une ou deux fois. C'est souvent là que réside le vocabulaire le plus intéressant.

Cas d'utilisation

Écrivains — repérer les répétitions involontaires

Vous serez surpris de voir à quel point un seul mot ("rapidement", "vraiment", "essentiellement", le nom d'un personnage) se glisse discrètement au sommet de votre brouillon. Collez un chapitre et observez le podium or-argent-bronze. Si un mot porteur de sens y apparaît alors que vous ne l'avez pas mis en avant délibérément, vous avez un tic d'écriture à corriger.

SEO et marketing de contenu

Configurez le filtre de mots vides et la longueur minimale, puis lisez le top 25. Ce sont les mots que les moteurs de recherche associeront le plus fortement à votre page. S'ils ne correspondent pas à votre groupe de mots-clés cibles, votre SEO on-page sera moins performant. Évitez le bourrage de mots-clés — les algorithmes modernes pénalisent la densité artificielle. Une cible saine se situe environ à 1-2 % pour votre mot-clé principal.

Études littéraires et stylistique

Collez un chapitre de Dickens face à un de Hemingway et comparez le TTR, le pourcentage d'hapax et la longueur moyenne des mots. Les signatures numériques des styles d'auteurs sont remarquablement cohérentes à travers l'ensemble de leurs œuvres — c'est le fondement de la stylométrie computationnelle.

Analyse de discours et de transcriptions

Les politiciens et les dirigeants ont leurs mots favoris. Passez un discours dans l'analyseur en supprimant les mots vides, et le top 15 révélera la stratégie de communication. Comparez deux discours du même orateur pour voir ce qui a changé.

Traduction et apprentissage des langues

Lors d'un travail de traduction, passez d'abord le texte source pour voir quels mots sémantiques dominent. Assurez-vous que votre traduction conserve la même importance. Pour les apprenants, choisir un article de 200 mots et l'analyser sans filtre de mots vides montre quels mots fonctionnels vous devez savoir reconnaître couramment.

Recherche et rédaction académique

De nombreuses revues attendent un vocabulaire contrôlé dans les résumés. Une vérification de la fréquence avant la soumission permet de détecter une surutilisation accidentelle du jargon. Les chercheurs qui mènent des études en linguistique de corpus utilisent les listes de fréquences comme point de départ pour les travaux de collocation, d'n-grammes et de modélisation thématique — cet outil génère ces données de départ.

Paramètres recommandés par type de document

Document	Mots vides	Long. min	Top N	Lemmatisation
Article de blog / article	Français (ou votre langue)	3	50	Désactivé
Chapitre de roman	Français	3	100	Activé (regrouper "mange"/"mangeait")
Article académique	Français	4	100	Activé
Fil de tweets / post court	Aucun	1	25	Désactivé
Recherche SEO	Français	3	50	Activé
Transcription de discours	Français	3	25	Désactivé (pour garder la formulation exacte)
Texte en langue étrangère	Faire correspondre la langue	1	50	Désactivé (lemmatiseur anglais uniquement)

Foire aux questions

Qu'est-ce qui est considéré comme un "mot" ?

Le sous-programme de découpage (tokenizer) fait correspondre une ou plusieurs lettres Unicode, éventuellement reliées par des apostrophes ou des traits d'union. Ainsi, don't, state-of-the-art, et l'ovvio comptent chacun pour un seul mot. Les chiffres sont exclus par défaut — cochez "Compter les chiffres" si vous souhaitez les inclure. Le tokenizer fonctionne avec les écritures latines, cyrilliques, grecques et CJK.

Que fait le lemmatiseur de base, et qu'est-ce qu'il ne fait pas ?

Il effectue trois transformations légères : la suppression du 's possessif en anglais, le regroupement des terminaisons verbales courantes (-ing, -ed) et les pluriels simples (-s, -es, -ies → -y). Il ne réalise pas de lemmatisation morphologique complète (mieux → bon, allait → aller). Une lemmatisation complète nécessiterait d'intégrer le lexique WordNet et s'avère superflue pour une analyse de fréquence où l'on souhaite souvent observer les formes exactes des mots. Cette approche prudente évite également le pire écueil des algorithmes de racinisation : regrouper des mots sémantiquement distincts.

Pourquoi l'aperçu en direct et le résultat du serveur diffèrent-ils légèrement ?

L'aperçu en direct ne filtre les mots vides que pour l'anglais côté client afin de garder un script très léger — les autres langues sont entièrement filtrées sur le serveur. Le serveur applique également la lemmatisation de base lorsqu'elle est activée. Le nombre total de jetons trouvés reste quant à lui toujours identique entre les deux.

L'outil gère-t-il les écritures non latines ?

Oui — le tokenizer utilise les classes de caractères Unicode, ce qui permet aux textes en cyrillique, grec, arabe, hébreu, chinois, japonais et coréen d'être correctement découpés en jetons. Le chinois et le japonais n'utilisant pas d'espaces entre les mots, chaque suite continue de caractères CJK est traitée comme un seul "jeton" — pour une véritable segmentation des mots dans ces langues, un tokenizer dédié comme jieba (chinois) ou MeCab (japonais) serait nécessaire.

Quelle est la limite supérieure pour la taille du texte ?

200 000 caractères par analyse — soit environ 30 000 mots en anglais ou un chapitre de roman typique. Au-delà, la mémoire du navigateur et la taille de la requête deviennent problématiques ; divisez votre texte en plusieurs passages plus courts.

Mon texte est-il confidentiel ?

Oui. Le texte est traité en mémoire pour générer la page de résultats et n'est jamais écrit sur le disque. Les mini-statistiques en direct pendant que vous tapez s'exécutent entièrement au sein de votre navigateur. Nous n'enregistrons, ne stockons ni n'analysons le contenu que vous collez.

Une brève histoire de l'analyse de fréquence des mots

Les listes de fréquence de mots comptent parmi les outils les plus anciens de la linguistique. La première liste de fréquences générée par machine pour l'anglais fut l'Index Thomisticus du Père Roberto Busa (1949–1980), qui recensa chaque mot des œuvres de Thomas d'Aquin à l'aide de machines à cartes perforées IBM — un projet largement considéré comme l'acte fondateur des humanités numériques. Le Brown Corpus (1961) a fourni la première liste de fréquences d'un million de mots échantillonnée de manière systématique pour l'anglais américain moderne. Aujourd'hui, chaque moteur de recherche, système de traduction automatique, grand modèle de langage et outil SEO s'appuie à grande échelle sur des statistiques de fréquence de mots et de jetons. Le même classement simple basé sur un compteur que vous observez dans cet outil constitue le cœur de ce domaine.

Citez ce contenu, cette page ou cet outil comme suit :

"Analyseur de Fréquence des Mots" sur https://MiniWebtool.com/fr/analyseur-de-frequence-des-mots/ de MiniWebtool, https://MiniWebtool.com/

par l'équipe de MiniWebtool. Mis à jour : 27 mai 2026

API développeur disponible: Exécutez cet outil depuis votre app, automatisation ou agent avec une requête HTTP JSON. Voir la documentation API

Outils statistiques textuels:

Compteur de caractères
Compter le nombre de caractères En vedette
Compteur de lignes En vedette
Calculateur de score de lisibilité
Compteur de mots pour les essais
Analyseur de Titres Nouveau
Détecteur de contenu IA Nouveau
Compteur de Tokens IA Nouveau
Compteur de Syllabes Nouveau
Compteur de Phrases Nouveau
Compteur de Paragraphes Nouveau
Calculateur de Temps de Parole Nouveau
Calculateur de Temps de Lecture Nouveau
Éditeur de Lisibilité Style Hemingway Nouveau
Analyseur de variance de longueur de phrases Nouveau
Analyseur de Fréquence des Mots Nouveau

Analyseur de Fréquence des Mots

Analyseur de Fréquence des Mots

Ce qui rend cet analyseur différent

Comment utiliser cet outil

Les mathématiques derrière les indicateurs

Fréquence et pourcentage

Ratio Type-Token (TTR)

Hapax legomena

Dimensionnement de la police du nuage de mots

Niveaux de fréquence codés par couleur

Cas d'utilisation

Écrivains — repérer les répétitions involontaires

SEO et marketing de contenu

Études littéraires et stylistique

Analyse de discours et de transcriptions

Traduction et apprentissage des langues

Recherche et rédaction académique

Paramètres recommandés par type de document

Foire aux questions

Qu'est-ce qui est considéré comme un "mot" ?

Que fait le lemmatiseur de base, et qu'est-ce qu'il ne fait pas ?

Pourquoi l'aperçu en direct et le résultat du serveur diffèrent-ils légèrement ?

L'outil gère-t-il les écritures non latines ?

Quelle est la limite supérieure pour la taille du texte ?

Mon texte est-il confidentiel ?

Une brève histoire de l'analyse de fréquence des mots

Outils statistiques textuels:

Outils en vedette: