Was macht dieses Tool?

Es liest jeden beliebigen Textblock, zählt jedes eindeutige Wort und ordnet sie vom häufigsten zum seltensten. Sie sehen eine rangierte Tabelle, ein animiertes Balkendiagramm basierend auf dem Top-Wort, eine Wortwolke mit Wurzel-skalierten Schriftgrößen sowie Statistiken zur lexikalischen Vielfalt. Sie können die Ergebnisse als CSV herunterladen.

Warum sollte man Stoppwörter filtern?

Im Englischen oder Deutschen übertönen die häufigsten Wörter ('der', 'die', 'das', 'und', 'ist') alles, was tatsächlich Bedeutung trägt. Stoppwortlisten entfernen diese hochfrequenten Funktionswörter, sodass der Bericht die Wörter hervorhebt, um die es in Ihrem Text wirklich geht. Wir bieten kuratierte Listen für Englisch, Spanisch, Französisch, Deutsch, Italienisch und Portugiesisch an, und Sie können eigene Stoppwörter wie Charakternamen oder Produktmarken hinzufügen.

Was ist das Type-Token-Verhältnis?

Das Type-Token-Verhältnis (TTR) = eindeutige Wörter / Gesamtzahl der Wörter. Es ist ein klassisches Maß für die lexikalische Vielfalt. Ein kurzer Zeitungsartikel liegt meist bei 0,5–0,7, ein langer Roman fällt oft auf 0,1–0,2 ab, da sich gebräuchliche Wörter ständig wiederholen. Ein höheres TTR bedeutet einen reicheren Wortschatz auf der analysierten Ebene.

Warum wird die Wortwolke nach der Quadratwurzel und nicht nach der Anzahl skaliert?

Wenn das häufigste Wort 200 Mal vorkommt und das nächste Wort 20 Mal, würde eine lineare Skalierung das Top-Wort 10-mal so groß machen – es würde die Wolke visuell erdrücken und man könnte nichts anderes mehr lesen. Die Quadratwurzel-Skalierung komprimiert den Unterschied auf etwa das 3-Fache, sodass die Wolke lesbar bleibt und dominante Wörter dennoch hervorgehoben werden. So haben professionelle Wortwolken-Tools schon immer funktioniert.

Worthäufigkeit Analysator

Fügen Sie einen beliebigen Text ein und sehen Sie sofort, welche Wörter am häufigsten vorkommen. Erhalten Sie eine sortierte Häufigkeitstabelle, ein animiertes Balkendiagramm, eine interaktive Wortwolke, einen lexikalischen Diversitäts-Score und optionale Stoppwort-Filterung für 6 Sprachen. Exportieren Sie die Ergebnisse als CSV.

📚 Beispiel ausprobieren

Ihr Text Fügen Sie beliebigen Text ein – einen Artikel, einen Aufsatz, ein Transkript oder sogar ein ganzes Roman-Kapitel. Bis zu 200.000 Zeichen pro Durchlauf.

Stoppwortliste

Minimale Wortlänge

Zeige Top

Eigene Stoppwörter (optional) Fügen Sie Charakternamen, Markennamen oder andere Wörter hinzu, die herausgefiltert werden sollen – getrennt durch Kommas oder Leerzeichen.

Groß-/Kleinschreibung beachten Grundlegende Lemmatisierung (läuft → laufen) Zahlen mitzählen

Embed Worthäufigkeit Analysator Widget

Worthäufigkeit Analysator

Der Worthäufigkeits-Analysator beantwortet eine einfache Frage mit überraschender Tiefe: Welche Wörter verwendet dieser Text wirklich am meisten? Fügen Sie einen beliebigen Textblock ein – einen Blogpost, ein Transkript, ein Kapitel, eine Stellenbeschreibung, eine Rede – und das Tool ordnet jedes eindeutige Wort nach seiner Häufigkeit, stellt die Verteilung grafisch dar und rendert eine interaktive Wortwolke, deren Größe auf der Häufigkeit basiert. Das Tool wurde für Autoren entwickelt, die nach unbeabsichtigten Wortwiederholungen suchen, für SEO-Spezialisten, die eine natürliche Keyword-Dichte anstreben, für Studenten, die den Wortschatz eines Autors untersuchen, für Forscher, die eine schnelle Plausibilitätsprüfung der lexikalischen Vielfalt durchführen, sowie für Übersetzer oder Linguisten, die einen unbekannten Text erkunden. Alles läuft in Ihrem Browser oder auf unserem Server und wird niemals gespeichert.

Was diesen Analysator unterscheidet

Live-Vorschau während der Eingabe. Die Seitenleiste aktualisiert die Anzahl der eindeutigen Wörter, die Gesamtwortzahl, das TTR (lexikalische Vielfalt) und die Top 5 sofort live – ohne dass Sie auf Analysieren klicken müssen. So können Sie Filter in Sekundenschnelle anpassen.
Stoppwortlisten für sechs Sprachen. Englisch, Spanisch, Französisch, Deutsch, Italienisch und Portugiesisch – kuratierte Listen, keine überladenen Datensätze. Plus ein Freitextfeld für eigene Stoppwörter wie Charakternamen, Markennamen oder Textbausteine.
Quadratwurzel-skalierte Wortwolke. Die meisten Generatoren skalieren Wörter nach ihrer absoluten Anzahl, was dazu führt, dass das häufigste Wort 50-mal so hoch sein kann wie Wörter im mittleren Rang und die Wolke optisch erdrückt. Die Sqrt-Skalierung hält die Wortwolke lesbar und ist seit Wordle (2009) der Industriestandard.
Die Top-3-Podiumansicht. Ein Blick auf die Gold-, Silber- und Bronzekarten zeigt Ihnen die Wörter, auf die sich Ihr Text am stärksten stützt – der erste Kontrollpunkt, wenn Sie ungewollte Wiederholungen vermuten.
Metriken zur lexikalischen Vielfalt. Das Type-Token-Verhältnis und die Anzahl der Hapax Legomena liefern Ihnen einen Wert für den Reichtum des Textes, nicht nur eine einfache Häufigkeitsliste. Ein kurzer Text mit einem TTR > 0,6 ist wortreich; ein TTR von unter 0,2 in einem langen Dokument deutet auf viele Wiederholungen hin.
Ein-Klick-CSV-Export. Laden Sie die vollständige rangierte Tabelle herunter oder kopieren Sie sie für die Analyse in Tabellenkalkulationsprogrammen.

So nutzen Sie dieses Tool

Fügen Sie Ihren Text ein. Bis zu 200.000 Zeichen – das entspricht etwa 30.000 Wörtern, der Länge eines langen Roman-Kapitels oder mehrerer kombinierter Blogposts.
Wählen Sie eine Stoppwort-Sprache. Wenn Sie Stoppwörter nicht filtern, stehen am Anfang der Tabelle Wörter wie „der“, „die“, „das“, „und“ – das ist einmal informativ, danach nicht mehr. Wählen Sie die Sprache Ihres Textes oder „Keine“ für eine echte, ungefilterte Häufigkeitszählung.
Legen Sie eine Mindestwortlänge fest. Wählen Sie 3 oder 4, wenn Sie Wörter wie „a“, „ich“, „es“, „no“ überspringen möchten. Wählen Sie 1, um alles zu behalten.
Wählen Sie die Anzahl der anzuzeigenden Ergebnisse. Top 50 ist der Idealwert für die meisten Texte; Top 500 liefert Ihnen den vollständigen Long-Tail.
Optionale Einstellungen. Aktivieren Sie die Groß-/Kleinschreibung, wenn Sie zwischen „Paris“ und „paris“ unterscheiden möchten. Aktivieren Sie die grundlegende Lemmatisierung, um Wortformen wie „läuft“, „lief“ und „laufen“ zu „laufen“ zusammenzuführen. Aktivieren Sie das Zählen von Zahlen, wenn Versionsnummern, Jahreszahlen und Statistiken in Ihrem Text von Bedeutung sind.
Klicken Sie auf Analysieren. Betrachten Sie das Podium, überblicken Sie die Tabelle, werfen Sie einen Blick auf die Wortwolke und exportieren Sie die CSV-Datei, wenn Sie tiefer einsteigen möchten.

Die Mathematik hinter den Metriken

Häufigkeit und Prozentsatz

Für jedes eindeutige Wort \( w \) entspricht die Anzahl dem Vorkommen in der Liste der beibehaltenen Tokens, und der Prozentsatz ist \( \text{count}(w) / N \), wobei \( N \) die Gesamtzahl der beibehaltenen Tokens ist. Die Balkenbreite verhält sich relativ zum häufigsten Wort, sodass Sie die Form der Verteilung auf einen Blick erkennen können.

Type-Token-Verhältnis (TTR)

\( \text{TTR} = U / N \), wobei \( U \) die Anzahl der eindeutigen Wörter (Types) und \( N \) die Gesamtzahl der gezählten Tokens ist. Das TTR ist das einfachste Maß für die lexikalische Vielfalt. Eine kurze Nachrichtensubstanz liegt typischerweise bei 0,5–0,7; ein langer Roman sinkt auf 0,15–0,25, da sich gebräuchliche Wörter wiederholen. Das TTR ist längenabhängig – lange Texte haben immer ein niedrigeres TTR als kurze, vergleichen Sie daher das TTR nicht zwischen Dokumenten von stark unterschiedlicher Größe.

Hapax legomena

Ein Hapax Legomenon (griechisch für „einmal Gesagtes“) ist ein Wort, das exakt ein einziges Mal im Text vorkommt. Die Hapax-Anzahl und der Hapax-Prozentsatz sind klassische Indikatoren für den Reichtum des Wortschatzes. In Shakespeares Gesamtwerk sind etwa 14.000 seiner 31.000 eindeutigen Wörter Hapax Legomena – rund 45%. Ein moderner Blogpost erreicht oft 60% oder mehr, da der Text nicht lang genug ist, als dass sich viele Wörter wiederholen könnten.

Schriftgrößenbestimmung in der Wortwolke

Die Schriftgröße für ein Wort \( w \) in der Wolke nutzt eine Quadratwurzel-Skalierung zwischen den minimalen und maximalen angezeigten Häufigkeiten:

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

Dies komprimiert den dynamischen Bereich, sodass ein Wort mit 200 Nennungen etwa die 3-fache Höhe eines Wortes mit 20 Nennungen hat, anstatt der 10-fachen Höhe. Ohne diese Komprimierung würde die Wolke von nur ein oder zwei riesigen Wörtern dominiert.

Farbcodierte Häufigkeitsstufen (Tiers)

Die Balken und Wörter der Wolke sind nach Rangstufen farbcodiert, sodass Sie die Struktur Ihrer Verteilung sofort erkennen können:

Stufe 1 — Ränge 1–5Die 5 Wörter, auf die sich Ihr Text am meisten stützt. Wenn hier ein sinntragendes Wort landet, ist das Ihr Hauptthema.

Stufe 2 — Ränge 6–15Die unterstützenden Wörter. Wiederkehrende Substantive und Verben, mit denen Sie den Hauptgedanken ausbauen.

Stufe 3 — Ränge 16–40Das erweiterte Vokabular rund um Ihre Hauptthemen.

Stufe 4 — Ränge 41–100Fachbegriffe oder spezifische Ausdrücke – Eigennamen, Fachjargon, benannte Entitäten.

Stufe 5 — Ränge 101+Der Long-Tail. Wörter, die nur ein- oder zweimal verwendet werden. Oft der Bereich, in dem sich das interessanteste Vokabular befindet.

Anwendungsfälle

Autoren – unbeabsichtigte Wiederholungen aufspüren

Sie werden überrascht sein, wie oft sich ein einzelnes Wort („schnell“, „wirklich“, „eigentlich“, der Name eines Charakters) in Ihren Entwurf einschleicht. Fügen Sie ein Kapitel ein und betrachten Sie das Gold-Silber-Bronze-Podium. Wenn dort ein Begriff auftaucht, den Sie nicht bewusst betonen wollten, haben Sie ein sprachliches Laster gefunden, das Sie heruseditieren können.

SEO und Content-Marketing

Stellen Sie den Stoppwortfilter und die Mindestlänge ein und lesen Sie die Top 25 ab. Dies sind die Wörter, die Suchmaschinen am stärksten mit Ihrer Seite assoziieren werden. Wenn sie nicht mit Ihrem Ziel-Keyword-Cluster übereinstimmen, wird Ihr On-Page-SEO hinter den Erwartungen zurückbleiben. Vermeiden Sie Keyword-Stuffing – moderne Algorithmen strafen unnatürliche Dichte ab. Ein gesunder Richtwert liegt bei etwa 1–2% für Ihr Haupt-Keyword.

Literaturwissenschaft und Stilistik

Fügen Sie ein Kapitel von Dickens im Vergleich zu Hemingway ein und vergleichen Sie das TTR, den Hapax-Prozentsatz und die durchschnittliche Wortlänge. Die numerischen Fingerabdrücke von Autorenstilen sind in ihren Werken erstaunlich konsistent – dies ist die Grundlage der computergestützten Stylometrie.

Reden- und Transkriptanalyse

Politiker und CEOs haben Lieblingswörter. Lassen Sie eine Rede ohne Stoppwörter durch den Analysator laufen, und die Top 15 offenbaren die Kommunikationsstrategie. Vergleichen Sie zwei Reden desselben Sprechers, um zu sehen, was sich verändert hat.

Übersetzung und Sprachlernen

Wenn Sie an einer Übersetzung arbeiten, lassen Sie zuerst den Ausgangstext durchlaufen, um zu sehen, welche Inhaltswörter dominieren. Stellen Sie sicher, dass Ihre Übersetzung dieselbe Gewichtung beibehält. Für Lernende zeigt das Analysieren eines Artikels mit 200 Wörtern ohne Stoppwortfilter, welche Funktionswörter man fließend erkennen können muss.

Forschung und wissenschaftliches Schreiben

Viele Fachzeitschriften erwarten ein kontrolliertes Vokabular in Abstracts. Eine Häufigkeitsprüfung vor der Einreichung deckt eine unbeabsichtigte Überverwendung von Fachjargon auf. Forscher, die korpuslinguistische Studien durchführen, nutzen Häufigkeitslisten als Ausgangsbasis für Kollokations-, N-Gramm- und Themenmodellierungsarbeiten – dieses Tool generiert diese Basisdaten.

Empfohlene Einstellungen nach Dokumententyp

Dokument	Stoppwörter	Min. Länge	Top N	Lemmatisieren
Blogpost / Artikel	Deutsch (oder Ihre Sprache)	3	50	Aus
Roman-Kapitel	Deutsch	3	100	Ein (Formen zusammenführen)
Wissenschaftliche Arbeit	Deutsch	4	100	Ein
Tweet-Thread / Kurzpost	Keine	1	25	Aus
SEO-Recherche	Deutsch	3	50	Ein
Rede-Transkript	Deutsch	3	25	Aus (exakte Formulierung gewünscht)
Fremdsprachiger Text	Passende Sprache wählen	1	50	Aus (nur englischer Lemmatizer)

Häufig gestellte Fragen (FAQ)

Was zählt als ein „Wort“?

Der Tokenizer erfasst einen oder mehrere Unicode-Buchstaben, optional verbunden durch Apostrophe oder Bindestriche. Somit gelten don't, state-of-the-art und l'ovvio jeweils als ein Wort. Zahlen sind standardmäßig ausgeschlossen – schalten Sie „Zahlen mitzählen“ ein, wenn Sie diese einbeziehen möchten. Der Tokenizer funktioniert mit lateinischen, kyrillischen, griechischen und CJK-Schriften.

Was macht der grundlegende Lemmatizer und was nicht?

Er führt drei leichtgewichtige Transformationen durch: Entfernen des Genitiv-'s, Zusammenführen gängiger Verb-Endungen (-ing, -ed) und einfacher Plurale (-s, -es, -ies → -y). Er führt keine vollständige morphologische Lemmatisierung durch (better → good, went → go). Eine vollständige Lemmatisierung würde die Einbindung des WordNet-Lexikons erfordern und ist für eine Häufigkeitsanalyse, bei der man oft die exakten Wortformen sehen möchte, überproportional aufwendig. Der konservative Ansatz vermeidet zudem den schlimmsten Fehler von Stemmern: das Zusammenführen semantisch völlig unterschiedlicher Wörter.

Warum weichen die Live-Vorschau und das Server-Ergebnis leicht voneinander ab?

Die Live-Vorschau filtert clientseitig nur englische Stoppwörter, um das Skript minimal zu halten – andere Sprachen werden vollständig auf dem Server gefiltert. Der Server wendet zudem die grundlegende Lemmatisierung an, sofern diese aktiviert ist. Die Gesamtzahl der Tokens ist jedoch bei beiden immer identisch.

Unterstützt das Tool Nicht-Lateinische Schriften?

Ja – der Tokenizer verwendet Unicode-Zeichenklassen, sodass Texte in kyrillischer, griechischer, arabischer, hebräischer, chinesischer, japanischer und koreanischer Schrift korrekt tokenisiert werden. Da Chinesisch und Japanisch keine Leerzeichen zwischen den Wörtern verwenden, wird jede zusammenhängende Kette von CJK-Zeichen als ein einzelnes „Token“ behandelt – für eine echte Wortsegmentierung in diesen Sprachen bräuchte man einen speziellen Tokenizer wie jieba (Chinesisch) oder MeCab (Japanisch).

Wo liegt die Obergrenze für die Textgröße?

200.000 Zeichen pro Durchlauf – das entspricht etwa 30.000 englischen Wörtern oder einem typischen Roman-Kapitel. Darüber hinaus können der Browserspeicher und die Größe der Anfrage problematisch werden; teilen Sie Ihren Text in solchen Fällen in kleinere Abschnitte auf.

Bleibt mein Text privat?

Ja. Der Text wird flüchtig im Arbeitsspeicher verarbeitet, um die Ergebnisseite zu erstellen, und wird niemals dauerhaft gespeichert. Die Live-Ministatistiken während der Eingabe laufen vollständig lokal in Ihrem Browser. Wir protokollieren, speichern oder analysieren den von Ihnen eingefügten Inhalt nicht.

Eine kurze Geschichte der Worthäufigkeitsanalyse

Worthäufigkeitslisten gehören zu den ältesten Werkzeugen der Linguistik. Die erste maschinell erstellte Häufigkeitsliste des Englischen war der von Pater Roberto Busa zwischen 1949 und 1980 erarbeitete Index Thomisticus, der jedes Wort in den Werken von Thomas von Aquin mithilfe von Lochkartenmaschinen von IBM zählte – dies gilt weithin als das Gründungs-Projekt der Digital Humanities. Das Brown Corpus (1961) lieferte die erste systematisch erhobene, eine Million Wörter umfassende Häufigkeitsliste des modernen amerikanischen Englisch. Heute basiert jede Suchmaschine, jedes maschinelle Übersetzungssystem, jedes große Sprachmodell (LLM) und jedes SEO-Tool im großen Stil auf Wort- und Token-Häufigkeitsstatistiken. Dasselbe einfache, auf Zählern basierende Ranking, das Sie in diesem Tool sehen, bildet den Kern dieses Fachbereichs.

Zitieren Sie diesen Inhalt, diese Seite oder dieses Tool als:

"Worthäufigkeit Analysator" unter https://MiniWebtool.com/de/worthaufigkeit-analysator/ von MiniWebtool, https://MiniWebtool.com/

vom MiniWebtool-Team. Aktualisiert am 27. Mai 2026

Entwickler-API verfügbar: Führen Sie dieses Tool in Ihrer App, Automatisierung oder Ihrem Agenten mit einer JSON-HTTP-Anfrage aus. API-Dokumentation ansehen

Worthäufigkeit Analysator

Worthäufigkeit Analysator

Was diesen Analysator unterscheidet

So nutzen Sie dieses Tool

Die Mathematik hinter den Metriken

Häufigkeit und Prozentsatz

Type-Token-Verhältnis (TTR)

Hapax legomena

Schriftgrößenbestimmung in der Wortwolke

Farbcodierte Häufigkeitsstufen (Tiers)

Anwendungsfälle

Autoren – unbeabsichtigte Wiederholungen aufspüren

SEO und Content-Marketing

Literaturwissenschaft und Stilistik

Reden- und Transkriptanalyse

Übersetzung und Sprachlernen

Forschung und wissenschaftliches Schreiben

Empfohlene Einstellungen nach Dokumententyp

Häufig gestellte Fragen (FAQ)

Was zählt als ein „Wort“?

Was macht der grundlegende Lemmatizer und was nicht?

Warum weichen die Live-Vorschau und das Server-Ergebnis leicht voneinander ab?

Unterstützt das Tool Nicht-Lateinische Schriften?

Wo liegt die Obergrenze für die Textgröße?

Bleibt mein Text privat?

Eine kurze Geschichte der Worthäufigkeitsanalyse

Textstatistik-Tools:

Ausgewählte Werkzeuge: