Worthäufigkeit Analysator
Fügen Sie einen beliebigen Text ein und sehen Sie sofort, welche Wörter am häufigsten vorkommen. Erhalten Sie eine sortierte Häufigkeitstabelle, ein animiertes Balkendiagramm, eine interaktive Wortwolke, einen lexikalischen Diversitäts-Score und optionale Stoppwort-Filterung für 6 Sprachen. Exportieren Sie die Ergebnisse als CSV.
Dein Adblocker verhindert, dass wir Werbung anzeigen
MiniWebtool ist kostenlos dank Werbung. Wenn dir dieses Tool geholfen hat, unterstütze uns mit Premium (werbefrei + schneller) oder setze MiniWebtool.com auf die Whitelist und lade die Seite neu.
- Oder auf Premium upgraden (werbefrei)
- Erlaube Werbung für MiniWebtool.com, dann neu laden
Worthäufigkeit Analysator
Der Worthäufigkeits-Analysator beantwortet eine einfache Frage mit überraschender Tiefe: Welche Wörter verwendet dieser Text wirklich am meisten? Fügen Sie einen beliebigen Textblock ein – einen Blogpost, ein Transkript, ein Kapitel, eine Stellenbeschreibung, eine Rede – und das Tool ordnet jedes eindeutige Wort nach seiner Häufigkeit, stellt die Verteilung grafisch dar und rendert eine interaktive Wortwolke, deren Größe auf der Häufigkeit basiert. Das Tool wurde für Autoren entwickelt, die nach unbeabsichtigten Wortwiederholungen suchen, für SEO-Spezialisten, die eine natürliche Keyword-Dichte anstreben, für Studenten, die den Wortschatz eines Autors untersuchen, für Forscher, die eine schnelle Plausibilitätsprüfung der lexikalischen Vielfalt durchführen, sowie für Übersetzer oder Linguisten, die einen unbekannten Text erkunden. Alles läuft in Ihrem Browser oder auf unserem Server und wird niemals gespeichert.
Was diesen Analysator unterscheidet
- Live-Vorschau während der Eingabe. Die Seitenleiste aktualisiert die Anzahl der eindeutigen Wörter, die Gesamtwortzahl, das TTR (lexikalische Vielfalt) und die Top 5 sofort live – ohne dass Sie auf Analysieren klicken müssen. So können Sie Filter in Sekundenschnelle anpassen.
- Stoppwortlisten für sechs Sprachen. Englisch, Spanisch, Französisch, Deutsch, Italienisch und Portugiesisch – kuratierte Listen, keine überladenen Datensätze. Plus ein Freitextfeld für eigene Stoppwörter wie Charakternamen, Markennamen oder Textbausteine.
- Quadratwurzel-skalierte Wortwolke. Die meisten Generatoren skalieren Wörter nach ihrer absoluten Anzahl, was dazu führt, dass das häufigste Wort 50-mal so hoch sein kann wie Wörter im mittleren Rang und die Wolke optisch erdrückt. Die Sqrt-Skalierung hält die Wortwolke lesbar und ist seit Wordle (2009) der Industriestandard.
- Die Top-3-Podiumansicht. Ein Blick auf die Gold-, Silber- und Bronzekarten zeigt Ihnen die Wörter, auf die sich Ihr Text am stärksten stützt – der erste Kontrollpunkt, wenn Sie ungewollte Wiederholungen vermuten.
- Metriken zur lexikalischen Vielfalt. Das Type-Token-Verhältnis und die Anzahl der Hapax Legomena liefern Ihnen einen Wert für den Reichtum des Textes, nicht nur eine einfache Häufigkeitsliste. Ein kurzer Text mit einem TTR > 0,6 ist wortreich; ein TTR von unter 0,2 in einem langen Dokument deutet auf viele Wiederholungen hin.
- Ein-Klick-CSV-Export. Laden Sie die vollständige rangierte Tabelle herunter oder kopieren Sie sie für die Analyse in Tabellenkalkulationsprogrammen.
So nutzen Sie dieses Tool
- Fügen Sie Ihren Text ein. Bis zu 200.000 Zeichen – das entspricht etwa 30.000 Wörtern, der Länge eines langen Roman-Kapitels oder mehrerer kombinierter Blogposts.
- Wählen Sie eine Stoppwort-Sprache. Wenn Sie Stoppwörter nicht filtern, stehen am Anfang der Tabelle Wörter wie „der“, „die“, „das“, „und“ – das ist einmal informativ, danach nicht mehr. Wählen Sie die Sprache Ihres Textes oder „Keine“ für eine echte, ungefilterte Häufigkeitszählung.
- Legen Sie eine Mindestwortlänge fest. Wählen Sie 3 oder 4, wenn Sie Wörter wie „a“, „ich“, „es“, „no“ überspringen möchten. Wählen Sie 1, um alles zu behalten.
- Wählen Sie die Anzahl der anzuzeigenden Ergebnisse. Top 50 ist der Idealwert für die meisten Texte; Top 500 liefert Ihnen den vollständigen Long-Tail.
- Optionale Einstellungen. Aktivieren Sie die Groß-/Kleinschreibung, wenn Sie zwischen „Paris“ und „paris“ unterscheiden möchten. Aktivieren Sie die grundlegende Lemmatisierung, um Wortformen wie „läuft“, „lief“ und „laufen“ zu „laufen“ zusammenzuführen. Aktivieren Sie das Zählen von Zahlen, wenn Versionsnummern, Jahreszahlen und Statistiken in Ihrem Text von Bedeutung sind.
- Klicken Sie auf Analysieren. Betrachten Sie das Podium, überblicken Sie die Tabelle, werfen Sie einen Blick auf die Wortwolke und exportieren Sie die CSV-Datei, wenn Sie tiefer einsteigen möchten.
Die Mathematik hinter den Metriken
Häufigkeit und Prozentsatz
Für jedes eindeutige Wort \( w \) entspricht die Anzahl dem Vorkommen in der Liste der beibehaltenen Tokens, und der Prozentsatz ist \( \text{count}(w) / N \), wobei \( N \) die Gesamtzahl der beibehaltenen Tokens ist. Die Balkenbreite verhält sich relativ zum häufigsten Wort, sodass Sie die Form der Verteilung auf einen Blick erkennen können.
Type-Token-Verhältnis (TTR)
\( \text{TTR} = U / N \), wobei \( U \) die Anzahl der eindeutigen Wörter (Types) und \( N \) die Gesamtzahl der gezählten Tokens ist. Das TTR ist das einfachste Maß für die lexikalische Vielfalt. Eine kurze Nachrichtensubstanz liegt typischerweise bei 0,5–0,7; ein langer Roman sinkt auf 0,15–0,25, da sich gebräuchliche Wörter wiederholen. Das TTR ist längenabhängig – lange Texte haben immer ein niedrigeres TTR als kurze, vergleichen Sie daher das TTR nicht zwischen Dokumenten von stark unterschiedlicher Größe.
Hapax legomena
Ein Hapax Legomenon (griechisch für „einmal Gesagtes“) ist ein Wort, das exakt ein einziges Mal im Text vorkommt. Die Hapax-Anzahl und der Hapax-Prozentsatz sind klassische Indikatoren für den Reichtum des Wortschatzes. In Shakespeares Gesamtwerk sind etwa 14.000 seiner 31.000 eindeutigen Wörter Hapax Legomena – rund 45%. Ein moderner Blogpost erreicht oft 60% oder mehr, da der Text nicht lang genug ist, als dass sich viele Wörter wiederholen könnten.
Schriftgrößenbestimmung in der Wortwolke
Die Schriftgröße für ein Wort \( w \) in der Wolke nutzt eine Quadratwurzel-Skalierung zwischen den minimalen und maximalen angezeigten Häufigkeiten:
\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)
Dies komprimiert den dynamischen Bereich, sodass ein Wort mit 200 Nennungen etwa die 3-fache Höhe eines Wortes mit 20 Nennungen hat, anstatt der 10-fachen Höhe. Ohne diese Komprimierung würde die Wolke von nur ein oder zwei riesigen Wörtern dominiert.
Farbcodierte Häufigkeitsstufen (Tiers)
Die Balken und Wörter der Wolke sind nach Rangstufen farbcodiert, sodass Sie die Struktur Ihrer Verteilung sofort erkennen können:
Anwendungsfälle
Autoren – unbeabsichtigte Wiederholungen aufspüren
Sie werden überrascht sein, wie oft sich ein einzelnes Wort („schnell“, „wirklich“, „eigentlich“, der Name eines Charakters) in Ihren Entwurf einschleicht. Fügen Sie ein Kapitel ein und betrachten Sie das Gold-Silber-Bronze-Podium. Wenn dort ein Begriff auftaucht, den Sie nicht bewusst betonen wollten, haben Sie ein sprachliches Laster gefunden, das Sie heruseditieren können.
SEO und Content-Marketing
Stellen Sie den Stoppwortfilter und die Mindestlänge ein und lesen Sie die Top 25 ab. Dies sind die Wörter, die Suchmaschinen am stärksten mit Ihrer Seite assoziieren werden. Wenn sie nicht mit Ihrem Ziel-Keyword-Cluster übereinstimmen, wird Ihr On-Page-SEO hinter den Erwartungen zurückbleiben. Vermeiden Sie Keyword-Stuffing – moderne Algorithmen strafen unnatürliche Dichte ab. Ein gesunder Richtwert liegt bei etwa 1–2% für Ihr Haupt-Keyword.
Literaturwissenschaft und Stilistik
Fügen Sie ein Kapitel von Dickens im Vergleich zu Hemingway ein und vergleichen Sie das TTR, den Hapax-Prozentsatz und die durchschnittliche Wortlänge. Die numerischen Fingerabdrücke von Autorenstilen sind in ihren Werken erstaunlich konsistent – dies ist die Grundlage der computergestützten Stylometrie.
Reden- und Transkriptanalyse
Politiker und CEOs haben Lieblingswörter. Lassen Sie eine Rede ohne Stoppwörter durch den Analysator laufen, und die Top 15 offenbaren die Kommunikationsstrategie. Vergleichen Sie zwei Reden desselben Sprechers, um zu sehen, was sich verändert hat.
Übersetzung und Sprachlernen
Wenn Sie an einer Übersetzung arbeiten, lassen Sie zuerst den Ausgangstext durchlaufen, um zu sehen, welche Inhaltswörter dominieren. Stellen Sie sicher, dass Ihre Übersetzung dieselbe Gewichtung beibehält. Für Lernende zeigt das Analysieren eines Artikels mit 200 Wörtern ohne Stoppwortfilter, welche Funktionswörter man fließend erkennen können muss.
Forschung und wissenschaftliches Schreiben
Viele Fachzeitschriften erwarten ein kontrolliertes Vokabular in Abstracts. Eine Häufigkeitsprüfung vor der Einreichung deckt eine unbeabsichtigte Überverwendung von Fachjargon auf. Forscher, die korpuslinguistische Studien durchführen, nutzen Häufigkeitslisten als Ausgangsbasis für Kollokations-, N-Gramm- und Themenmodellierungsarbeiten – dieses Tool generiert diese Basisdaten.
Empfohlene Einstellungen nach Dokumententyp
| Dokument | Stoppwörter | Min. Länge | Top N | Lemmatisieren |
|---|---|---|---|---|
| Blogpost / Artikel | Deutsch (oder Ihre Sprache) | 3 | 50 | Aus |
| Roman-Kapitel | Deutsch | 3 | 100 | Ein (Formen zusammenführen) |
| Wissenschaftliche Arbeit | Deutsch | 4 | 100 | Ein |
| Tweet-Thread / Kurzpost | Keine | 1 | 25 | Aus |
| SEO-Recherche | Deutsch | 3 | 50 | Ein |
| Rede-Transkript | Deutsch | 3 | 25 | Aus (exakte Formulierung gewünscht) |
| Fremdsprachiger Text | Passende Sprache wählen | 1 | 50 | Aus (nur englischer Lemmatizer) |
Häufig gestellte Fragen (FAQ)
Was zählt als ein „Wort“?
Der Tokenizer erfasst einen oder mehrere Unicode-Buchstaben, optional verbunden durch Apostrophe oder Bindestriche. Somit gelten don't, state-of-the-art und l'ovvio jeweils als ein Wort. Zahlen sind standardmäßig ausgeschlossen – schalten Sie „Zahlen mitzählen“ ein, wenn Sie diese einbeziehen möchten. Der Tokenizer funktioniert mit lateinischen, kyrillischen, griechischen und CJK-Schriften.
Was macht der grundlegende Lemmatizer und was nicht?
Er führt drei leichtgewichtige Transformationen durch: Entfernen des Genitiv-'s, Zusammenführen gängiger Verb-Endungen (-ing, -ed) und einfacher Plurale (-s, -es, -ies → -y). Er führt keine vollständige morphologische Lemmatisierung durch (better → good, went → go). Eine vollständige Lemmatisierung würde die Einbindung des WordNet-Lexikons erfordern und ist für eine Häufigkeitsanalyse, bei der man oft die exakten Wortformen sehen möchte, überproportional aufwendig. Der konservative Ansatz vermeidet zudem den schlimmsten Fehler von Stemmern: das Zusammenführen semantisch völlig unterschiedlicher Wörter.
Warum weichen die Live-Vorschau und das Server-Ergebnis leicht voneinander ab?
Die Live-Vorschau filtert clientseitig nur englische Stoppwörter, um das Skript minimal zu halten – andere Sprachen werden vollständig auf dem Server gefiltert. Der Server wendet zudem die grundlegende Lemmatisierung an, sofern diese aktiviert ist. Die Gesamtzahl der Tokens ist jedoch bei beiden immer identisch.
Unterstützt das Tool Nicht-Lateinische Schriften?
Ja – der Tokenizer verwendet Unicode-Zeichenklassen, sodass Texte in kyrillischer, griechischer, arabischer, hebräischer, chinesischer, japanischer und koreanischer Schrift korrekt tokenisiert werden. Da Chinesisch und Japanisch keine Leerzeichen zwischen den Wörtern verwenden, wird jede zusammenhängende Kette von CJK-Zeichen als ein einzelnes „Token“ behandelt – für eine echte Wortsegmentierung in diesen Sprachen bräuchte man einen speziellen Tokenizer wie jieba (Chinesisch) oder MeCab (Japanisch).
Wo liegt die Obergrenze für die Textgröße?
200.000 Zeichen pro Durchlauf – das entspricht etwa 30.000 englischen Wörtern oder einem typischen Roman-Kapitel. Darüber hinaus können der Browserspeicher und die Größe der Anfrage problematisch werden; teilen Sie Ihren Text in solchen Fällen in kleinere Abschnitte auf.
Bleibt mein Text privat?
Ja. Der Text wird flüchtig im Arbeitsspeicher verarbeitet, um die Ergebnisseite zu erstellen, und wird niemals dauerhaft gespeichert. Die Live-Ministatistiken während der Eingabe laufen vollständig lokal in Ihrem Browser. Wir protokollieren, speichern oder analysieren den von Ihnen eingefügten Inhalt nicht.
Eine kurze Geschichte der Worthäufigkeitsanalyse
Worthäufigkeitslisten gehören zu den ältesten Werkzeugen der Linguistik. Die erste maschinell erstellte Häufigkeitsliste des Englischen war der von Pater Roberto Busa zwischen 1949 und 1980 erarbeitete Index Thomisticus, der jedes Wort in den Werken von Thomas von Aquin mithilfe von Lochkartenmaschinen von IBM zählte – dies gilt weithin als das Gründungs-Projekt der Digital Humanities. Das Brown Corpus (1961) lieferte die erste systematisch erhobene, eine Million Wörter umfassende Häufigkeitsliste des modernen amerikanischen Englisch. Heute basiert jede Suchmaschine, jedes maschinelle Übersetzungssystem, jedes große Sprachmodell (LLM) und jedes SEO-Tool im großen Stil auf Wort- und Token-Häufigkeitsstatistiken. Dasselbe einfache, auf Zählern basierende Ranking, das Sie in diesem Tool sehen, bildet den Kern dieses Fachbereichs.
Zitieren Sie diesen Inhalt, diese Seite oder dieses Tool als:
"Worthäufigkeit Analysator" unter https://MiniWebtool.com/de// von MiniWebtool, https://MiniWebtool.com/
vom MiniWebtool-Team. Aktualisiert am 27. Mai 2026