Analizator Częstotliwości Słów
Wklej dowolny tekst i natychmiast zobacz, które słowa pojawiają się najczęściej. Uzyskaj rankingową tabelę częstotliwości, animowany wykres słupkowy, interaktywną chmurę słów, wskaźnik różnorodności leksykalnej oraz opcjonalne filtrowanie słów kluczowych (stop-words) dla 6 języków. Eksportuj wyniki do pliku CSV.
Blokada reklam uniemożliwia wyświetlanie reklam
MiniWebtool jest darmowy dzięki reklamom. Jeśli to narzędzie Ci pomogło, wesprzyj nas przez Premium (bez reklam + szybciej) albo dodaj MiniWebtool.com do wyjątków i odśwież stronę.
- Albo przejdź na Premium (bez reklam)
- Zezwól na reklamy dla MiniWebtool.com, potem odśwież
O Analizator Częstotliwości Słów
Analizator Częstotliwości Słów odpowiada na proste pytanie z zaskakującą głębią: których słów ten tekst naprawdę używa najczęściej? Wklej dowolny blok prozy — wpis na blogu, transkrypcję, rozdział, opis stanowiska, przemówienie — a narzędzie sklasyfikuje każde unikalne słowo według częstotliwości występowania, przedstawi rozkład na wykresie i wygeneruje interaktywną chmurę słów o rozmiarach dopasowanych do liczby powtórzeń. Narzędzie zostało stworzone dla pisarzy kontrolujących przypadkowe powtórzenia słów, specjalistów SEO szukających naturalnego zagęszczenia słów kluczowych, studentów badających słownictwo autora, naukowców przeprowadzających szybką weryfikację różnorodności leksykalnej oraz tłumaczy lub lingwistów analizujących nieznany tekst. Wszystko działa w Twojej przeglądarce lub na naszym serwerze i nigdy nie jest przechowywane.
Co wyróżnia ten analizator
- Podgląd na żywo podczas pisania. Panel boczny błyskawicznie aktualizuje liczbę unikalnych słów, łączną liczbę słów, wskaźnik TTR (różnorodność leksykalna) oraz top 5 na żywo — bez konieczności klikania „Przeanalizuj”. Możesz dostosowywać filtry w kilka sekund.
- Listy słów stopu dla sześciu języków. Angielski, hiszpański, francuski, niemiecki, włoski i portugalski — starannie dobrane listy, a nie bezużyteczne zbiory danych. Dodatkowo dostępne jest pole na własne słowa stopu dla imion postaci, nazw marek czy stałych elementów tekstu.
- Chmura słów skalowana pierwiastkiem kwadratowym. Większość generatorów chmur dostosowuje rozmiar słów na podstawie surowej liczby wystąpień, co oznacza, że najpopularniejsze słowo może być 50-krotnie większe od słów ze środka rankingu i wizualnie niszczy strukturę chmury. Skalowanie pierwiastkowe utrzymuje czytelność chmury i jest standardowym podejściem branżowym od czasów Wordle (2009).
- Widok podium „top-3”. Szybkie spojrzenie na złote, srebrne i brązowe karty informuje o słowach, na których Twój tekst opiera się najmocniej — to pierwsza rzecz do sprawdzenia, gdy podejrzewasz przypadkowe powtórzenia.
- Metryki różnorodności leksykalnej. Wskaźnik Type-Token Ratio oraz liczba hapax legomena dają wynik bogactwa tekstu, a nie tylko zestawienie częstotliwości. Krótka proza z TTR > 0,6 jest bogata; TTR poniżej 0,2 w długim dokumencie świadczy o powtarzalności.
- Eksport do CSV jednym kliknięciem. Pobierz lub skopiuj pełną tabelę rankingową do analizy w arkuszu kalkulacyjnym.
Jak korzystać z tego narzędzia
- Wklej swój tekst. Do 200 000 znaków — około 30 000 słów, co odpowiada długości długiego rozdziału powieści lub kilku połączonych wpisów blogowych.
- Wybierz język słów stopu. Jeśli nie odfiltrujesz słów stopu, na górze tabeli pojawią się najpowszechniejsze spójniki i przyimki, które nie niosą unikalnej wartości informacyjnej. Wybierz język swojego tekstu lub wybierz Brak, aby uzyskać całkowicie surowe zliczenie częstotliwości.
- Ustaw minimalną długość słowa. Ustaw wartość 3 lub 4, jeśli chcesz pominąć najkrótsze słowa. Ustaw 1, aby zachować absolutnie wszystko.
- Wybierz liczbę wyświetlanych wyników. Top 50 to optymalna wartość dla większości tekstów prozatorskich; Top 500 pozwala zobaczyć pełny, długi ogon rozkładu.
- Opcjonalne przełączniki. Włącz uwzględnianie wielkości liter, jeśli zależy Ci na rozróżnieniu wyrazów takich jak nazwy własne pisane małą lub wielką literą. Włącz podstawową lematyzację, aby połączyć różne formy odmiany wyrazów w jeden rdzeń. Włącz liczenie liczb, jeśli numery wersji, lata i statystyki mają znaczenie w Twoim tekście.
- Kliknij Przeanalizuj. Sprawdź podium, przeanalizuj tabelę z wykresem słupkowym, rzuć okiem na chmurę i wyeksportuj plik CSV, jeśli chcesz zagłębić się w dane jeszcze bardziej.
Matematyka stojąca za metrykami
Częstotliwość i wartość procentowa
Dla każdego unikalnego słowa \( w \), liczba oznacza, ile razy pojawia się ono na liście zachowanych tokenów, a wartość procentowa to \( \text{count}(w) / N \), gdzie \( N \) to łączna liczba zachowanych tokenów. Szerokość paska jest relatywna do najczęstszego słowa, dzięki czemu możesz od razu ocenić kształt rozkładu.
Type-Token Ratio (TTR)
\( \text{TTR} = U / N \), gdzie \( U \) to liczba unikalnych słów (typów), a \( N \) to łączna liczba policzonych tokenów. TTR to najprostsza miara różnorodności leksykalnej. Krótki artykuł informacyjny zazwyczaj oscyluje wokół 0,5–0,7; długa powieść spada do 0,15–0,25, ponieważ powszechne słowa stale powracają. TTR zależy od długości — długie teksty zawsze mają niższy TTR niż krótkie, więc nie należy porównywać wskaźnika TTR dla dokumentów o skrajnie różnych rozmiarach.
Hapax legomena
Hapax legomenon (z greckiego „powiedziane raz”) to słowo, które pojawia się w tekście dokładnie jeden raz. Liczba oraz procentowy udział hapax legomena to klasyczne wyznaczniki bogactwa słownictwa. W dziełach zebranych Szekspira około 14 000 z jego 31 000 unikalnych słów pojawia się tylko raz — to około 45%. Współczesny wpis na blogu często osiąga 60% lub więcej, ponieważ tekst jest zbyt krótki, aby słowa mogły się powtórzyć.
Skalowanie czcionki w chmurze słów
Rozmiar czcionki dla słowa \( w \) w chmurze wykorzystuje skalowanie pierwiastkiem kwadratowym pomiędzy minimalną a maksymalną liczbą wyświetlanych wystąpień:
\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)
Kompresuje to zakres dynamiczny, dzięki czemu słowo występujące 200 razy ma około 3-krotną wysokość słowa występującego 20 razy, a nie 10-krotną. Bez tej kompresji chmura byłaby zdominowana przez jedno lub dwa gigantyczne słowa.
Kolorystyczne oznaczenia poziomów częstotliwości
Paski oraz słowa w chmurze są kodowane kolorystycznie według poziomów pozycji rankingowych, co ułatwia natychmiastową ocenę kształtu rozkładu:
Zastosowania
Pisarze — wyłapywanie niezamierzonych powtórzeń
Zaskakujące jest to, jak często jedno konkretne słowo („szybko”, „naprawdę”, imię bohatera) niepostrzeżenie trafia na sam szczyt Twojego roboczego tekstu. Wklej rozdział i spójrz na złoto-srebrno-brązowe podium. Jeśli pojawi się tam słowo o istotnym znaczeniu, którego nie planowałeś świadomie wyróżniać, masz do edycji językowy nawyk.
SEO i marketing treści
Ustaw filtr słów stopu oraz minimalną długość, a następnie przeanalizuj pierwsze 25 pozycji. To są słowa, które wyszukiwarki najsilniej powiążą z Twoją stroną. Jeśli nie pasują one do docelowej grupy słów kluczowych, Twoje on-page SEO ucierpi. Unikaj upychania słów kluczowych — nowoczesne algorytmy karzą za nienaturalne zagęszczenie. Bezpieczny cel to około 1–2% dla głównego słowa kluczowego.
Badania literackie i stylistyka
Wklej rozdział Dickensa oraz Hemingwaya i porównaj wskaźniki TTR, procentowy udział hapax oraz średnią długość słowa. Liczbowe odciski palców stylów pisarskich są niezwykle spójne w całym dorobku danego autora — stanowi to fundament komputerowej stylometrii.
Analiza przemówień i transkrypcji
Politycy i dyrektorzy generalni mają swoje ulubione słowa. Przepuść przemówienie przez analizator z usuniętymi słowami stopu, a pierwsze 15 pozycji ujawni strategię komunikacyjną. Porównaj dwa wystąpienia tego samego mówcy, aby zobaczyć, co uległo zmianie.
Tłumaczenia i nauka języków
Pracując nad tłumaczeniem, uruchom najpierw tekst źródłowy, aby zobaczyć, jakie słowa znaczeniowe w nim dominują. Upewnij się, że Twoje tłumaczenie zachowuje te same akcenty. W przypadku osób uczących się, wybranie 200-słownego artykułu i uruchomienie go bez filtrowania słów stopu pokazuje, które słowa funkcyjne musisz sprawnie rozpoznawać.
Prace naukowe i akademickie
Wiele czasopism naukowych oczekuje kontrolowanego słownictwa w abstraktach. Weryfikacja częstotliwości przed wysłaniem pozwala wychwycić przypadkowe nadużywanie żargonu. Badacze prowadzący analizy z zakresu lingwistyki korpusowej używają list częstotliwości jako danych wyjściowych do prac nad kolokacjami, n-gramami i modelowaniem tematycznym — to narzędzie generuje te dane.
Zalecane ustawienia według typu dokumentu
| Dokument | Słowa stopu | Min. długość | Top N | Lematyzacja |
|---|---|---|---|---|
| Wpis blogowy / artykuł | Angielski (lub Twój język) | 3 | 50 | Wyłączona |
| Rozdział powieści | Angielski | 3 | 100 | Włączona (połączenie odmian wyrazu) |
| Artykuł akademicki | Angielski | 4 | 100 | Włączona |
| Wątek na Twitterze / krótki post | Brak | 1 | 25 | Wyłączona |
| Analiza SEO | Angielski | 3 | 50 | Włączona |
| Transkrypcja przemówienia | Angielski | 3 | 25 | Wyłączona (liczy się dokładne sformułowanie) |
| Tekst w języku obcym | Dopasuj język | 1 | 50 | Wyłączona (lematyzator tylko dla ang.) |
Najczęściej zadawane pytania
Co jest uznawane za „słowo”?
Tokenizer dopasowuje jedną lub więcej liter Unicode, opcjonalnie połączonych apostrofami lub łącznikami. Z tego względu don't, state-of-the-art oraz l'ovvio są traktowane jako jedno słowo. Liczby są domyślnie wykluczone — przełącz opcję „Licz liczby”, jeśli chcesz je uwzględnić. Tokenizer działa poprawnie dla pism łacińskich, cyrylicy, greki oraz znaków CJK.
Co robi podstawowy lematyzator, a czego nie robi?
Wykonuje trzy lekkie przekształcenia: usuwa angielską formę dzierżawczą 's, łączy popularne końcówki czasowników (-ing, -ed) oraz proste formy liczby mnogiej (-s, -es, -ies → -y). Nie przeprowadza pełnej lematyzacji morfologicznej (np. better → good, went → go). Pełna lematyzacja wymagałaby wdrożenia leksykonu WordNet i jest zbędna w analizie częstotliwości, gdzie często zależy nam na dokładnych formach słów. Ostrożne podejście zapobiega także najgorszym błędom rdzeniowania: łączeniu słów o zupełnie odmiennym znaczeniu.
Dlaczego podgląd na żywo i wynik serwera nieznacznie się różnią?
Podgląd na żywo filtruje tylko angielskie słowa stopu po stronie użytkownika, aby skrypt pozostał niewielki — inne języki są w pełni filtrowane dopiero na serwerze. Serwer stosuje również podstawową lematyzację, jeśli została zaznaczona. Łączna liczba tokenów jest zawsze taka sama w obu przypadkach.
Czy narzędzie obsługuje pisma inne niż łacińskie?
Tak — tokenizer używa klas znaków Unicode, więc teksty zapisane cyrylicą, greką, alfabetem arabskim, hebrajskim, a także znaki chińskie, japońskie i koreańskie są tokenizowane poprawnie. Ponieważ języki chiński i japoński nie stosują spacji między słowami, każdy ciągły ciąg znaków CJK jest traktowany jako pojedynczy „token” — do prawidłowego dzielenia wyrazów w tych językach wymagany byłby dedykowany tokenizer, taki jak jieba (chiński) lub MeCab (japoński).
Jaki jest górny limit rozmiaru tekstu?
200 000 znaków na jedno uruchomienie — około 30 000 słów angielskich lub typowy rozdział powieści. Powyżej tej granicy pamięć przeglądarki i rozmiar żądania stają się problematyczne; podziel swój tekst na mniejsze części.
Czy mój tekst jest prywatny?
Tak. Tekst jest przetwarzany w pamięci operacyjnej na potrzeby wyrenderowania strony z wynikami i nigdy nie jest zapisywany na dysku. Mini-statystyki na żywo podczas pisania działają całkowicie w Twojej przeglądarce. Nie rejestrujemy, nie przechowujemy ani nie analizujemy wklejanej przez Ciebie treści.
Krótka historia analizy częstotliwości słów
Listy częstotliwości słów to jedne z najstarszych narzędzi w językoznawstwie. Pierwszą maszynowo wygenerowaną listą częstotliwości dla języka angielskiego był stworzony w latach 1949–1980 przez ojca Roberto Busę Index Thomisticus, który zliczał każde słowo w dziełach Tomasza z Akwinu przy użyciu maszyn perforowanych IBM — projekt ten jest powszechnie uznawany za założycielski dla humanistyki cyfrowej. Brown Corpus (1961) dostarczył pierwszej systematycznie dobranej, milionowej listy częstotliwości słów dla współczesnego amerykańskiego języka angielskiego. Dziś każda wyszukiwarka internetowa, system tłumaczenia maszynowego, duży model językowy i narzędzie SEO bazują na statystykach częstotliwości słów i tokenów na wielką skalę. To samo proste klasyfikowanie oparte na liczniku, które widzisz w tym narzędziu, stanowi jądro tej dziedziny nauki.
Cytuj ten materiał, stronę lub narzędzie w następujący sposób:
"Analizator Częstotliwości Słów" na https://MiniWebtool.com/pl// z MiniWebtool, https://MiniWebtool.com/
przez zespół MiniWebtool. Zaktualizowano: 27 maja 2026 r.