Do czego służy to narzędzie?

Analizuje dowolny blok tekstu, zlicza każde unikalne słowo i klasyfikuje je od najczęstszego do najrzadszego. Zobaczysz tabelę rankingową, animowany wykres słupkowy dostosowany do najpopularniejszego słowa, chmurę słów z czcionką skalowaną pierwiastkiem kwadratowym oraz statystyki różnorodności leksykalnej. Wyniki możesz pobrać jako plik CSV.

Dlaczego warto filtrować słowa stopu?

W języku angielskim czy polskim najpopularniejsze słowa (takie jak spójniki i przyimki) zagłuszają wszystko, co faktycznie niesie ze sobą znaczenie. Listy słów stopu usuwają te słowa funkcyjne o wysokiej częstotliwości, dzięki czemu raport ujawnia to, o czym naprawdę jest Twój tekst. Udostępniamy przygotowane listy dla języków: angielskiego, hiszpańskiego, francuskiego, niemieckiego, włoskiego i portugalskiego, a także możesz dodać własne słowa stopu, takie jak imiona postaci czy marki produktów.

Co to jest Type-Token Ratio?

Type-Token Ratio (TTR) = unikalne słowa / wszystkie słowa. To klasyczna miara różnorodności leksykalnej. Krótki artykuł informacyjny osiąga około 0,5-0,7, podczas gdy długa powieść często spada do 0,1-0,2, ponieważ powszechne słowa stale się powtarzają. Wyższy TTR oznacza bogatsze słownictwo na analizowanym poziomie.

Co to są hapax legomena?

Słowa, które pojawiają się w tekście dokładnie jeden raz. Są silnym sygnałem bogactwa słownictwa. W dziełach zebranych Szekspira około 14 000 z jego 31 000 unikalnych słów to hapax legomena. Wysoki procent hapax oznacza wiele jednorazowych pomysłów; niski procent oznacza intensywne ponowne wykorzystywanie małego zasobu słownictwa.

Dlaczego chmura słów jest skalowana pierwiastkiem kwadratowym, a nie liczbą wystąpień?

Jeśli najpopularniejsze słowo pojawia się 200 razy, a następne 20 razy, liniowe skalowanie sprawiłoby, że pierwsze słowo miałoby 10-krotnie większą wysokość — wizualnie przytłoczyłoby to chmurę i uniemożliwiło odczytanie czegokolwiek innego. Skalowanie pierwiastkiem kwadratowym kompresuje tę różnicę do około 3-krotności, dzięki czemu chmura pozostaje czytelna, wciąż podkreślając dominujące słowa. Tak zawsze działały profesjonalne narzędzia do tworzenia chmur słów.

Analizator Częstotliwości Słów

Wklej dowolny tekst i natychmiast zobacz, które słowa pojawiają się najczęściej. Uzyskaj rankingową tabelę częstotliwości, animowany wykres słupkowy, interaktywną chmurę słów, wskaźnik różnorodności leksykalnej oraz opcjonalne filtrowanie słów kluczowych (stop-words) dla 6 języków. Eksportuj wyniki do pliku CSV.

📚 Wypróbuj przykład

Twój tekst Wklej dowolną prozę — artykuł, esej, transkrypcję, a nawet cały rozdział powieści. Do 200 000 znaków na jedno uruchomienie.

Lista słów stopu

Minimalna długość słowa

Pokaż top

Własne słowa stopu (opcjonalnie) Dodaj imiona postaci, nazwy marek lub dowolne słowa, które chcesz odfiltrować — rozdzielone przecinkami lub spacjami.

Uwzględniaj wielkość liter Podstawowa lematyzacja (biega → biegać) Licz liczby

Embed Analizator Częstotliwości Słów Widget

O Analizator Częstotliwości Słów

Analizator Częstotliwości Słów odpowiada na proste pytanie z zaskakującą głębią: których słów ten tekst naprawdę używa najczęściej? Wklej dowolny blok prozy — wpis na blogu, transkrypcję, rozdział, opis stanowiska, przemówienie — a narzędzie sklasyfikuje każde unikalne słowo według częstotliwości występowania, przedstawi rozkład na wykresie i wygeneruje interaktywną chmurę słów o rozmiarach dopasowanych do liczby powtórzeń. Narzędzie zostało stworzone dla pisarzy kontrolujących przypadkowe powtórzenia słów, specjalistów SEO szukających naturalnego zagęszczenia słów kluczowych, studentów badających słownictwo autora, naukowców przeprowadzających szybką weryfikację różnorodności leksykalnej oraz tłumaczy lub lingwistów analizujących nieznany tekst. Wszystko działa w Twojej przeglądarce lub na naszym serwerze i nigdy nie jest przechowywane.

Co wyróżnia ten analizator

Podgląd na żywo podczas pisania. Panel boczny błyskawicznie aktualizuje liczbę unikalnych słów, łączną liczbę słów, wskaźnik TTR (różnorodność leksykalna) oraz top 5 na żywo — bez konieczności klikania „Przeanalizuj”. Możesz dostosowywać filtry w kilka sekund.
Listy słów stopu dla sześciu języków. Angielski, hiszpański, francuski, niemiecki, włoski i portugalski — starannie dobrane listy, a nie bezużyteczne zbiory danych. Dodatkowo dostępne jest pole na własne słowa stopu dla imion postaci, nazw marek czy stałych elementów tekstu.
Chmura słów skalowana pierwiastkiem kwadratowym. Większość generatorów chmur dostosowuje rozmiar słów na podstawie surowej liczby wystąpień, co oznacza, że najpopularniejsze słowo może być 50-krotnie większe od słów ze środka rankingu i wizualnie niszczy strukturę chmury. Skalowanie pierwiastkowe utrzymuje czytelność chmury i jest standardowym podejściem branżowym od czasów Wordle (2009).
Widok podium „top-3”. Szybkie spojrzenie na złote, srebrne i brązowe karty informuje o słowach, na których Twój tekst opiera się najmocniej — to pierwsza rzecz do sprawdzenia, gdy podejrzewasz przypadkowe powtórzenia.
Metryki różnorodności leksykalnej. Wskaźnik Type-Token Ratio oraz liczba hapax legomena dają wynik bogactwa tekstu, a nie tylko zestawienie częstotliwości. Krótka proza z TTR > 0,6 jest bogata; TTR poniżej 0,2 w długim dokumencie świadczy o powtarzalności.
Eksport do CSV jednym kliknięciem. Pobierz lub skopiuj pełną tabelę rankingową do analizy w arkuszu kalkulacyjnym.

Jak korzystać z tego narzędzia

Wklej swój tekst. Do 200 000 znaków — około 30 000 słów, co odpowiada długości długiego rozdziału powieści lub kilku połączonych wpisów blogowych.
Wybierz język słów stopu. Jeśli nie odfiltrujesz słów stopu, na górze tabeli pojawią się najpowszechniejsze spójniki i przyimki, które nie niosą unikalnej wartości informacyjnej. Wybierz język swojego tekstu lub wybierz Brak, aby uzyskać całkowicie surowe zliczenie częstotliwości.
Ustaw minimalną długość słowa. Ustaw wartość 3 lub 4, jeśli chcesz pominąć najkrótsze słowa. Ustaw 1, aby zachować absolutnie wszystko.
Wybierz liczbę wyświetlanych wyników. Top 50 to optymalna wartość dla większości tekstów prozatorskich; Top 500 pozwala zobaczyć pełny, długi ogon rozkładu.
Opcjonalne przełączniki. Włącz uwzględnianie wielkości liter, jeśli zależy Ci na rozróżnieniu wyrazów takich jak nazwy własne pisane małą lub wielką literą. Włącz podstawową lematyzację, aby połączyć różne formy odmiany wyrazów w jeden rdzeń. Włącz liczenie liczb, jeśli numery wersji, lata i statystyki mają znaczenie w Twoim tekście.
Kliknij Przeanalizuj. Sprawdź podium, przeanalizuj tabelę z wykresem słupkowym, rzuć okiem na chmurę i wyeksportuj plik CSV, jeśli chcesz zagłębić się w dane jeszcze bardziej.

Matematyka stojąca za metrykami

Częstotliwość i wartość procentowa

Dla każdego unikalnego słowa \( w \), liczba oznacza, ile razy pojawia się ono na liście zachowanych tokenów, a wartość procentowa to \( \text{count}(w) / N \), gdzie \( N \) to łączna liczba zachowanych tokenów. Szerokość paska jest relatywna do najczęstszego słowa, dzięki czemu możesz od razu ocenić kształt rozkładu.

Type-Token Ratio (TTR)

\( \text{TTR} = U / N \), gdzie \( U \) to liczba unikalnych słów (typów), a \( N \) to łączna liczba policzonych tokenów. TTR to najprostsza miara różnorodności leksykalnej. Krótki artykuł informacyjny zazwyczaj oscyluje wokół 0,5–0,7; długa powieść spada do 0,15–0,25, ponieważ powszechne słowa stale powracają. TTR zależy od długości — długie teksty zawsze mają niższy TTR niż krótkie, więc nie należy porównywać wskaźnika TTR dla dokumentów o skrajnie różnych rozmiarach.

Hapax legomena

Hapax legomenon (z greckiego „powiedziane raz”) to słowo, które pojawia się w tekście dokładnie jeden raz. Liczba oraz procentowy udział hapax legomena to klasyczne wyznaczniki bogactwa słownictwa. W dziełach zebranych Szekspira około 14 000 z jego 31 000 unikalnych słów pojawia się tylko raz — to około 45%. Współczesny wpis na blogu często osiąga 60% lub więcej, ponieważ tekst jest zbyt krótki, aby słowa mogły się powtórzyć.

Skalowanie czcionki w chmurze słów

Rozmiar czcionki dla słowa \( w \) w chmurze wykorzystuje skalowanie pierwiastkiem kwadratowym pomiędzy minimalną a maksymalną liczbą wyświetlanych wystąpień:

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

Kompresuje to zakres dynamiczny, dzięki czemu słowo występujące 200 razy ma około 3-krotną wysokość słowa występującego 20 razy, a nie 10-krotną. Bez tej kompresji chmura byłaby zdominowana przez jedno lub dwa gigantyczne słowa.

Kolorystyczne oznaczenia poziomów częstotliwości

Paski oraz słowa w chmurze są kodowane kolorystycznie według poziomów pozycji rankingowych, co ułatwia natychmiastową ocenę kształtu rozkładu:

Poziom 1 — pozycje 1–55 słów, na których Twój tekst opiera się najmocniej. Jeśli znajduje się tu słowo kluczowe, odzwierciedla ono główny temat.

Poziom 2 — pozycje 6–15Obsada wspierająca. Powtarzające się rzeczowniki i czasowniki używane do rozwijania głównej myśli.

Poziom 3 — pozycje 16–40Szersze słownictwo otaczające Twoje główne tematy.

Poziom 4 — pozycje 41–100Terminy specjalistyczne lub szczegółowe — nazwy własne, żargon, konkretne pojęcia.

Poziom 5 — pozycje 101+Długi ogon. Słowa użyte raz lub dwa razy. Często to właśnie tutaj kryje się najciekawsze słownictwo.

Zastosowania

Pisarze — wyłapywanie niezamierzonych powtórzeń

Zaskakujące jest to, jak często jedno konkretne słowo („szybko”, „naprawdę”, imię bohatera) niepostrzeżenie trafia na sam szczyt Twojego roboczego tekstu. Wklej rozdział i spójrz na złoto-srebrno-brązowe podium. Jeśli pojawi się tam słowo o istotnym znaczeniu, którego nie planowałeś świadomie wyróżniać, masz do edycji językowy nawyk.

SEO i marketing treści

Ustaw filtr słów stopu oraz minimalną długość, a następnie przeanalizuj pierwsze 25 pozycji. To są słowa, które wyszukiwarki najsilniej powiążą z Twoją stroną. Jeśli nie pasują one do docelowej grupy słów kluczowych, Twoje on-page SEO ucierpi. Unikaj upychania słów kluczowych — nowoczesne algorytmy karzą za nienaturalne zagęszczenie. Bezpieczny cel to około 1–2% dla głównego słowa kluczowego.

Badania literackie i stylistyka

Wklej rozdział Dickensa oraz Hemingwaya i porównaj wskaźniki TTR, procentowy udział hapax oraz średnią długość słowa. Liczbowe odciski palców stylów pisarskich są niezwykle spójne w całym dorobku danego autora — stanowi to fundament komputerowej stylometrii.

Analiza przemówień i transkrypcji

Politycy i dyrektorzy generalni mają swoje ulubione słowa. Przepuść przemówienie przez analizator z usuniętymi słowami stopu, a pierwsze 15 pozycji ujawni strategię komunikacyjną. Porównaj dwa wystąpienia tego samego mówcy, aby zobaczyć, co uległo zmianie.

Tłumaczenia i nauka języków

Pracując nad tłumaczeniem, uruchom najpierw tekst źródłowy, aby zobaczyć, jakie słowa znaczeniowe w nim dominują. Upewnij się, że Twoje tłumaczenie zachowuje te same akcenty. W przypadku osób uczących się, wybranie 200-słownego artykułu i uruchomienie go bez filtrowania słów stopu pokazuje, które słowa funkcyjne musisz sprawnie rozpoznawać.

Prace naukowe i akademickie

Wiele czasopism naukowych oczekuje kontrolowanego słownictwa w abstraktach. Weryfikacja częstotliwości przed wysłaniem pozwala wychwycić przypadkowe nadużywanie żargonu. Badacze prowadzący analizy z zakresu lingwistyki korpusowej używają list częstotliwości jako danych wyjściowych do prac nad kolokacjami, n-gramami i modelowaniem tematycznym — to narzędzie generuje te dane.

Zalecane ustawienia według typu dokumentu

Dokument	Słowa stopu	Min. długość	Top N	Lematyzacja
Wpis blogowy / artykuł	Angielski (lub Twój język)	3	50	Wyłączona
Rozdział powieści	Angielski	3	100	Włączona (połączenie odmian wyrazu)
Artykuł akademicki	Angielski	4	100	Włączona
Wątek na Twitterze / krótki post	Brak	1	25	Wyłączona
Analiza SEO	Angielski	3	50	Włączona
Transkrypcja przemówienia	Angielski	3	25	Wyłączona (liczy się dokładne sformułowanie)
Tekst w języku obcym	Dopasuj język	1	50	Wyłączona (lematyzator tylko dla ang.)

Najczęściej zadawane pytania

Co jest uznawane za „słowo”?

Tokenizer dopasowuje jedną lub więcej liter Unicode, opcjonalnie połączonych apostrofami lub łącznikami. Z tego względu don't, state-of-the-art oraz l'ovvio są traktowane jako jedno słowo. Liczby są domyślnie wykluczone — przełącz opcję „Licz liczby”, jeśli chcesz je uwzględnić. Tokenizer działa poprawnie dla pism łacińskich, cyrylicy, greki oraz znaków CJK.

Co robi podstawowy lematyzator, a czego nie robi?

Wykonuje trzy lekkie przekształcenia: usuwa angielską formę dzierżawczą 's, łączy popularne końcówki czasowników (-ing, -ed) oraz proste formy liczby mnogiej (-s, -es, -ies → -y). Nie przeprowadza pełnej lematyzacji morfologicznej (np. better → good, went → go). Pełna lematyzacja wymagałaby wdrożenia leksykonu WordNet i jest zbędna w analizie częstotliwości, gdzie często zależy nam na dokładnych formach słów. Ostrożne podejście zapobiega także najgorszym błędom rdzeniowania: łączeniu słów o zupełnie odmiennym znaczeniu.

Dlaczego podgląd na żywo i wynik serwera nieznacznie się różnią?

Podgląd na żywo filtruje tylko angielskie słowa stopu po stronie użytkownika, aby skrypt pozostał niewielki — inne języki są w pełni filtrowane dopiero na serwerze. Serwer stosuje również podstawową lematyzację, jeśli została zaznaczona. Łączna liczba tokenów jest zawsze taka sama w obu przypadkach.

Czy narzędzie obsługuje pisma inne niż łacińskie?

Tak — tokenizer używa klas znaków Unicode, więc teksty zapisane cyrylicą, greką, alfabetem arabskim, hebrajskim, a także znaki chińskie, japońskie i koreańskie są tokenizowane poprawnie. Ponieważ języki chiński i japoński nie stosują spacji między słowami, każdy ciągły ciąg znaków CJK jest traktowany jako pojedynczy „token” — do prawidłowego dzielenia wyrazów w tych językach wymagany byłby dedykowany tokenizer, taki jak jieba (chiński) lub MeCab (japoński).

Jaki jest górny limit rozmiaru tekstu?

200 000 znaków na jedno uruchomienie — około 30 000 słów angielskich lub typowy rozdział powieści. Powyżej tej granicy pamięć przeglądarki i rozmiar żądania stają się problematyczne; podziel swój tekst na mniejsze części.

Czy mój tekst jest prywatny?

Tak. Tekst jest przetwarzany w pamięci operacyjnej na potrzeby wyrenderowania strony z wynikami i nigdy nie jest zapisywany na dysku. Mini-statystyki na żywo podczas pisania działają całkowicie w Twojej przeglądarce. Nie rejestrujemy, nie przechowujemy ani nie analizujemy wklejanej przez Ciebie treści.

Krótka historia analizy częstotliwości słów

Listy częstotliwości słów to jedne z najstarszych narzędzi w językoznawstwie. Pierwszą maszynowo wygenerowaną listą częstotliwości dla języka angielskiego był stworzony w latach 1949–1980 przez ojca Roberto Busę Index Thomisticus, który zliczał każde słowo w dziełach Tomasza z Akwinu przy użyciu maszyn perforowanych IBM — projekt ten jest powszechnie uznawany za założycielski dla humanistyki cyfrowej. Brown Corpus (1961) dostarczył pierwszej systematycznie dobranej, milionowej listy częstotliwości słów dla współczesnego amerykańskiego języka angielskiego. Dziś każda wyszukiwarka internetowa, system tłumaczenia maszynowego, duży model językowy i narzędzie SEO bazują na statystykach częstotliwości słów i tokenów na wielką skalę. To samo proste klasyfikowanie oparte na liczniku, które widzisz w tym narzędziu, stanowi jądro tej dziedziny nauki.

Cytuj ten materiał, stronę lub narzędzie w następujący sposób:

"Analizator Częstotliwości Słów" na https://MiniWebtool.com/pl/analizator-czestotliwosci-slow/ z MiniWebtool, https://MiniWebtool.com/

przez zespół MiniWebtool. Zaktualizowano: 27 maja 2026 r.

Dostępne API dla deweloperów: Uruchom to narzędzie z aplikacji, automatyzacji lub agenta za pomocą jednego żądania HTTP JSON. Zobacz dokumentację API

Narzędzia statystyki tekstu:

Licznik znaków
Uzyskać długość sznurka
Narzędzie do liczenia wierszy Polecane
Kalkulator wyniku czytelności
Narzędzie do liczenia słów
Analizator Nagłówków Nowy
Detektor treści AI Nowy
Licznik tokenów AI Nowy
Licznik Sylab Nowy
Licznik Zdań Nowy
Licznik Akapitów Nowy
Kalkulator Czasu Wystąpienia Nowy
Kalkulator Czasu Czytania Nowy
Edytor Czytelności w Stylu Hemingwaya Nowy
Analizator Wariancji Długości Zdań Nowy
Analizator Częstotliwości Słów Nowy

Analizator Częstotliwości Słów

O Analizator Częstotliwości Słów

Co wyróżnia ten analizator

Jak korzystać z tego narzędzia

Matematyka stojąca za metrykami

Częstotliwość i wartość procentowa

Type-Token Ratio (TTR)

Hapax legomena

Skalowanie czcionki w chmurze słów

Kolorystyczne oznaczenia poziomów częstotliwości

Zastosowania

Pisarze — wyłapywanie niezamierzonych powtórzeń

SEO i marketing treści

Badania literackie i stylistyka

Analiza przemówień i transkrypcji

Tłumaczenia i nauka języków

Prace naukowe i akademickie

Zalecane ustawienia według typu dokumentu

Najczęściej zadawane pytania

Co jest uznawane za „słowo”?

Co robi podstawowy lematyzator, a czego nie robi?

Dlaczego podgląd na żywo i wynik serwera nieznacznie się różnią?

Czy narzędzie obsługuje pisma inne niż łacińskie?

Jaki jest górny limit rozmiaru tekstu?

Czy mój tekst jest prywatny?

Krótka historia analizy częstotliwości słów

Narzędzia statystyki tekstu:

Polecane narzędzia: