Apa yang dilakukan alat ini?

Alat ini membaca blok teks apa pun, menghitung setiap kata yang berbeda, dan mengurutkannya dari yang paling sering hingga yang paling jarang muncul. Anda dapat melihat tabel peringkat, grafik batang animasi yang disesuaikan dengan kata teratas, awan kata dengan ukuran font berskala akar kuadrat, dan statistik keanekaragaman leksikal. Anda dapat mengunduh hasilnya sebagai CSV.

Mengapa menyaring stop-word?

Dalam bahasa Inggris, 5 kata teratas ('the', 'of', 'and', 'a', 'to') menenggelamkan semua kata yang sebenarnya memiliki makna. Daftar stop-word menghapus kata-kata fungsi berfrekuensi tinggi ini sehingga laporan memunculkan kata-kata yang benar-benar dibahas dalam teks Anda. Kami menyediakan daftar pilihan untuk bahasa Inggris, Spanyol, Prancis, Jerman, Italia, dan Portugis, dan Anda dapat menambahkan stop-word khusus seperti nama karakter atau merek produk.

Apa itu Type-Token Ratio?

Type-Token Ratio (TTR) = kata unik / total kata. Ini adalah ukuran klasik dari keanekaragaman leksikal. Artikel berita pendek biasanya berkisar antara 0,5-0,7, novel panjang sering kali turun menjadi 0,1-0,2 karena kata-kata umum berulang. TTR yang lebih tinggi berarti kosakata yang lebih kaya pada tingkat yang Anda analisis.

Apa itu hapax legomena?

Kata-kata yang muncul tepat satu kali. Ini adalah sinyal kuat dari kekayaan kosakata. Dalam karya lengkap Shakespeare, sekitar 14.000 dari 31.000 kata yang berbeda adalah hapax. Persentase hapax yang tinggi berarti banyak ide yang muncul sekali saja; persentase yang rendah berarti penggunaan kembali yang intensif dari kosakata yang kecil.

Mengapa ukuran awan kata disesuaikan dengan akar kuadrat, bukan dengan jumlah hitungan?

Jika kata teratas muncul 200 kali dan kata berikutnya 20 kali, penskalaan linier membuat kata teratas berukuran 10× tingginya — ini secara visual menghancurkan awan kata dan Anda tidak dapat membaca kata lainnya. Penskalaan akar kuadrat mengompresi perbedaan menjadi sekitar 3× sehingga awan kata tetap dapat dibaca sambil tetap menekankan kata-kata yang dominan. Ini adalah cara kerja alat awan kata yang serius sejak dulu.

Penganalisis Frekuensi Kata

Tempelkan teks apa saja dan lihat langsung kata mana yang paling sering muncul. Dapatkan tabel frekuensi berperingkat, grafik batang beranimasi, word cloud interaktif, skor keragaman leksikal, dan penyaringan stop-word opsional di 6 bahasa. Ekspor hasil sebagai CSV.

📚 Coba contoh

Teks Anda Tempelkan prosa apa saja — artikel, esai, transkrip, bahkan bab novel lengkap. Hingga 200.000 karakter per proses.

Daftar stop-word

Panjang kata minimum

Tampilkan teratas

Stop-word khusus (opsional) Tambahkan nama karakter, nama merek, atau kata apa pun yang ingin Anda saring — dipisahkan dengan koma atau spasi.

Sensitif huruf besar-kecil Lemantisasi dasar (runs → run) Hitung angka

Embed Penganalisis Frekuensi Kata Widget

Tentang Penganalisis Frekuensi Kata

Penganalisis Frekuensi Kata menjawab pertanyaan sederhana dengan kedalaman yang mengejutkan: kata apa saja yang sebenarnya paling sering digunakan dalam teks ini? Tempelkan blok prosa apa pun — postingan blog, transkrip, bab novel, deskripsi pekerjaan, pidato — dan alat ini akan mengurutkan setiap kata yang berbeda berdasarkan seberapa sering kata itu muncul, membuat grafik distribusinya, dan menampilkan awan kata interaktif yang ukurannya disesuaikan dengan frekuensi. Alat ini dibuat untuk penulis yang memeriksa pengulangan kata yang tidak disengaja, spesialis SEO yang mencari kepadatan kata kunci alami, siswa yang mempelajari kosakata seorang penulis, peneliti yang melakukan pemeriksaan keanekaragaman leksikal dengan cepat, serta penerjemah atau ahli bahasa yang menjelajahi teks asing. Semuanya berjalan di browser Anda atau di server kami dan tidak pernah disimpan.

Apa yang membuat alat penganalisis ini berbeda

Pratinjau langsung saat Anda mengetik. Panel samping memperbarui hitungan kata unik, total kata, TTR (keanekaragaman leksikal), dan 5 teratas secara instan — tanpa perlu mengklik Analisis. Anda dapat mencoba berbagai filter dalam hitungan detik.
Daftar stop-word enam bahasa. Bahasa Inggris, Spanyol, Prancis, Jerman, Italia, dan Portugis — daftar yang dipilih dengan cermat, bukan sekadar pembuangan data yang membengkak. Ditambah kolom stop-word khusus bentuk bebas untuk nama karakter, nama merek, atau teks standar.
Awan kata berskala akar kuadrat. Sebagian besar pembuat awan kata menyesuaikan ukuran kata berdasarkan jumlah mentah, yang berarti kata teratas bisa berukuran 50× tinggi kata peringkat menengah dan secara visual menghancurkan awan kata. Penskalaan akar kuadrat (sqrt) menjaga awan kata tetap terbaca dan merupakan pendekatan standar industri sejak Wordle (2009).
Tampilan podium "3 besar". Pandangan sekilas pada kartu emas/perak/perunggu memberi tahu Anda kata-kata yang paling sering diandalkan dalam teks Anda — hal pertama yang harus diperiksa saat Anda mencurigai adanya pengulangan yang tidak disengaja.
Metrik keanekaragaman leksikal. Type-Token Ratio dan hitungan hapax-legomena memberi Anda skor kekayaan kosakata, bukan hanya sekadar daftar frekuensi. Prosa pendek dengan TTR > 0,6 tergolong kaya; TTR di bawah 0,2 dalam dokumen panjang berarti banyak pengulangan.
Ekspor CSV sekali klik. Unduh atau salin tabel peringkat lengkap untuk analisis lembar kerja (spreadsheet).

Cara menggunakan alat ini

Tempelkan teks Anda. Hingga 200.000 karakter — sekitar 30.000 kata, sepanjang bab novel yang panjang atau gabungan beberapa postingan blog.
Pilih bahasa stop-word. Jika Anda tidak menyaring stop-word, bagian atas tabel akan dipenuhi oleh kata-kata fungsi seperti "the", "of", dan "and" — informatif sekali saja, tetapi tidak untuk seterusnya. Pilih bahasa teks Anda, atau pilih Tidak Ada untuk hitungan frekuensi mentah yang sebenarnya.
Atur panjang kata minimum. Atur ke 3 atau 4 jika Anda ingin melewati kata pendek seperti "a", "I", "it", "no". Atur ke 1 untuk mempertahankan semuanya.
Pilih berapa banyak hasil yang akan ditampilkan. Top 50 adalah pilihan terbaik untuk sebagian besar prosa; Top 500 memberi Anda daftar ekor panjang yang lengkap.
Pengaktifan opsional. Aktifkan sensitivitas huruf besar-kecil jika Anda memedulikan perbedaan antara "Paris" dan "paris". Aktifkan lemantisasi dasar untuk menggabungkan kata seperti "runs", "ran", dan "running" menjadi "run". Aktifkan penghitungan angka jika nomor versi, tahun, dan statistik memiliki arti penting dalam teks Anda.
Klik Analisis. Baca podium, pindai tabel grafik batang, lihat sekilas awan kata, dan ekspor CSV jika Anda ingin mendalaminya lebih lanjut.

Matematika di balik metrik

Frekuensi dan persentase

Untuk setiap kata yang berbeda \( w \), hitungannya adalah berapa kali kata tersebut muncul dalam daftar token yang dipertahankan, dan persentasenya adalah \( \text{count}(w) / N \) di mana \( N \) adalah total token yang dipertahankan. Lebar batang relatif terhadap kata yang paling umum sehingga Anda dapat melihat bentuk distribusi secara sekilas.

Type-Token Ratio (TTR)

\( \text{TTR} = U / N \) di mana \( U \) adalah jumlah kata unik (types) dan \( N \) adalah total token yang dihitung. TTR adalah ukuran paling sederhana dari keanekaragaman leksikal. Berita singkat biasanya berada di angka 0,5–0,7; novel panjang turun ke 0,15–0,25 karena kata-kata umum berulang. TTR sensitif terhadap panjang teks — teks panjang selalu memiliki TTR yang lebih rendah daripada teks pendek, jadi jangan bandingkan TTR antar dokumen dengan ukuran yang sangat berbeda.

Hapax legomena

Hapax legomenon (bahasa Yunani untuk "diucapkan sekali") adalah kata yang muncul tepat satu kali dalam teks. Hitungan hapax dan persentase hapax adalah sinyal klasik dari kekayaan kosakata. Dalam karya lengkap Shakespeare, sekitar 14.000 dari 31.000 kata uniknya adalah hapax — sekitar 45%. Postingan blog modern sering kali mencapai 60% atau lebih hapax karena teksnya tidak cukup panjang untuk membuat kata-kata berulang.

Penyesuaian ukuran font awan kata

Ukuran font untuk kata \( w \) dalam awan kata menggunakan penskalaan akar kuadrat antara jumlah hitungan minimum dan maksimum yang ditampilkan:

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

Ini mengompresi rentang dinamis sehingga kata yang muncul 200× memiliki tinggi sekitar 3× dari kata yang muncul 20×, bukan 10×. Tanpa kompresi ini, awan kata akan didominasi oleh satu atau dua kata raksasa saja.

Tingkat frekuensi berkode warna

Batang dan kata-kata awan diberi kode warna berdasarkan tingkat peringkat sehingga Anda dapat melihat bentuk distribusi Anda secara sekilas:

Tingkat 1 — peringkat 1–55 kata yang paling sering diandalkan oleh teks Anda. Jika kata konten masuk di sini, itulah tema Anda.

Tingkat 2 — peringkat 6–15Pemeran pendukung. Kata benda dan kata kerja berulang yang Anda gunakan untuk mengembangkan ide utama.

Tingkat 3 — peringkat 16–40Kosakata yang lebih luas yang mengelilingi tema teratas Anda.

Tingkat 4 — peringkat 41–100Istilah spesifik atau spesialis — nama diri, jargon, entitas bernama.

Tingkat 5 — peringkat 101+Ekor panjang. Kata-kata yang digunakan sekali atau dua kali. Sering kali di sinilah kosakata yang paling menarik berada.

Kasus penggunaan

Penulis — menemukan pengulangan yang tidak disengaja

Anda akan terkejut melihat seberapa sering satu kata ("dengan cepat", "sangat", "sebenarnya", atau nama karakter) menyelinap ke bagian atas draf Anda. Tempelkan sebuah bab dan lihat podium emas-perak-perunggu. Jika ada kata konten muncul di sana tanpa Anda sengaja menekankannya, Anda memiliki kebiasaan menulis yang perlu diedit.

SEO dan pemasaran konten

Atur filter stop-word dan panjang minimum, lalu baca 25 teratas. Ini adalah kata-kata yang paling kuat dikaitkan oleh mesin pencari dengan halaman Anda. Jika kata-kata tersebut tidak cocok dengan kluster kata kunci target Anda, SEO pada halaman Anda akan berkinerja buruk. Hindari penjejalan kata kunci (keyword stuffing) — algoritma modern menghukum kepadatan yang tidak alami. Target yang sehat adalah sekitar 1–2% untuk kata kunci utama Anda.

Studi sastra dan stilistika

Tempelkan bab dari Dickens vs. Hemingway dan bandingkan TTR, persentase hapax, dan panjang kata rata-rata. Sidik jari numerik dari gaya kepenulisan sangat konsisten di seluruh karya mereka — ini adalah dasar dari stilometri komputasi.

Analisis pidato dan transkrip

Politisi dan CEO memiliki kata-kata favorit. Jalankan pidato melalui penganalisis dengan stop-word yang dihapus, dan 15 teratas akan mengungkapkan strategi penyampaian pesan mereka. Bandingkan dua pidato oleh pembicara yang sama untuk melihat apa yang bergeser.

Penerjemahan dan pembelajaran bahasa

Saat mengerjakan penerjemahan, jalankan teks sumber terlebih dahulu untuk melihat kata konten mana yang mendominasi. Pastikan terjemahan Anda mempertahankan penekanan yang sama. Bagi pelajar, memilih artikel 200 kata dan menjalankannya tanpa filter stop-word menunjukkan kata fungsi mana yang perlu Anda kenali dengan lancar.

Penelitian dan penulisan akademik

Banyak jurnal mengharapkan kosakata yang terkontrol dalam abstrak. Pemeriksaan frekuensi sebelum pengiriman draf dapat mendeteksi penggunaan jargon yang berlebihan secara tidak sengaja. Peneliti yang melakukan studi linguistik korpus menggunakan daftar frekuensi sebagai input awal untuk pekerjaan kolokasi, n-gram, dan pemodelan topik — alat ini menghasilkan input tersebut.

Pengaturan yang direkomendasikan berdasarkan jenis dokumen

Dokumen	Stop-word	Panjang min	Top N	Lemantisasi
Postingan blog / artikel	Inggris (atau bahasa Anda)	3	50	Nonaktif
Bab novel	Inggris	3	100	Aktif (gabungkan "runs"/"ran"/"running")
Makalah akademik	Inggris	4	100	Aktif
Utasan Tweet / postingan pendek	Tidak ada	1	25	Nonaktif
Riset SEO	Inggris	3	50	Aktif
Transkrip pidato	Inggris	3	25	Nonaktif (Anda menginginkan frasa persisnya)
Teks bahasa asing	Sesuaikan bahasanya	1	50	Nonaktif (pemberlaku lemantisasi hanya bahasa Inggris)

Pertanyaan yang sering diajukan

Apa yang dihitung sebagai "kata"?

Alat tokenisasi mencocokkan satu atau beberapa huruf Unicode, yang opsional digabungkan dengan tanda penyingkat (apostrof) atau tanda hubung. Jadi don't, state-of-the-art, dan l'ovvio masing-masing dihitung sebagai satu kata. Angka dikecualikan secara default — aktifkan opsi "Hitung angka" jika Anda ingin memasukkannya. Alat tokenisasi ini berfungsi di seluruh skrip Latin, Kiril, Yunani, dan CJK.

Apa yang dilakukan lemantisasi dasar, dan apa yang tidak dilakukannya?

Ini melakukan tiga transformasi ringan: menghapus bentuk kepemilikan bahasa Inggris 's, menggabungkan akhiran kata kerja umum (-ing, -ed), dan bentuk jamak sederhana (-s, -es, -ies → -y). Ini *tidak* melakukan lemantisasi morfologis penuh (seperti mengubah better → good, went → go). Lemantisasi penuh memerlukan pemuatan leksikon WordNet dan itu berlebihan untuk analisis frekuensi di mana bentuk kata yang tepat sering kali menjadi hal yang ingin Anda lihat. Pendekatan konservatif ini juga menghindari kegagalan pemangkasan kata (stemmer) yang paling buruk: menggabungkan kata-kata yang berbeda secara semantik (seperti menggabungkan "university" dan "universe" karena memiliki akar kata yang sama di bawah metode Porter).

Mengapa hasil pratinjau langsung dan hasil server sedikit berbeda?

Pratinjau langsung hanya menyaring stop-word bahasa Inggris di sisi klien (browser) untuk menjaga ukuran skrip tetap kecil — bahasa lain disaring sepenuhnya di sisi server. Server juga menerapkan lemantisasi dasar ketika diaktifkan. Jumlah total token akan selalu sama di antara keduanya.

Apakah alat ini mendukung skrip non-Latin?

Ya — alat tokenisasi menggunakan kelas karakter Unicode, sehingga teks Kiril, Yunani, Arab, Ibrani, Tionghazi, Jepang, dan Korea semuanya dapat dipecah menjadi token dengan benar. Bahasa Tionghoa dan Jepang tidak menggunakan spasi di antara kata-kata, sehingga setiap rangkaian karakter CJK yang berdampingan diperlakukan sebagai satu "token" — untuk segmentasi kata yang sebenarnya dalam bahasa tersebut, Anda memerlukan tokenisator khusus seperti jieba (Tionghoa) atau MeCab (Jepang).

Berapa batas atas ukuran teks?

200.000 karakter per proses — sekitar 30.000 kata bahasa Inggris atau bab novel biasa. Lebih dari itu, memori browser dan ukuran permintaan menjadi masalah; bagi teks Anda menjadi beberapa bagian yang lebih kecil.

Apakah teks saya pribadi?

Ya. Teks diproses di dalam memori untuk merender halaman hasil dan tidak pernah ditulis ke disk. Mini-statistik langsung saat Anda mengetik berjalan sepenuhnya di browser Anda. Kami tidak mencatat, menyimpan, atau menganalisis konten yang Anda tempelkan.

Sejarah singkat analisis frekuensi kata

Daftar frekuensi kata adalah salah satu alat tertua dalam linguistik. Daftar frekuensi bahasa Inggris pertama yang dihasilkan mesin adalah milik Romo Roberto Busa pada tahun 1949–1980 yang berjudul Index Thomisticus, yang menghitung setiap kata dalam karya Thomas Aquinas menggunakan mesin kartu berlubang IBM — secara luas dianggap sebagai proyek pendiri humaniora digital. Brown Corpus (1961) menyediakan daftar frekuensi satu juta kata yang diambil sampelnya secara sistematis dari bahasa Inggris Amerika modern untuk pertama kalinya. Saat ini, setiap mesin pencari, sistem penerjemahan mesin, model bahasa besar (LLM), dan alat SEO berjalan pada statistik frekuensi kata dan token dalam skala besar. Peringkat berbasis Counter sederhana yang Anda lihat di alat ini adalah inti dari bidang tersebut.

Kutip konten, halaman, atau alat ini sebagai:

"Penganalisis Frekuensi Kata" di https://MiniWebtool.com/id/penganalisis-frekuensi-kata/ dari MiniWebtool, https://MiniWebtool.com/

oleh tim miniwebtool. Diperbarui: 27 Mei 2026

API developer tersedia: Jalankan alat ini dari aplikasi, otomatisasi, atau agen Anda dengan satu permintaan HTTP JSON. Lihat dokumentasi API

Peralatan statistik teks:

Penghitung karakter Unggulan
Mendapatkan Panjang String
Alat penghitung baris Unggulan
Kalkulator skor keterbacaan
Alat Penghitung Kata
Penganalisis Judul Baru
Detektor Konten AI Baru
Penghitung Token AI Baru
Penghitung Suku Kata Baru
Penghitung Kalimat Baru
Penghitung Paragraf Baru
Kalkulator Waktu Bicara Baru
Kalkulator Waktu Membaca Baru
Editor Keterbacaan Gaya Hemingway Baru
Penganalisis Variasi Panjang Kalimat Baru
Penganalisis Frekuensi Kata Baru

Penganalisis Frekuensi Kata

Tentang Penganalisis Frekuensi Kata

Apa yang membuat alat penganalisis ini berbeda

Cara menggunakan alat ini

Matematika di balik metrik

Frekuensi dan persentase

Type-Token Ratio (TTR)

Hapax legomena

Penyesuaian ukuran font awan kata

Tingkat frekuensi berkode warna

Kasus penggunaan

Penulis — menemukan pengulangan yang tidak disengaja

SEO dan pemasaran konten

Studi sastra dan stilistika

Analisis pidato dan transkrip

Penerjemahan dan pembelajaran bahasa

Penelitian dan penulisan akademik

Pengaturan yang direkomendasikan berdasarkan jenis dokumen

Pertanyaan yang sering diajukan

Apa yang dihitung sebagai "kata"?

Apa yang dilakukan lemantisasi dasar, dan apa yang tidak dilakukannya?

Mengapa hasil pratinjau langsung dan hasil server sedikit berbeda?

Apakah alat ini mendukung skrip non-Latin?

Berapa batas atas ukuran teks?

Apakah teks saya pribadi?

Sejarah singkat analisis frekuensi kata

Peralatan statistik teks:

Alat unggulan: