Penganalisis Frekuensi Kata
Tempelkan teks apa saja dan lihat langsung kata mana yang paling sering muncul. Dapatkan tabel frekuensi berperingkat, grafik batang beranimasi, word cloud interaktif, skor keragaman leksikal, dan penyaringan stop-word opsional di 6 bahasa. Ekspor hasil sebagai CSV.
Ad blocker Anda mencegah kami menampilkan iklan
MiniWebtool gratis karena iklan. Jika alat ini membantu, dukung kami dengan Premium (bebas iklan + lebih cepat) atau whitelist MiniWebtool.com lalu muat ulang halaman.
- Atau upgrade ke Premium (bebas iklan)
- Izinkan iklan untuk MiniWebtool.com, lalu muat ulang
Tentang Penganalisis Frekuensi Kata
Penganalisis Frekuensi Kata menjawab pertanyaan sederhana dengan kedalaman yang mengejutkan: kata apa saja yang sebenarnya paling sering digunakan dalam teks ini? Tempelkan blok prosa apa pun — postingan blog, transkrip, bab novel, deskripsi pekerjaan, pidato — dan alat ini akan mengurutkan setiap kata yang berbeda berdasarkan seberapa sering kata itu muncul, membuat grafik distribusinya, dan menampilkan awan kata interaktif yang ukurannya disesuaikan dengan frekuensi. Alat ini dibuat untuk penulis yang memeriksa pengulangan kata yang tidak disengaja, spesialis SEO yang mencari kepadatan kata kunci alami, siswa yang mempelajari kosakata seorang penulis, peneliti yang melakukan pemeriksaan keanekaragaman leksikal dengan cepat, serta penerjemah atau ahli bahasa yang menjelajahi teks asing. Semuanya berjalan di browser Anda atau di server kami dan tidak pernah disimpan.
Apa yang membuat alat penganalisis ini berbeda
- Pratinjau langsung saat Anda mengetik. Panel samping memperbarui hitungan kata unik, total kata, TTR (keanekaragaman leksikal), dan 5 teratas secara instan — tanpa perlu mengklik Analisis. Anda dapat mencoba berbagai filter dalam hitungan detik.
- Daftar stop-word enam bahasa. Bahasa Inggris, Spanyol, Prancis, Jerman, Italia, dan Portugis — daftar yang dipilih dengan cermat, bukan sekadar pembuangan data yang membengkak. Ditambah kolom stop-word khusus bentuk bebas untuk nama karakter, nama merek, atau teks standar.
- Awan kata berskala akar kuadrat. Sebagian besar pembuat awan kata menyesuaikan ukuran kata berdasarkan jumlah mentah, yang berarti kata teratas bisa berukuran 50× tinggi kata peringkat menengah dan secara visual menghancurkan awan kata. Penskalaan akar kuadrat (sqrt) menjaga awan kata tetap terbaca dan merupakan pendekatan standar industri sejak Wordle (2009).
- Tampilan podium "3 besar". Pandangan sekilas pada kartu emas/perak/perunggu memberi tahu Anda kata-kata yang paling sering diandalkan dalam teks Anda — hal pertama yang harus diperiksa saat Anda mencurigai adanya pengulangan yang tidak disengaja.
- Metrik keanekaragaman leksikal. Type-Token Ratio dan hitungan hapax-legomena memberi Anda skor kekayaan kosakata, bukan hanya sekadar daftar frekuensi. Prosa pendek dengan TTR > 0,6 tergolong kaya; TTR di bawah 0,2 dalam dokumen panjang berarti banyak pengulangan.
- Ekspor CSV sekali klik. Unduh atau salin tabel peringkat lengkap untuk analisis lembar kerja (spreadsheet).
Cara menggunakan alat ini
- Tempelkan teks Anda. Hingga 200.000 karakter — sekitar 30.000 kata, sepanjang bab novel yang panjang atau gabungan beberapa postingan blog.
- Pilih bahasa stop-word. Jika Anda tidak menyaring stop-word, bagian atas tabel akan dipenuhi oleh kata-kata fungsi seperti "the", "of", dan "and" — informatif sekali saja, tetapi tidak untuk seterusnya. Pilih bahasa teks Anda, atau pilih Tidak Ada untuk hitungan frekuensi mentah yang sebenarnya.
- Atur panjang kata minimum. Atur ke 3 atau 4 jika Anda ingin melewati kata pendek seperti "a", "I", "it", "no". Atur ke 1 untuk mempertahankan semuanya.
- Pilih berapa banyak hasil yang akan ditampilkan. Top 50 adalah pilihan terbaik untuk sebagian besar prosa; Top 500 memberi Anda daftar ekor panjang yang lengkap.
- Pengaktifan opsional. Aktifkan sensitivitas huruf besar-kecil jika Anda memedulikan perbedaan antara "Paris" dan "paris". Aktifkan lemantisasi dasar untuk menggabungkan kata seperti "runs", "ran", dan "running" menjadi "run". Aktifkan penghitungan angka jika nomor versi, tahun, dan statistik memiliki arti penting dalam teks Anda.
- Klik Analisis. Baca podium, pindai tabel grafik batang, lihat sekilas awan kata, dan ekspor CSV jika Anda ingin mendalaminya lebih lanjut.
Matematika di balik metrik
Frekuensi dan persentase
Untuk setiap kata yang berbeda \( w \), hitungannya adalah berapa kali kata tersebut muncul dalam daftar token yang dipertahankan, dan persentasenya adalah \( \text{count}(w) / N \) di mana \( N \) adalah total token yang dipertahankan. Lebar batang relatif terhadap kata yang paling umum sehingga Anda dapat melihat bentuk distribusi secara sekilas.
Type-Token Ratio (TTR)
\( \text{TTR} = U / N \) di mana \( U \) adalah jumlah kata unik (types) dan \( N \) adalah total token yang dihitung. TTR adalah ukuran paling sederhana dari keanekaragaman leksikal. Berita singkat biasanya berada di angka 0,5–0,7; novel panjang turun ke 0,15–0,25 karena kata-kata umum berulang. TTR sensitif terhadap panjang teks — teks panjang selalu memiliki TTR yang lebih rendah daripada teks pendek, jadi jangan bandingkan TTR antar dokumen dengan ukuran yang sangat berbeda.
Hapax legomena
Hapax legomenon (bahasa Yunani untuk "diucapkan sekali") adalah kata yang muncul tepat satu kali dalam teks. Hitungan hapax dan persentase hapax adalah sinyal klasik dari kekayaan kosakata. Dalam karya lengkap Shakespeare, sekitar 14.000 dari 31.000 kata uniknya adalah hapax — sekitar 45%. Postingan blog modern sering kali mencapai 60% atau lebih hapax karena teksnya tidak cukup panjang untuk membuat kata-kata berulang.
Penyesuaian ukuran font awan kata
Ukuran font untuk kata \( w \) dalam awan kata menggunakan penskalaan akar kuadrat antara jumlah hitungan minimum dan maksimum yang ditampilkan:
\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)
Ini mengompresi rentang dinamis sehingga kata yang muncul 200× memiliki tinggi sekitar 3× dari kata yang muncul 20×, bukan 10×. Tanpa kompresi ini, awan kata akan didominasi oleh satu atau dua kata raksasa saja.
Tingkat frekuensi berkode warna
Batang dan kata-kata awan diberi kode warna berdasarkan tingkat peringkat sehingga Anda dapat melihat bentuk distribusi Anda secara sekilas:
Kasus penggunaan
Penulis — menemukan pengulangan yang tidak disengaja
Anda akan terkejut melihat seberapa sering satu kata ("dengan cepat", "sangat", "sebenarnya", atau nama karakter) menyelinap ke bagian atas draf Anda. Tempelkan sebuah bab dan lihat podium emas-perak-perunggu. Jika ada kata konten muncul di sana tanpa Anda sengaja menekankannya, Anda memiliki kebiasaan menulis yang perlu diedit.
SEO dan pemasaran konten
Atur filter stop-word dan panjang minimum, lalu baca 25 teratas. Ini adalah kata-kata yang paling kuat dikaitkan oleh mesin pencari dengan halaman Anda. Jika kata-kata tersebut tidak cocok dengan kluster kata kunci target Anda, SEO pada halaman Anda akan berkinerja buruk. Hindari penjejalan kata kunci (keyword stuffing) — algoritma modern menghukum kepadatan yang tidak alami. Target yang sehat adalah sekitar 1–2% untuk kata kunci utama Anda.
Studi sastra dan stilistika
Tempelkan bab dari Dickens vs. Hemingway dan bandingkan TTR, persentase hapax, dan panjang kata rata-rata. Sidik jari numerik dari gaya kepenulisan sangat konsisten di seluruh karya mereka — ini adalah dasar dari stilometri komputasi.
Analisis pidato dan transkrip
Politisi dan CEO memiliki kata-kata favorit. Jalankan pidato melalui penganalisis dengan stop-word yang dihapus, dan 15 teratas akan mengungkapkan strategi penyampaian pesan mereka. Bandingkan dua pidato oleh pembicara yang sama untuk melihat apa yang bergeser.
Penerjemahan dan pembelajaran bahasa
Saat mengerjakan penerjemahan, jalankan teks sumber terlebih dahulu untuk melihat kata konten mana yang mendominasi. Pastikan terjemahan Anda mempertahankan penekanan yang sama. Bagi pelajar, memilih artikel 200 kata dan menjalankannya tanpa filter stop-word menunjukkan kata fungsi mana yang perlu Anda kenali dengan lancar.
Penelitian dan penulisan akademik
Banyak jurnal mengharapkan kosakata yang terkontrol dalam abstrak. Pemeriksaan frekuensi sebelum pengiriman draf dapat mendeteksi penggunaan jargon yang berlebihan secara tidak sengaja. Peneliti yang melakukan studi linguistik korpus menggunakan daftar frekuensi sebagai input awal untuk pekerjaan kolokasi, n-gram, dan pemodelan topik — alat ini menghasilkan input tersebut.
Pengaturan yang direkomendasikan berdasarkan jenis dokumen
| Dokumen | Stop-word | Panjang min | Top N | Lemantisasi |
|---|---|---|---|---|
| Postingan blog / artikel | Inggris (atau bahasa Anda) | 3 | 50 | Nonaktif |
| Bab novel | Inggris | 3 | 100 | Aktif (gabungkan "runs"/"ran"/"running") |
| Makalah akademik | Inggris | 4 | 100 | Aktif |
| Utasan Tweet / postingan pendek | Tidak ada | 1 | 25 | Nonaktif |
| Riset SEO | Inggris | 3 | 50 | Aktif |
| Transkrip pidato | Inggris | 3 | 25 | Nonaktif (Anda menginginkan frasa persisnya) |
| Teks bahasa asing | Sesuaikan bahasanya | 1 | 50 | Nonaktif (pemberlaku lemantisasi hanya bahasa Inggris) |
Pertanyaan yang sering diajukan
Apa yang dihitung sebagai "kata"?
Alat tokenisasi mencocokkan satu atau beberapa huruf Unicode, yang opsional digabungkan dengan tanda penyingkat (apostrof) atau tanda hubung. Jadi don't, state-of-the-art, dan l'ovvio masing-masing dihitung sebagai satu kata. Angka dikecualikan secara default — aktifkan opsi "Hitung angka" jika Anda ingin memasukkannya. Alat tokenisasi ini berfungsi di seluruh skrip Latin, Kiril, Yunani, dan CJK.
Apa yang dilakukan lemantisasi dasar, dan apa yang tidak dilakukannya?
Ini melakukan tiga transformasi ringan: menghapus bentuk kepemilikan bahasa Inggris 's, menggabungkan akhiran kata kerja umum (-ing, -ed), dan bentuk jamak sederhana (-s, -es, -ies → -y). Ini *tidak* melakukan lemantisasi morfologis penuh (seperti mengubah better → good, went → go). Lemantisasi penuh memerlukan pemuatan leksikon WordNet dan itu berlebihan untuk analisis frekuensi di mana bentuk kata yang tepat sering kali menjadi hal yang ingin Anda lihat. Pendekatan konservatif ini juga menghindari kegagalan pemangkasan kata (stemmer) yang paling buruk: menggabungkan kata-kata yang berbeda secara semantik (seperti menggabungkan "university" dan "universe" karena memiliki akar kata yang sama di bawah metode Porter).
Mengapa hasil pratinjau langsung dan hasil server sedikit berbeda?
Pratinjau langsung hanya menyaring stop-word bahasa Inggris di sisi klien (browser) untuk menjaga ukuran skrip tetap kecil — bahasa lain disaring sepenuhnya di sisi server. Server juga menerapkan lemantisasi dasar ketika diaktifkan. Jumlah total token akan selalu sama di antara keduanya.
Apakah alat ini mendukung skrip non-Latin?
Ya — alat tokenisasi menggunakan kelas karakter Unicode, sehingga teks Kiril, Yunani, Arab, Ibrani, Tionghazi, Jepang, dan Korea semuanya dapat dipecah menjadi token dengan benar. Bahasa Tionghoa dan Jepang tidak menggunakan spasi di antara kata-kata, sehingga setiap rangkaian karakter CJK yang berdampingan diperlakukan sebagai satu "token" — untuk segmentasi kata yang sebenarnya dalam bahasa tersebut, Anda memerlukan tokenisator khusus seperti jieba (Tionghoa) atau MeCab (Jepang).
Berapa batas atas ukuran teks?
200.000 karakter per proses — sekitar 30.000 kata bahasa Inggris atau bab novel biasa. Lebih dari itu, memori browser dan ukuran permintaan menjadi masalah; bagi teks Anda menjadi beberapa bagian yang lebih kecil.
Apakah teks saya pribadi?
Ya. Teks diproses di dalam memori untuk merender halaman hasil dan tidak pernah ditulis ke disk. Mini-statistik langsung saat Anda mengetik berjalan sepenuhnya di browser Anda. Kami tidak mencatat, menyimpan, atau menganalisis konten yang Anda tempelkan.
Sejarah singkat analisis frekuensi kata
Daftar frekuensi kata adalah salah satu alat tertua dalam linguistik. Daftar frekuensi bahasa Inggris pertama yang dihasilkan mesin adalah milik Romo Roberto Busa pada tahun 1949–1980 yang berjudul Index Thomisticus, yang menghitung setiap kata dalam karya Thomas Aquinas menggunakan mesin kartu berlubang IBM — secara luas dianggap sebagai proyek pendiri humaniora digital. Brown Corpus (1961) menyediakan daftar frekuensi satu juta kata yang diambil sampelnya secara sistematis dari bahasa Inggris Amerika modern untuk pertama kalinya. Saat ini, setiap mesin pencari, sistem penerjemahan mesin, model bahasa besar (LLM), dan alat SEO berjalan pada statistik frekuensi kata dan token dalam skala besar. Peringkat berbasis Counter sederhana yang Anda lihat di alat ini adalah inti dari bidang tersebut.
Kutip konten, halaman, atau alat ini sebagai:
"Penganalisis Frekuensi Kata" di https://MiniWebtool.com/id// dari MiniWebtool, https://MiniWebtool.com/
oleh tim miniwebtool. Diperbarui: 27 Mei 2026