詞頻分析器
貼上任何文字,立即查看哪些詞彙出現最頻繁。獲取排序後的詞頻表、動態條形圖、互動式文字雲、詞彙多樣性得分,並支援跨 6 種語言的選用停用詞過濾功能。可將結果匯出為 CSV。
偵測到廣告封鎖,導致我們無法顯示廣告
MiniWebtool 依靠廣告收入免費提供服務。如果這個工具幫到你,歡迎升級 Premium(無廣告 + 更快),或將 MiniWebtool.com 加入允許清單後重新整理頁面。
- 或升級 Premium(無廣告)
- 允許 MiniWebtool.com 顯示廣告,然後重新載入
詞頻分析器
詞頻分析器以令人驚訝的深度回答了一個簡單的問題:這篇文字真正使用最多的是哪些單字?貼上任何散文區塊 — 部落格文章、逐字稿、小說章節、職位描述、演講稿 — 它就會根據每個相異單字出現的頻率進行排序,繪製分佈圖,並渲染出一個按頻率調整大小的互動式文字雲。該工具專為檢查是否意外重複用詞的作者、尋找自然關鍵字密度的 SEO 專家、研究作者詞彙量的學生、進行快速詞彙多樣性健全檢查的研究人員,以及探索陌生文本的翻譯人員或語言學家而設計。所有內容都在您的瀏覽器或我們的伺服器上運行,絕不會被儲存。
是什麼讓這個分析器與眾不同
- 輸入時即時預覽。 側邊欄會立即更新唯一單字數、總單字數、TTR(詞彙多樣性)和即時前 5 名 — 無需點擊「分析」。您可以在幾秒鐘內反覆調整過濾器。
- 六種語言的停用詞列表。 英文、西班牙文、法文、德文、義大利文和葡萄牙文 — 這些是精選的列表,而不是臃腫的資料堆。另外還有一個自由格式的自訂停用詞欄位,可用於過濾角色名稱、品牌名稱或樣板文字。
- 平方根縮放的文字雲。 大多數文字雲生成器會根據原始計數來調整單字大小,這意味著最高頻單字的高度可能是中等排名單字的 50 倍,並在視覺上壓垮整個文字雲。平方根縮放能保持文字雲的可讀性,並且自 Wordle (2009) 以來一直是行業標準方法。
- 前 3 名的「頒獎台」視圖。 瀏覽金/銀/銅卡片就能告訴您文本中最依賴的單字 — 這是當您懷疑自己意外重複用詞時首先要檢查的事項。
- 詞彙多樣性指標。 類標比(Type-Token Ratio)和孤詞(hapax-legomena)計數能為您提供豐富度評分,而不僅僅是頻率數據堆。TTR > 0.6 的短篇散文非常豐富;而在長文件中 TTR 低於 0.2 則代表重複性高。
- 一鍵 CSV 匯出。 下載或複製完整的排序表格以進行試算表分析。
如何使用這個工具
- 貼上您的文字。 最多 200,000 個字元 — 大約 30,000 個單字,相當於長篇小說章節或幾篇部落格文章的總和。
- 選擇停用詞語言。 如果您不過濾停用詞,表格的最上方將會是 「the」、「of」 和 「and」 — 了解一次就夠了,之後就沒有實質意義。請選擇您文字的語言,或者選擇「無」以獲得真正的原始頻率計數。
- 設定最小單字長度。 如果您想跳過 「a」、「I」、「it」、「no」,請設定為 3 或 4。設定為 1 則保留所有內容。
- 選擇要顯示的結果數量。 對於大多數散文來說,前 50 名是最佳平衡點;前 500 名則能為您提供完整的長尾數據。
- 選填切換開關。 如果您介意 「Paris」 與 「paris」 的區別,請開啟「區分大小寫」。開啟「基本詞形還原」可將 「runs」、「ran」 和 「running」 合併為 「run」。如果版本號、年份和統計數據在您的文字中具有意義,請開啟「計算數字」。
- 點擊「分析」。 閱讀頒獎台,瀏覽條形圖表格,掃視文字雲,如果您想進一步挖掘,還可以匯出 CSV。
指標背後的數學原理
頻率和百分比
對於每個相異的單字 \( w \),計數是它在保留的標記列表中出現的次數,百分比是 \( \text{count}(w) / N \),其中 \( N \) 是保留標記的總數。條形圖寬度是相對於最常見單字計算的,因此您可以一目了然地看出分佈的形狀。
類標比 (Type-Token Ratio, TTR)
\( \text{TTR} = U / N \),其中 \( U \) 是唯一單字(類型)的數量,\( N \) 是計算的總標記數。TTR 是詞彙多樣性最簡單的衡量標準。一篇簡短的新聞摘要通常在 0.5–0.7 之間;而長篇小說則會降至 0.15–0.25,因為常見單字會重複出現。TTR 對長度很敏感 — 長文本的 TTR 總是比短文本低,因此請勿對字數相差懸殊的文件進行 TTR 對比。
孤詞 (Hapax legomena)
孤詞(Hapax legomenon,希臘語意為「只說一次」)是在文本中恰好只出現一次的單字。孤詞計數和孤詞百分比是詞彙豐富度的經典訊號。在莎士比亞的全集中,他 31,000 個相異單字中大約有 14,000 個是孤詞 — 約佔 45%。現代部落格文章的孤詞率往往會達到 60% 或更高,因為沒有足夠的文本讓單字重複出現。
文字雲字型大小縮放
文字雲中單字 \( w \) 的字型大小在顯示的最小和最大計數之間使用平方根縮放:
\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)
這會壓縮動態範圍,因此出現 200 次的單字高度大約是出現 20 次的單字的 3 倍,而不是 10 倍。如果沒有這種壓縮,文字雲將會被一兩個巨大的單字所主宰。
色彩編碼的頻率分層
條形圖和文字雲單字依據排名分層進行色彩編碼,以便您一目了然地看出分佈的形狀:
應用場景
作者 — 捕捉無意間的重複用詞
您會驚訝地發現某個單字(如「很快地」、「真的」、「基本上」、某個角色的名字)竟然悄悄溜到了您草稿的頂端。貼上一個章節,看看金銀銅頒獎台。如果那裡出現了您並非刻意強調的實詞,您就有需要修改的贅詞習慣了。
SEO 與內容行銷
設定停用詞過濾器和最小長度,然後閱讀前 25 名。這些是搜尋引擎最容易與您的網頁產生強烈關聯的單字。如果它們與您的目標關鍵字群不匹配,您的網頁 SEO 表現就會不如預期。請避免堆砌關鍵字 — 現代演算法會懲罰不自然的密度。對於您的主要關鍵字,大約 1–2% 是健康的目標值。
文學研究與文體學
貼上狄更斯與海明威的小說章節,並比較 TTR、孤詞百分比和平均單字長度。作者文體風格的數字指紋在他們的作品群中表現得非常一致 — 這就是計算文體學(computational stylometry)的基石。
演講與逐字稿分析
政治家和執行長都有偏好的單字。將演講稿放入分析器中並移除停用詞,前 15 名就能揭示其訊息策略。對比同一位演講者的兩場演講,可以看出焦點產生了什麼轉移。
翻譯與語言學習
在進行翻譯工作時,先運行原文以查看哪些實詞佔據主導地位。確保您的譯文保留相同的強調重點。對於學習者來說,挑選一篇 200 字的文章並在不過濾停用詞的情況下運行它,可以顯示出您需要熟練辨識哪些功能詞。
研究與學術寫作
許多期刊期望摘要中能使用受控詞表。在提交前進行頻率檢查可以捕捉到意外過度使用學術術語的情況。進行語料庫語言學研究的研究人員會將頻率列表作為搭配詞(collocation)、n-gram 和主題模型工作的初始輸入 — 本工具即可生成該輸入。
不同文件類型的推薦設定
| 文件類型 | 停用詞 | 最小長度 | 前 N 名 | 詞形還原 |
|---|---|---|---|---|
| 部落格文章 / 文章 | 英文(或您的語言) | 3 | 50 | 關閉 |
| 小說章節 | 英文 | 3 | 100 | 開啟 (合併 \"runs\"/\"ran\"/\"running\") |
| 學術論文 | 英文 | 4 | 100 | 開啟 |
| 推文串 / 短文 | 無 | 1 | 25 | 關閉 |
| SEO 研究 | 英文 | 3 | 50 | 開啟 |
| 演講逐字稿 | 英文 | 3 | 25 | 關閉 (您需要精確的措辭) |
| 外語文本 | 符合該語言 | 1 | 50 | 關閉 (僅支援英文詞形還原) |
常見問題
什麼算作一個「單字」?
標記化工具(tokenizer)會匹配一個或多個 Unicode 字母,並可選擇透過撇號或連字號連接。因此 don't、state-of-the-art 和 l'ovvio 各算作一個單字。預設情況下不包含數字 — 如果您想包含它們,請切換開啟「計算數字」。該標記化工具適用於拉丁字母、西里爾字母、希臘字母和 CJK 文本。
基本詞形還原功能會做什麼,不會做什麼?
它執行三種輕量級轉換:去掉所有格 's、合併常見的動詞字尾(-ing、-ed)以及簡單的複數(-s、-es、-ies → -y)。它不會進行完全的形態學詞形還原(better → good、went → go)。完全的詞形還原需要附帶 WordNet 詞典,這對於通常希望看到精確單字形式的頻率分析來說未免大材小用。這種保守的方法也避免了最糟糕的詞幹提取失敗模式:將語義截然不同的單字合併(例如在 Porter 演算法下 \"university\" 和 \"universe\" 會共享同一個詞幹)。
為什麼即時預覽和伺服器結果會略有不同?
即時預覽僅在用戶端過濾英文停用詞,以保持指令碼體積精簡 — 其他語言會在伺服器上進行完整過濾。當切換開啟時,伺服器還會應用基本詞形還原。兩者之間的總標記計數始終是相同的。
該工具能處理非拉丁腳本嗎?
可以 — 標記化工具使用 Unicode 字元類別,因此西里爾文、希臘文、阿拉伯文、希伯來文、中文、日文和韓文文本都能正確進行標記化。中文和日文在單字之間不使用空格,因此 CJK 字元的每個連續片段都會被視為單個「標記」 — 若要在這些語言中進行真正的分詞,您需要使用專用的分詞器,如 jieba(中文)或 MeCab(日文)。
文本大小的上限是多少?
每次運行 200,000 個字元 — 大約 30,000 個英文單字或典型的小說章節。超過這個限制,瀏覽器記憶體和請求大小就會成為問題;請將您的文字拆分為較小的部分進行分析。
我的文字是私密的嗎?
是的。文字會在記憶體中處理以渲染結果頁面,絕不會寫入磁碟。您輸入時的即時微型統計完全在您的瀏覽器中執行。我們不會記錄、儲存或分析您貼上的內容。
詞頻分析簡史
詞頻列表是語言學中最古老的工具之一。第一份由機器生成的英文頻率列表是羅伯托·布薩神父(Father Roberto Busa)於 1949–1980 年編製的 Index Thomisticus,該列表使用 IBM 穿孔卡片機計算了托馬斯·阿奎那著作中的每個單字 — 這被廣泛認為是數位人文學科的奠基項目。布朗語料庫(Brown Corpus, 1961)提供了第一個系統抽樣的現代美式英文百萬字詞頻列表。今天,每個搜尋引擎、機器翻譯系統、大型語言模型和 SEO 工具都在大規模運行單字和標記的頻率統計。您在該工具中看到的基於 Counter 的簡單排序正是該領域的核心。
引用此內容、頁面或工具為:
"詞頻分析器" 於 https://MiniWebtool.com/zh-tw//,來自 MiniWebtool,https://MiniWebtool.com/
由 miniwebtool 團隊編製。更新日期:2026 年 5 月 27 日