這個工具是做什麼用的？

它會讀取任何文本塊，計算每個相異的單字，並依頻率從高到低進行排序。您可以看到排序表格、根據最高頻單字調整大小的動畫條形圖、具有平方根縮放字型大小的文字雲，以及詞彙多樣性統計數據。您可以將結果下載為 CSV。

為什麼要過濾停用詞？

在英文中，前 5 個單字（'the'、'of'、'and'、'a'、'to'）會淹沒所有實際帶有意義的內容。停用詞列表會移除這些高頻的功能詞，以便報告顯現出您文字真正關聯的單字。我們提供英文、西班牙文、法文、德文、義大利文和葡萄牙文的精選列表，您還可以添加自訂停用詞，例如角色名稱或產品品牌。

什麼是類標比（Type-Token Ratio）？

類標比（TTR）= 唯一單字數 / 總單字數。這是詞彙多樣性的經典衡量標準。一篇短篇新聞文章大約在 0.5-0.7 之間，而長篇小說通常會降至 0.1-0.2，因為常見單字會重複出現。較高的 TTR 意味著在您分析的層面上具有更豐富的詞彙量。

什麼是孤詞（hapax legomena）？

恰好只出現一次的單字。它們是詞彙豐富度的強烈訊號。在莎士比亞的全集中，他 31,000 個相異單字中大約有 14,000 個是孤詞。高孤詞百分比意味著有許多一次性的想法；低百分比則意味著大量重複使用較小的詞彙量。

為什麼文字雲的大小是用平方根而不是用計數來縮放？

如果最高頻的單字出現 200 次，而下一個單字出現 20 次，線性縮放會使最高頻單字的高度達到 10 倍 — 這會在視覺上壓垮整個文字雲，導致您無法閱讀其他任何內容。平方根縮放將差異壓縮到大約 3 倍，因此文字雲能保持可讀性，同時仍然強調主要單字。這一直是專業文字雲工具的運作方式。

分析器會保留我的文字嗎？

不會。您的文字會在記憶體中處理以渲染此頁面，絕不會寫入磁碟。您輸入時的即時微型統計完全在您的瀏覽器中執行。不會對您貼上的內容進行第三方追蹤。

詞頻分析器

貼上任何文字，立即查看哪些詞彙出現最頻繁。獲取排序後的詞頻表、動態條形圖、互動式文字雲、詞彙多樣性得分，並支援跨 6 種語言的選用停用詞過濾功能。可將結果匯出為 CSV。

詞頻分析器

📚 嘗試範例

您的文字貼上任何散文 — 文章、論文、逐字稿，甚至完整的小說章節。每次運行最多 200,000 個字元。

停用詞列表

最小單字長度

顯示前

自訂停用詞（選填）添加角色名稱、品牌名稱或任何您想過濾掉的單字 — 以逗號或空格分隔。

區分大小寫基本詞形還原 (runs → run) 計算數字

Embed 詞頻分析器 Widget

詞頻分析器

詞頻分析器以令人驚訝的深度回答了一個簡單的問題：這篇文字真正使用最多的是哪些單字？貼上任何散文區塊 — 部落格文章、逐字稿、小說章節、職位描述、演講稿 — 它就會根據每個相異單字出現的頻率進行排序，繪製分佈圖，並渲染出一個按頻率調整大小的互動式文字雲。該工具專為檢查是否意外重複用詞的作者、尋找自然關鍵字密度的 SEO 專家、研究作者詞彙量的學生、進行快速詞彙多樣性健全檢查的研究人員，以及探索陌生文本的翻譯人員或語言學家而設計。所有內容都在您的瀏覽器或我們的伺服器上運行，絕不會被儲存。

是什麼讓這個分析器與眾不同

輸入時即時預覽。 側邊欄會立即更新唯一單字數、總單字數、TTR（詞彙多樣性）和即時前 5 名 — 無需點擊「分析」。您可以在幾秒鐘內反覆調整過濾器。
六種語言的停用詞列表。 英文、西班牙文、法文、德文、義大利文和葡萄牙文 — 這些是精選的列表，而不是臃腫的資料堆。另外還有一個自由格式的自訂停用詞欄位，可用於過濾角色名稱、品牌名稱或樣板文字。
平方根縮放的文字雲。 大多數文字雲生成器會根據原始計數來調整單字大小，這意味著最高頻單字的高度可能是中等排名單字的 50 倍，並在視覺上壓垮整個文字雲。平方根縮放能保持文字雲的可讀性，並且自 Wordle (2009) 以來一直是行業標準方法。
前 3 名的「頒獎台」視圖。 瀏覽金/銀/銅卡片就能告訴您文本中最依賴的單字 — 這是當您懷疑自己意外重複用詞時首先要檢查的事項。
詞彙多樣性指標。 類標比（Type-Token Ratio）和孤詞（hapax-legomena）計數能為您提供豐富度評分，而不僅僅是頻率數據堆。TTR > 0.6 的短篇散文非常豐富；而在長文件中 TTR 低於 0.2 則代表重複性高。
一鍵 CSV 匯出。 下載或複製完整的排序表格以進行試算表分析。

如何使用這個工具

貼上您的文字。 最多 200,000 個字元 — 大約 30,000 個單字，相當於長篇小說章節或幾篇部落格文章的總和。
選擇停用詞語言。 如果您不過濾停用詞，表格的最上方將會是「the」、「of」和「and」 — 了解一次就夠了，之後就沒有實質意義。請選擇您文字的語言，或者選擇「無」以獲得真正的原始頻率計數。
設定最小單字長度。 如果您想跳過「a」、「I」、「it」、「no」，請設定為 3 或 4。設定為 1 則保留所有內容。
選擇要顯示的結果數量。 對於大多數散文來說，前 50 名是最佳平衡點；前 500 名則能為您提供完整的長尾數據。
選填切換開關。 如果您介意「Paris」與「paris」的區別，請開啟「區分大小寫」。開啟「基本詞形還原」可將「runs」、「ran」和「running」合併為「run」。如果版本號、年份和統計數據在您的文字中具有意義，請開啟「計算數字」。
點擊「分析」。 閱讀頒獎台，瀏覽條形圖表格，掃視文字雲，如果您想進一步挖掘，還可以匯出 CSV。

指標背後的數學原理

頻率和百分比

對於每個相異的單字 \( w \)，計數是它在保留的標記列表中出現的次數，百分比是 \( \text{count}(w) / N \)，其中 \( N \) 是保留標記的總數。條形圖寬度是相對於最常見單字計算的，因此您可以一目了然地看出分佈的形狀。

類標比 (Type-Token Ratio, TTR)

\( \text{TTR} = U / N \)，其中 \( U \) 是唯一單字（類型）的數量，\( N \) 是計算的總標記數。TTR 是詞彙多樣性最簡單的衡量標準。一篇簡短的新聞摘要通常在 0.5–0.7 之間；而長篇小說則會降至 0.15–0.25，因為常見單字會重複出現。TTR 對長度很敏感 — 長文本的 TTR 總是比短文本低，因此請勿對字數相差懸殊的文件進行 TTR 對比。

孤詞 (Hapax legomena)

孤詞（Hapax legomenon，希臘語意為「只說一次」）是在文本中恰好只出現一次的單字。孤詞計數和孤詞百分比是詞彙豐富度的經典訊號。在莎士比亞的全集中，他 31,000 個相異單字中大約有 14,000 個是孤詞 — 約佔 45%。現代部落格文章的孤詞率往往會達到 60% 或更高，因為沒有足夠的文本讓單字重複出現。

文字雲字型大小縮放

文字雲中單字 \( w \) 的字型大小在顯示的最小和最大計數之間使用平方根縮放：

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

這會壓縮動態範圍，因此出現 200 次的單字高度大約是出現 20 次的單字的 3 倍，而不是 10 倍。如果沒有這種壓縮，文字雲將會被一兩個巨大的單字所主宰。

色彩編碼的頻率分層

條形圖和文字雲單字依據排名分層進行色彩編碼，以便您一目了然地看出分佈的形狀：

第 1 層 — 排名 1–5您的文本最依賴的 5 個單字。如果實詞落在此處，那就是您的主題。

第 2 層 — 排名 6–15配角詞彙。您用來展開主要觀點的重複出現的名詞和動詞。

第 3 層 — 排名 16–40圍繞您核心主題的更廣泛詞彙。

第 4 層 — 排名 41–100專業或特定術語 — 專有名詞、行業術語、命名實體。

第 5 層 — 排名 101+長尾詞彙。出現過一兩次的單字。通常是最有趣的詞彙所在之處。

應用場景

作者 — 捕捉無意間的重複用詞

您會驚訝地發現某個單字（如「很快地」、「真的」、「基本上」、某個角色的名字）竟然悄悄溜到了您草稿的頂端。貼上一個章節，看看金銀銅頒獎台。如果那裡出現了您並非刻意強調的實詞，您就有需要修改的贅詞習慣了。

SEO 與內容行銷

設定停用詞過濾器和最小長度，然後閱讀前 25 名。這些是搜尋引擎最容易與您的網頁產生強烈關聯的單字。如果它們與您的目標關鍵字群不匹配，您的網頁 SEO 表現就會不如預期。請避免堆砌關鍵字 — 現代演算法會懲罰不自然的密度。對於您的主要關鍵字，大約 1–2% 是健康的目標值。

文學研究與文體學

貼上狄更斯與海明威的小說章節，並比較 TTR、孤詞百分比和平均單字長度。作者文體風格的數字指紋在他們的作品群中表現得非常一致 — 這就是計算文體學（computational stylometry）的基石。

演講與逐字稿分析

政治家和執行長都有偏好的單字。將演講稿放入分析器中並移除停用詞，前 15 名就能揭示其訊息策略。對比同一位演講者的兩場演講，可以看出焦點產生了什麼轉移。

翻譯與語言學習

在進行翻譯工作時，先運行原文以查看哪些實詞佔據主導地位。確保您的譯文保留相同的強調重點。對於學習者來說，挑選一篇 200 字的文章並在不過濾停用詞的情況下運行它，可以顯示出您需要熟練辨識哪些功能詞。

研究與學術寫作

許多期刊期望摘要中能使用受控詞表。在提交前進行頻率檢查可以捕捉到意外過度使用學術術語的情況。進行語料庫語言學研究的研究人員會將頻率列表作為搭配詞（collocation）、n-gram 和主題模型工作的初始輸入 — 本工具即可生成該輸入。

不同文件類型的推薦設定

文件類型	停用詞	最小長度	前 N 名	詞形還原
部落格文章 / 文章	英文（或您的語言）	3	50	關閉
小說章節	英文	3	100	開啟 (合併 \"runs\"/\"ran\"/\"running\")
學術論文	英文	4	100	開啟
推文串 / 短文	無	1	25	關閉
SEO 研究	英文	3	50	開啟
演講逐字稿	英文	3	25	關閉 (您需要精確的措辭)
外語文本	符合該語言	1	50	關閉 (僅支援英文詞形還原)

常見問題

什麼算作一個「單字」？

標記化工具（tokenizer）會匹配一個或多個 Unicode 字母，並可選擇透過撇號或連字號連接。因此 don't、state-of-the-art 和 l'ovvio 各算作一個單字。預設情況下不包含數字 — 如果您想包含它們，請切換開啟「計算數字」。該標記化工具適用於拉丁字母、西里爾字母、希臘字母和 CJK 文本。

基本詞形還原功能會做什麼，不會做什麼？

它執行三種輕量級轉換：去掉所有格 's、合併常見的動詞字尾（-ing、-ed）以及簡單的複數（-s、-es、-ies → -y）。它不會進行完全的形態學詞形還原（better → good、went → go）。完全的詞形還原需要附帶 WordNet 詞典，這對於通常希望看到精確單字形式的頻率分析來說未免大材小用。這種保守的方法也避免了最糟糕的詞幹提取失敗模式：將語義截然不同的單字合併（例如在 Porter 演算法下 \"university\" 和 \"universe\" 會共享同一個詞幹）。

為什麼即時預覽和伺服器結果會略有不同？

即時預覽僅在用戶端過濾英文停用詞，以保持指令碼體積精簡 — 其他語言會在伺服器上進行完整過濾。當切換開啟時，伺服器還會應用基本詞形還原。兩者之間的總標記計數始終是相同的。

該工具能處理非拉丁腳本嗎？

可以 — 標記化工具使用 Unicode 字元類別，因此西里爾文、希臘文、阿拉伯文、希伯來文、中文、日文和韓文文本都能正確進行標記化。中文和日文在單字之間不使用空格，因此 CJK 字元的每個連續片段都會被視為單個「標記」 — 若要在這些語言中進行真正的分詞，您需要使用專用的分詞器，如 jieba（中文）或 MeCab（日文）。

文本大小的上限是多少？

每次運行 200,000 個字元 — 大約 30,000 個英文單字或典型的小說章節。超過這個限制，瀏覽器記憶體和請求大小就會成為問題；請將您的文字拆分為較小的部分進行分析。

我的文字是私密的嗎？

是的。文字會在記憶體中處理以渲染結果頁面，絕不會寫入磁碟。您輸入時的即時微型統計完全在您的瀏覽器中執行。我們不會記錄、儲存或分析您貼上的內容。

詞頻分析簡史

詞頻列表是語言學中最古老的工具之一。第一份由機器生成的英文頻率列表是羅伯托·布薩神父（Father Roberto Busa）於 1949–1980 年編製的 Index Thomisticus，該列表使用 IBM 穿孔卡片機計算了托馬斯·阿奎那著作中的每個單字 — 這被廣泛認為是數位人文學科的奠基項目。布朗語料庫（Brown Corpus, 1961）提供了第一個系統抽樣的現代美式英文百萬字詞頻列表。今天，每個搜尋引擎、機器翻譯系統、大型語言模型和 SEO 工具都在大規模運行單字和標記的頻率統計。您在該工具中看到的基於 Counter 的簡單排序正是該領域的核心。

引用此內容、頁面或工具為：

"詞頻分析器" 於 https://MiniWebtool.com/zh-tw/詞頻分析器/，來自 MiniWebtool，https://MiniWebtool.com/

由 miniwebtool 團隊編製。更新日期：2026 年 5 月 27 日

開發者 API 可用: 用一次 JSON HTTP 請求，把這個工具接入你的應用程式、自動化流程或代理。查看 API 文件

詞頻分析器

詞頻分析器

是什麼讓這個分析器與眾不同

如何使用這個工具

指標背後的數學原理

頻率和百分比

類標比 (Type-Token Ratio, TTR)

孤詞 (Hapax legomena)

文字雲字型大小縮放

色彩編碼的頻率分層

應用場景

作者 — 捕捉無意間的重複用詞

SEO 與內容行銷

文學研究與文體學

演講與逐字稿分析

翻譯與語言學習

研究與學術寫作

不同文件類型的推薦設定

常見問題

什麼算作一個「單字」？

基本詞形還原功能會做什麼，不會做什麼？

為什麼即時預覽和伺服器結果會略有不同？

該工具能處理非拉丁腳本嗎？

文本大小的上限是多少？

我的文字是私密的嗎？

詞頻分析簡史

文本統計工具:

常用工具: