簡化您的工作流程:搜尋 miniwebtool。
添加插件
主頁 > 文本工具 > 文本統計工具 > 詞頻分析器
 

詞頻分析器

貼上任何文字,立即查看哪些詞彙出現最頻繁。獲取排序後的詞頻表、動態條形圖、互動式文字雲、詞彙多樣性得分,並支援跨 6 種語言的選用停用詞過濾功能。可將結果匯出為 CSV。

詞頻分析器
📚 嘗試範例
貼上任何散文 — 文章、論文、逐字稿,甚至完整的小說章節。每次運行最多 200,000 個字元。
添加角色名稱、品牌名稱或任何您想過濾掉的單字 — 以逗號或空格分隔。

Embed 詞頻分析器 Widget

詞頻分析器

詞頻分析器以令人驚訝的深度回答了一個簡單的問題:這篇文字真正使用最多的是哪些單字?貼上任何散文區塊 — 部落格文章、逐字稿、小說章節、職位描述、演講稿 — 它就會根據每個相異單字出現的頻率進行排序,繪製分佈圖,並渲染出一個按頻率調整大小的互動式文字雲。該工具專為檢查是否意外重複用詞的作者、尋找自然關鍵字密度的 SEO 專家、研究作者詞彙量的學生、進行快速詞彙多樣性健全檢查的研究人員,以及探索陌生文本的翻譯人員或語言學家而設計。所有內容都在您的瀏覽器或我們的伺服器上運行,絕不會被儲存。

是什麼讓這個分析器與眾不同

  • 輸入時即時預覽。 側邊欄會立即更新唯一單字數、總單字數、TTR(詞彙多樣性)和即時前 5 名 — 無需點擊「分析」。您可以在幾秒鐘內反覆調整過濾器。
  • 六種語言的停用詞列表。 英文、西班牙文、法文、德文、義大利文和葡萄牙文 — 這些是精選的列表,而不是臃腫的資料堆。另外還有一個自由格式的自訂停用詞欄位,可用於過濾角色名稱、品牌名稱或樣板文字。
  • 平方根縮放的文字雲。 大多數文字雲生成器會根據原始計數來調整單字大小,這意味著最高頻單字的高度可能是中等排名單字的 50 倍,並在視覺上壓垮整個文字雲。平方根縮放能保持文字雲的可讀性,並且自 Wordle (2009) 以來一直是行業標準方法。
  • 前 3 名的「頒獎台」視圖。 瀏覽金/銀/銅卡片就能告訴您文本中最依賴的單字 — 這是當您懷疑自己意外重複用詞時首先要檢查的事項。
  • 詞彙多樣性指標。 類標比(Type-Token Ratio)和孤詞(hapax-legomena)計數能為您提供豐富度評分,而不僅僅是頻率數據堆。TTR > 0.6 的短篇散文非常豐富;而在長文件中 TTR 低於 0.2 則代表重複性高。
  • 一鍵 CSV 匯出。 下載或複製完整的排序表格以進行試算表分析。

如何使用這個工具

  1. 貼上您的文字。 最多 200,000 個字元 — 大約 30,000 個單字,相當於長篇小說章節或幾篇部落格文章的總和。
  2. 選擇停用詞語言。 如果您不過濾停用詞,表格的最上方將會是 「the」、「of」 和 「and」 — 了解一次就夠了,之後就沒有實質意義。請選擇您文字的語言,或者選擇「無」以獲得真正的原始頻率計數。
  3. 設定最小單字長度。 如果您想跳過 「a」、「I」、「it」、「no」,請設定為 3 或 4。設定為 1 則保留所有內容。
  4. 選擇要顯示的結果數量。 對於大多數散文來說,前 50 名是最佳平衡點;前 500 名則能為您提供完整的長尾數據。
  5. 選填切換開關。 如果您介意 「Paris」 與 「paris」 的區別,請開啟「區分大小寫」。開啟「基本詞形還原」可將 「runs」、「ran」 和 「running」 合併為 「run」。如果版本號、年份和統計數據在您的文字中具有意義,請開啟「計算數字」。
  6. 點擊「分析」。 閱讀頒獎台,瀏覽條形圖表格,掃視文字雲,如果您想進一步挖掘,還可以匯出 CSV。

指標背後的數學原理

頻率和百分比

對於每個相異的單字 \( w \),計數是它在保留的標記列表中出現的次數,百分比是 \( \text{count}(w) / N \),其中 \( N \) 是保留標記的總數。條形圖寬度是相對於最常見單字計算的,因此您可以一目了然地看出分佈的形狀。

類標比 (Type-Token Ratio, TTR)

\( \text{TTR} = U / N \),其中 \( U \) 是唯一單字(類型)的數量,\( N \) 是計算的總標記數。TTR 是詞彙多樣性最簡單的衡量標準。一篇簡短的新聞摘要通常在 0.5–0.7 之間;而長篇小說則會降至 0.15–0.25,因為常見單字會重複出現。TTR 對長度很敏感 — 長文本的 TTR 總是比短文本低,因此請勿對字數相差懸殊的文件進行 TTR 對比。

孤詞 (Hapax legomena)

孤詞(Hapax legomenon,希臘語意為「只說一次」)是在文本中恰好只出現一次的單字。孤詞計數和孤詞百分比是詞彙豐富度的經典訊號。在莎士比亞的全集中,他 31,000 個相異單字中大約有 14,000 個是孤詞 — 約佔 45%。現代部落格文章的孤詞率往往會達到 60% 或更高,因為沒有足夠的文本讓單字重複出現。

文字雲字型大小縮放

文字雲中單字 \( w \) 的字型大小在顯示的最小和最大計數之間使用平方根縮放:

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

這會壓縮動態範圍,因此出現 200 次的單字高度大約是出現 20 次的單字的 3 倍,而不是 10 倍。如果沒有這種壓縮,文字雲將會被一兩個巨大的單字所主宰。

色彩編碼的頻率分層

條形圖和文字雲單字依據排名分層進行色彩編碼,以便您一目了然地看出分佈的形狀:

第 1 層 — 排名 1–5您的文本最依賴的 5 個單字。如果實詞落在此處,那就是您的主題。
第 2 層 — 排名 6–15配角詞彙。您用來展開主要觀點的重複出現的名詞和動詞。
第 3 層 — 排名 16–40圍繞您核心主題的更廣泛詞彙。
第 4 層 — 排名 41–100專業或特定術語 — 專有名詞、行業術語、命名實體。
第 5 層 — 排名 101+長尾詞彙。出現過一兩次的單字。通常是最有趣的詞彙所在之處。

應用場景

作者 — 捕捉無意間的重複用詞

您會驚訝地發現某個單字(如「很快地」、「真的」、「基本上」、某個角色的名字)竟然悄悄溜到了您草稿的頂端。貼上一個章節,看看金銀銅頒獎台。如果那裡出現了您並非刻意強調的實詞,您就有需要修改的贅詞習慣了。

SEO 與內容行銷

設定停用詞過濾器和最小長度,然後閱讀前 25 名。這些是搜尋引擎最容易與您的網頁產生強烈關聯的單字。如果它們與您的目標關鍵字群不匹配,您的網頁 SEO 表現就會不如預期。請避免堆砌關鍵字 — 現代演算法會懲罰不自然的密度。對於您的主要關鍵字,大約 1–2% 是健康的目標值。

文學研究與文體學

貼上狄更斯與海明威的小說章節,並比較 TTR、孤詞百分比和平均單字長度。作者文體風格的數字指紋在他們的作品群中表現得非常一致 — 這就是計算文體學(computational stylometry)的基石。

演講與逐字稿分析

政治家和執行長都有偏好的單字。將演講稿放入分析器中並移除停用詞,前 15 名就能揭示其訊息策略。對比同一位演講者的兩場演講,可以看出焦點產生了什麼轉移。

翻譯與語言學習

在進行翻譯工作時,先運行原文以查看哪些實詞佔據主導地位。確保您的譯文保留相同的強調重點。對於學習者來說,挑選一篇 200 字的文章並在不過濾停用詞的情況下運行它,可以顯示出您需要熟練辨識哪些功能詞。

研究與學術寫作

許多期刊期望摘要中能使用受控詞表。在提交前進行頻率檢查可以捕捉到意外過度使用學術術語的情況。進行語料庫語言學研究的研究人員會將頻率列表作為搭配詞(collocation)、n-gram 和主題模型工作的初始輸入 — 本工具即可生成該輸入。

不同文件類型的推薦設定

文件類型停用詞最小長度前 N 名詞形還原
部落格文章 / 文章英文(或您的語言)350關閉
小說章節英文3100開啟 (合併 \"runs\"/\"ran\"/\"running\")
學術論文英文4100開啟
推文串 / 短文125關閉
SEO 研究英文350開啟
演講逐字稿英文325關閉 (您需要精確的措辭)
外語文本符合該語言150關閉 (僅支援英文詞形還原)

常見問題

什麼算作一個「單字」?

標記化工具(tokenizer)會匹配一個或多個 Unicode 字母,並可選擇透過撇號或連字號連接。因此 don'tstate-of-the-artl'ovvio 各算作一個單字。預設情況下不包含數字 — 如果您想包含它們,請切換開啟「計算數字」。該標記化工具適用於拉丁字母、西里爾字母、希臘字母和 CJK 文本。

基本詞形還原功能會做什麼,不會做什麼?

它執行三種輕量級轉換:去掉所有格 's、合併常見的動詞字尾(-ing-ed)以及簡單的複數(-s-es-ies → -y)。它不會進行完全的形態學詞形還原(better → goodwent → go)。完全的詞形還原需要附帶 WordNet 詞典,這對於通常希望看到精確單字形式的頻率分析來說未免大材小用。這種保守的方法也避免了最糟糕的詞幹提取失敗模式:將語義截然不同的單字合併(例如在 Porter 演算法下 \"university\" 和 \"universe\" 會共享同一個詞幹)。

為什麼即時預覽和伺服器結果會略有不同?

即時預覽僅在用戶端過濾英文停用詞,以保持指令碼體積精簡 — 其他語言會在伺服器上進行完整過濾。當切換開啟時,伺服器還會應用基本詞形還原。兩者之間的總標記計數始終是相同的。

該工具能處理非拉丁腳本嗎?

可以 — 標記化工具使用 Unicode 字元類別,因此西里爾文、希臘文、阿拉伯文、希伯來文、中文、日文和韓文文本都能正確進行標記化。中文和日文在單字之間不使用空格,因此 CJK 字元的每個連續片段都會被視為單個「標記」 — 若要在這些語言中進行真正的分詞,您需要使用專用的分詞器,如 jieba(中文)或 MeCab(日文)。

文本大小的上限是多少?

每次運行 200,000 個字元 — 大約 30,000 個英文單字或典型的小說章節。超過這個限制,瀏覽器記憶體和請求大小就會成為問題;請將您的文字拆分為較小的部分進行分析。

我的文字是私密的嗎?

是的。文字會在記憶體中處理以渲染結果頁面,絕不會寫入磁碟。您輸入時的即時微型統計完全在您的瀏覽器中執行。我們不會記錄、儲存或分析您貼上的內容。

詞頻分析簡史

詞頻列表是語言學中最古老的工具之一。第一份由機器生成的英文頻率列表是羅伯托·布薩神父(Father Roberto Busa)於 1949–1980 年編製的 Index Thomisticus,該列表使用 IBM 穿孔卡片機計算了托馬斯·阿奎那著作中的每個單字 — 這被廣泛認為是數位人文學科的奠基項目。布朗語料庫(Brown Corpus, 1961)提供了第一個系統抽樣的現代美式英文百萬字詞頻列表。今天,每個搜尋引擎、機器翻譯系統、大型語言模型和 SEO 工具都在大規模運行單字和標記的頻率統計。您在該工具中看到的基於 Counter 的簡單排序正是該領域的核心。

引用此內容、頁面或工具為:

"詞頻分析器" 於 https://MiniWebtool.com/zh-tw/詞頻分析器/,來自 MiniWebtool,https://MiniWebtool.com/

由 miniwebtool 團隊編製。更新日期:2026 年 5 月 27 日

其他相關工具:

文本統計工具:

常用工具:

隨機撲克牌產生器分數計算機真心話大冒險產生器斜邊計算機羅馬數字轉換器標準偏差計算機 - 高精度比例計算機磅轉公斤轉換器百分比增加計算機圖片分割器百分比增長率計算機毛利率計算機圓計算機kg到lbs轉換器相對標準偏差計算機AI內容檢測器質數分解計算機kpa到psi轉換器🎮 遊戲靈敏度轉換器MAC地址查找隨機餐點產生器最簡分數計算機太陽、月亮與上升星座計算機 🌞🌙✨百分比折扣計算機HEX計算機分數百分比轉換器百分比減少計算機反向文字隨機信用卡生成器年齡計算機Instagram用戶ID查詢百分比變化計算機迷宮產生器校正鈣計算機隨機名稱生成器ANC計算機克到磅轉換器商和餘數計算機影片轉圖片擷取器加價計算機影片壓縮器分數到小數計算機調整影片速度坡度與傾斜度計算機凱薩密碼工具隨機字母生成器年份天數計算機 - 今天是今年的第幾天psi到kpa轉換器查找並替換文字平均值計算機對數計算機樂透號碼生成器簡單利息計算機二次公式計算機CAGR計算機複利計算機Bar to PSI 轉換器百分比計算機音訊分割器文字重複工具🌡️ 體感溫度計算機📅 日期計算機百分比誤差計算機隨機日期生成器畢達哥拉斯定理計算機ERA計算機我的幸運數字是什麼積分計算機定期存款計算機圖片打碼工具小字體生成器 ⁽ᶜᵒᵖʸ ⁿ ᵖᵃˢᵗᵉ⁾橢圓 周長計算機星期幾計算機因子計算機密碼強度測試器OPS計算機隨機錦標賽對陣生成器比率與百分比計算機複數計算機合併影片SRT時間偏移隨機顏色生成器磅到克轉換器文件大小轉換器棒球打擊率計算機線性迴歸計算機小數到分數計算機組合計算機隨機英文單字產生器SRT轉換為TXT工具隨機數學題產生器按字母順序排序YouTube頻道統計最小公倍數計算機PSI 轉 Bar 轉換器⏱️ 小時計算機樓梯計算機填字遊戲製作器刪除線文字產生器燃油費用計算機兩點間距離計算機質數檢查器模計算機直角三角形計算機Facebook用戶ID查詢百分比到ppm轉換器🌐 時區轉換器投球命中率計算機AI標點符號添加器壓力轉換器跑步配速計算機隨機生日生成器隨機選擇器FPS 轉換器年金現值計算機隨機超能力產生器剪刀石頭布產生器純利潤計算機隨機物品生成器MAC地址產生器賓果卡生成器小數到百分比轉換器體積轉換器汽車貸款計算機中位數計算機土星回歸計算機相關係數計算器姓名靈數計算機最大公因子計算機隨機貓狗名字產生器log-base-2計算機天使數字計算機弧長計算機HEX轉換器出生星期計算機階乘計算機字數統計工具游泳配速計算機行數統計工具斜率計算機演講時間計算機隨機辯論題目產生器步數距離計算機cpm計算機文本格式化工具歐姆定律計算機磚塊與砂漿計算機科學記數法計算機鋼筋計算機總和計算機t檢驗計算機上壘率計算機SRT合併工具二進製計算機速度計算機倒立文本產生器Zalgo文本生成器愛情兼容性計算機股票平均成本計算機比率計算機散佈圖製作器隨機寫作提示產生器分數簡化汽車折舊計算機樣本標準差計算機股息收益率計算機樣本量計算機隨機時間生成器可整除測試計算機隨機字符串生成器騎行速度計算機黃金比例計算機條碼產生器比較分數計算機多分數計算機正方形計算機Base64解碼器翻轉影片APR 計算機旋轉影片移除標點符號線上工具凱利公式計算機功率轉換器時薪計算機YouTube留言抽選器平方根計算機排序數字為影片新增浮水印角度轉換器速度轉換器GUID / UUID 生成器ppm到百分比轉換器保齡球計分計算機刪除換行符每局被上壘率 WHIP 計算機邏輯閘模擬器骰子滾輪四捨五入計算機圖片旋轉器屋頂坡度計算機滑輪組計算機齒輪比計算機機械比熱容計算機熱膨脹計算器熱傳遞計算機伯努利方程式計算機雷諾數計算機太陽位置計算機潮汐時間計算器星空可見度計算機繩結打法參考工具睡袋溫度評級指南帳篷地布尺寸計算機背包旅行食物重量計算機奈史密斯健行配速計算機刺繡線長度計算機樹脂灌模容量計算機串珠圖案計算機陶土收縮率計算機折紙紙張大小計算機被子滾邊計算機十字繡繡線計算機針織圖案計算機編織針尺寸轉換器鉤針尺寸轉換器馬匹乾草計算機寵物航空旅行航空箱尺寸查詢器爬蟲棲息地UVB計算機鳥籠尺寸計算機魚缸加熱棒瓦數計算機貓砂盆數量計算機前照燈光束距離計算機引擎壓縮比計算機輪胎胎紋磨損計算機拖車舌重計算機車輛重量分佈計算機旅行費用分攤計算機剎車距離計算機工傷賠償計算機遺產分配計算機商標分類查詢計算機專利申請費計算機銷售稅關聯檢查器刑期減免計算機訴訟時效計算機Airbnb 定價優化工具室友房租分攤計算機Section 8 租金計算機BRRRR 方法計算機現金對現金報酬率計算機租金收益率計算機1031 交換計算機財富成長視覺化工具午餐花費計算機健身房 vs 居家健身花費計算機咖啡花費計算機遠端工作省錢計算機副業ROI計算機訂閱費用追蹤器SaaS定價計算機自由接案專案報價計算機煙燻木材搭配指南發酵時間計算機醃製時間計算機飲食限制食譜篩選器香料替代查找器咖啡因半衰期追蹤器標準杯計算機葡萄酒搭配建議器攀岩難度等級轉換器自行車齒輪比計算機釣魚結強度計算機瑜伽體式保持計時器游泳SWOLF計算機跑步成績預測計算機拳擊出拳力量計算機橄欖球得分計算機板球得分率計算機足球 xG預期進球計算機網球計分器Wells評分計算機 (DVT/PE)格拉斯哥昏迷指數計算機阿普加評分計算機FFMI計算機庫珀12分鐘跑步計算機一英里步行測試Rockport計算機瘦體重力量計算器碳水化合物胰島素比例計算機胰島素敏感係數計算機希伯來曆轉換器伊斯蘭曆轉換器農曆轉換器跨文化年齡計算機多久以前計算機還有多久倒數計算機日期模式產生器中間日期計算機日期加上工作日工作日計算機詞頻分析器句子長度變異分析器海明威風格可讀性編輯器發音音標轉換器維吉尼亞密碼工具埃特巴什密碼工具ROT13編碼解碼器EXIF 資料檢視與移除工具豬拉丁文翻譯器倒推首字母縮寫產生器首字母縮寫產生器全字母句檢查器漏字文檢測器圖片轉SVG描摹器圖片轉 ASCII 藝術轉換器JSON Schema 產生器TypeScript 線上演練場Less 到 CSS 編譯器SCSS轉CSS編譯器SVG 轉 React/JSX 轉換器查詢字串產生器URL解析器UUID驗證和解碼器HTTP狀態碼參考cURL指令建構器謝爾賓斯基三角形產生器3D曲面繪圖器極座標方程繪圖器茱莉亞集合生成器曼德博集合探索器L-System分形產生器Delaunay 三角剖分生成器Voronoi 圖生成器萬花尺圖案產生器鑲嵌圖案產生器六標準差製程能力計算機柏拉圖生成器NPS淨推薦值計算機留存率同期群計算機客戶流失率計算機客戶獲取成本CAC計算機顧客終身價值 CLV 計算機轉換率計算機A/B測試樣本數計算機A/B測試顯著性計算機透鏡方程式計算機導線磁場計算機電場計算機庫侖定律計算機斯涅爾定律計算機慣性矩計算機角速度計算機向心力計算機單擺週期計算機彈簧勁度係數計算機都卜勒效應計算機索提諾比率計算機特雷諾比率計算機股票貝塔係數計算器通膨保值美國國債 TIPS 計算機房貸重新攤還計算機遠期利率計算機債券存續期計算機(麥考利與修正)債券凸性計算機固定指數年金計算機變額年金計算機反向抵押貸款計算機年金支付計算機日本算盤模擬器俄羅斯農民乘法吠陀數學技巧計算機古埃及乘法計算機羅馬數字數學求解器心算訓練器九九乘法表測驗進位與借位視覺化工具數的合成分解生成器硬幣應用題求解器距離速度時間三角形計算機工作效率問題求解器混合問題求解器年齡問題求解器火車相遇問題求解器補水計算機配速卡路里計算機藥物劑量計算機酒精卡路里計算機身體重塑計算機YouTube縮圖下載器YouTube收益估算器隨機RPG角色生成器