这个工具有什么用？

它读取任何文本块，计算每个独立的单词，并按出现频率从高到低进行排名。您可以看到排名表、按最高频单词大小缩放的动态柱状图、带有平方根缩放字号的文字云以及词汇多样性统计数据。您可以将结果下载为 CSV。

为什么要过滤停用词？

在英语中，前 5 个单词（'the'、'of'、'and'、'a'、'to'）会淹没真正带有含义的所有其他内容。停用词列表会去除这些高频的功能词，从而让报告显示出您的文本真正关乎的词汇。我们提供了英语、西班牙语、法语、德语、意大利语和葡萄牙语的精选列表，您还可以添加自定义停用词，如角色名称或产品品牌。

什么是词类与词表征比率（TTR）？

词类与词表征比率（TTR）= 唯一单词数 / 总单词数。它是衡量词汇多样性的经典指标。一篇短新闻文章的 TTR 大约在 0.5-0.7 之间，而一部长篇小说往往会降至 0.1-0.2，因为常用词会不断重复出现。较高的 TTR 意味着在您分析的层面上词汇更丰富。

什么是孤词（hapax legomena）？

恰好只出现一次的单词。它们是词汇丰富度的强有力信号。在莎士比亚的全部作品中，在其 31,000 个独立单词中，大约有 14,000 个是孤词。高孤词百分比意味着有许多一次性的想法；低百分比意味着对较小词汇量的重度重复使用。

为什么文字云的尺寸是按平方根缩放，而不是按计数缩放？

如果最顶部的单词出现 200 次，而下一个单词出现 20 次，线性缩放会让最顶部的单词达到 10 倍高度 —— 这会在视觉上挤压文字云，导致您无法阅读其他任何内容。平方根缩放将差异压缩到大约 3 倍，从而使文字云保持清晰可读，同时依然能强调主导单词。这就是专业的文字云工具一直以来的工作方式。

分析器会保留我的文本吗？

不会。您的文本在内存中被处理以渲染此页面，绝不会写入磁盘。您输入时的实时微型统计完全在您的浏览器中运行。对您粘贴的内容不存在任何第三方跟踪。

词频分析器

粘贴任意文本，瞬间查看哪些单词出现最频繁。获取排名的词频表、动态条形图、交互式词云、词汇多样性得分，并支持 6 种语言的可选停用词过滤。结果可导出为 CSV。

词频分析器

📚 尝试示例

您的文本粘贴任何散文 —— 文章、散文、速记文本，甚至是完整的小说章节。每次运行最多 200,000 个字符。

停用词列表

最小单词长度

显示前

自定义停用词（可选）添加角色名称、品牌名称或您想要过滤掉的任何单词 —— 用逗号或空格分隔。

区分大小写基础词干提取 (runs → run) 计算数字

Embed 词频分析器 Widget

词频分析器

词频分析器以惊人的深度回答了一个简单的问题：这段文本中到底最经常使用哪些单词？粘贴任何散文块 —— 博客文章、速记文本、章节、职位描述、演讲稿 —— 它就会根据每个不同的单词出现的频率进行排名、绘制分布图，并渲染出按频率缩放字号的交互式文字云。该工具专为检查意外单词重复的作者、寻找自然关键词密度的 SEO 专家、研究作者词汇的学生、进行快速词汇多样性健全检查的研究人员，以及探索陌生文本的翻译人员或语言学家而设计。一切都在您的浏览器或我们的服务器内存中运行，绝不会被存储。

是什么让这个分析器与众不同

边输边看的实时预览。 侧边栏面板会瞬间更新唯一单词计数、总单词数、TTR（词汇多样性）以及实时的前 5 名 —— 无需点击“分析”。您可以在几秒钟内反复调整过滤器。
六种语言的停用词列表。 英语、西班牙语、法语、德语、意大利语和葡萄牙语 —— 经过精心整理的列表，而非臃肿杂乱的堆砌。此外还配有自由格式的自定义停用词字段，可用于过滤角色名称、品牌名称或模版文字。
平方根缩放的文字云。 大多数文字云生成器根据原始计数对单词进行大小排序，这意味着排名第一的单词高度可能是中游单词的 50 倍，从而在视觉上挤压了文字云。平方根缩放能保持文字云的可读性，这是自 Wordle (2009) 以来行业的标准做法。
前三名“领奖台”视图。 扫一眼金/银/铜牌卡片，就能知道您的文本最严重依赖哪些单词 —— 这是您怀疑自己有意外重复字眼时首先要检查的地方。
词汇多样性指标。 词类与词表征比率 (TTR) 和孤词（hapax-legomena）计数为您提供了一个丰富度得分，而不仅仅是频率的堆砌。TTR > 0.6 的短篇散文很丰富；而长篇文档中低于 0.2 的 TTR 则说明重复性较高。
一键 CSV 导出。 下载或复制完整的排名表格，以便在电子表格中进行更深入的分析。

如何使用这个工具

粘贴您的文本。 最多支持 200,000 个字符 —— 大约 30,000 个英文单词，相当于一部长篇小说章节或几篇博客文章的总和。
选择停用词语言。 如果您不进行停用词过滤，表格的顶部将会充满 “the”、“of”、“and” 这样仅有一次性通知价值、之后毫无用处的词汇。选择您的文本所用的语言，或选择“无”以获得真正的原始词频计数。
设置最小单词长度。 如果您想跳过 “a”、“I”、“it”、“no”，可以将其设置为 3 或 4。设置为 1 则保留所有内容。
选择要显示的结果数量。 对于大多数散文，前 50 名是最合适的黄金范围；前 500 名则能给您带来完整的长尾词流。
可选切换开关。 如果您关心 “Paris” 与 “paris” 的区别，可以开启“区分大小写”。开启“基础词干提取”可以将 “runs”、“ran” 和 “running” 合并为 “run”。如果版本号、年份和统计数据在您的文本中具有实际意义，可以开启“计算数字”。
点击分析。 查看领奖台，扫视柱状图表，看一眼文字云，如果您想进一步挖掘，还可以导出 CSV。

指标背后的数学原理

频率和百分比

对于每个独特的单词 \( w \)，计数是指它在保留的标记列表中出现的次数，而百分比是 \( \text{count}(w) / N \)，其中 \( N \) 是保留标记的总数。柱状图的宽度是相对于最常见的单词计算的，因此您可以一目了然地看到分布的形态。

词类与词表征比率 (TTR)

公式为 \( \text{TTR} = U / N \)，其中 \( U \) 是唯一单词（词类）的数量，\( N \) 是计算在内的总标记数。TTR 是衡量词汇多样性最简单的指标。一篇简短的新闻简报通常在 0.5–0.7 之间；一部长篇小说则会降至 0.15–0.25，因为常用词会不断重现。TTR 对文本长度很敏感 —— 长文本的 TTR 总是低于短文本，因此请勿在字数相差悬殊的文档之间盲目比较 TTR。

孤词 (Hapax legomena)

孤词（Hapax legomenon，希腊语意为“只说一次”）是指在文本中恰好只出现一次的单词。孤词计数和孤词百分比是词汇丰富度的经典信号。在莎士比亚的全部作品中，在其 31,000 个独立单词中大约有 14,000 个是孤词 —— 约占 45%。现代博客文章的孤词率往往能达到 60% 或更高，因为文本量还不够大，单词还来不及反复重现。

文字云字体大小缩放

文字云中单词 \( w \ ) 的字体大小在显示的最小计数和最大计数之间采用平方根缩放：

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

这压缩了动态范围，因此出现 200 次的单词大约只有出现 20 次的单词高度的 3 倍，而不是 10 倍。如果没有这种压缩，文字云将会被一两个巨型单词完全霸占。

颜色编码频率梯队

柱状图和文字云单词按排名梯队进行了颜色编码，以便您一目了然地捕捉分布的结构特征：

第 1 梯队 —— 排名 1–5您的文本最严重依赖的 5 个单词。如果一个实词落在这里，那就是您的核心主题。

第 2 梯队 —— 排名 6–15配角阵容。您用来展开核心思想的那些高频名词和动词。

第 3 梯队 —— 排名 16–40围绕在您的顶级主题周围的更广泛的词汇。

第 4 梯队 —— 排名 41–100专业术语或特定词汇 —— 专有名词、行业行话、命名实体。

第 5 梯队 —— 排名 101+长尾词流。仅使用过一两次的单词。这里往往是蕴藏最有趣词汇的地方。

应用场景

作者 —— 捕捉无意识的重复

您会感到惊讶的是，某个单词（例如“快速地”、“真正地”、“本质上”或某个角色的名字）竟然会如此频繁地悄悄溜到您草稿的顶部。粘贴一个章节，看一看金银铜牌领奖台。如果出现了一个您没有刻意强调的实词，您就有了一个需要修剪掉的写作口癖。

SEO 和内容营销

设置停用词过滤器和最小长度，然后查看前 25 名。这些是搜索引擎最容易与您的页面强行关联的单词。如果它们与您的目标关键词簇不匹配，您的页面 SEO 表现将会打折扣。避免关键词堆砌 —— 现代算法会惩罚不自然的密度。对于您的主关键词，一个健康的基准目标大约在 1–2% 左右。

文学研究与文体学

粘贴狄更斯与海明威的一个章节，对比他们的 TTR、孤词百分比以及平均单词长度。作者写作风格的数字指纹在他们的整个作品生涯中出奇地一致 —— 这正是计算文体学（computational stylometry）的基石。

演讲稿与速记文本分析

政治家和 CEO 都有偏爱的词汇。将一篇演讲稿输入分析器并去除停用词，前 15 名就能揭示其传讯策略。对比同一位发言人的两篇演说，可以看出其侧重点发生了什么转变。

翻译与语言学习

在进行翻译工作时，先运行一遍源文本，看看哪些实词占据主导。确保您的译文保留了相同的侧重重点。对于学习者来说，挑选一篇 200 字的文章并在不进行停用词过滤的情况下运行它，可以向您展示需要流利识别哪些功能词。

研究与学术写作

许多期刊要求摘要中的词汇要克制精准。在提交前进行字频检查可以揪出无意识的行话过度使用。进行语料库语言学研究的研究人员将字频列表作为共现词（collocation）、n-gram 和主题模型工作的初始输入 —— 本工具便能生成该项输入。

按文档类型推荐的设置

文档类型	停用词	最小长度	显示数量	词干提取
博客文章 / 文章	英语（或您文本的语言）	3	50	关闭
小说章节	英语	3	100	开启（合并 \"runs\"/\"ran\"/\"running\"）
学术论文	英语	4	100	开启
推文串 / 短贴文	无	1	25	关闭
SEO 研究	英语	3	50	开启
演讲稿速记文本	英语	3	25	关闭（您需要精准的措辞）
外语文本	匹配对应语言	1	50	关闭（仅支持英语词干提取）

常见问题

什么算作一个“单词”？

分词器会匹配一个或多个 Unicode 字母，中间可以可选地由撇号或连字符连接。因此 don't、state-of-the-art 和 l'ovvio 分别算作一个单词。默认情况下会排除数字 —— 如果您想包含它们，请切换开启“计算数字”。分词器在拉丁字母、西里尔字母、希腊字母以及中日韩（CJK）文字中均可正常工作。

基础词干提取能做什么，不能做什么？

它执行三个轻量级的转换：去掉所有格 's、折叠常见的动词结尾（-ing、-ed），以及处理简单的复数形式（-s、-es、-ies → -y）。它不进行完整的形态学词干规范化（better → good、went → go）。完整的规范化需要引入 WordNet 词典，这对于词频分析来说有些大材小用，因为很多时候您恰恰就是想查看准确的单词形式。这种保守的方法也避免了最糟糕的词干提取器失败模式：将语义截然不同的单词归于一体（例如在 Porter 算法下，“university” 和 “universe” 会共享同一个词干）。

为什么实时预览和服务器结果会有轻微差异？

实时预览仅在客户端过滤英语停用词，以保持脚本文件足够小巧 —— 其他语言在服务器上会得到全量过滤。开启时，服务器还会应用基础词干提取。两者的总标记（token）计数始终是完全一致的。

该工具能处理非拉丁脚本吗？

可以 —— 分词器使用的是 Unicode 字符类，因此西里尔文、希腊文、阿拉伯文、希伯来文、中文、日文和韩文文本都能正确分词。中文和日文在词与词之间不使用空格，因此每个连续的 CJK 字符流都会被视为单个“标记” —— 要在这些语言中实现真正的分词，您需要一个专用的分词器，如 jieba（中文）或 MeCab（日文）。

文本大小的上限是多少？

每次运行最多 200,000 个字符 —— 大约相当于 30,000 个英文单词或一个典型的小说章节。超过这个限制，浏览器的内存和请求大小就会成为问题；您可以将您的文本切分成较小的分段分批进行。

我的文本安全保密吗？

是的。文本仅在内存中处理以渲染结果页面，绝不会写入磁盘。您输入时的实时微型统计完全在您的浏览器中运行。我们不会记录、存储或分析您粘贴的内容。

词频分析简史

词频列表是语言学中最古老的工具之一。世界上第一个由机器生成的英语词频列表是罗伯托·布萨神父（Father Roberto Busa）在 1949-1980 年间编制的 Index Thomisticus，他利用 IBM 打孔卡片机计算了托马斯·阿奎那全部著作中的每一个单词 —— 这被广泛认为是数字人文科学的奠基项目。布朗语料库（Brown Corpus, 1961）提供了第一个针对现代美式英语系统抽样的百万字级词频列表。今天，每一个搜索引擎、机器翻译系统、大型语言模型和 SEO 工具都在大规模运行着基于单词和标记的频率统计。您在这个工具中看到的基于简单计数器的排名，正是这个领域的核心内核。

引用此内容、页面或工具为：

"词频分析器" 于 https://MiniWebtool.com/zh-cn/词频分析器/，来自 MiniWebtool，https://MiniWebtool.com/

由 MiniWebtool 团队提供。更新时间：2026年5月27日

开发者 API 可用: 用一次 JSON HTTP 请求，把这个工具接入你的应用、自动化流程或智能体。查看 API 文档

词频分析器

词频分析器

是什么让这个分析器与众不同

如何使用这个工具

指标背后的数学原理

频率和百分比

词类与词表征比率 (TTR)

孤词 (Hapax legomena)

文字云字体大小缩放

颜色编码频率梯队

应用场景

作者 —— 捕捉无意识的重复

SEO 和内容营销

文学研究与文体学

演讲稿与速记文本分析

翻译与语言学习

研究与学术写作

按文档类型推荐的设置

常见问题

什么算作一个“单词”？

基础词干提取能做什么，不能做什么？

为什么实时预览和服务器结果会有轻微差异？

该工具能处理非拉丁脚本吗？

文本大小的上限是多少？

我的文本安全保密吗？

词频分析简史

文本统计工具:

常用工具: