词频分析器
粘贴任意文本,瞬间查看哪些单词出现最频繁。获取排名的词频表、动态条形图、交互式词云、词汇多样性得分,并支持 6 种语言的可选停用词过滤。结果可导出为 CSV。
检测到广告拦截,导致我们无法展示广告
MiniWebtool 依靠广告收入免费提供服务。如果这个工具帮到了你,欢迎开通 Premium(无广告 + 更快),或将 MiniWebtool.com 加入白名单后刷新页面。
- 或升级 Premium(无广告)
- 允许 MiniWebtool.com 显示广告,然后刷新
词频分析器
词频分析器以惊人的深度回答了一个简单的问题:这段文本中到底最经常使用哪些单词?粘贴任何散文块 —— 博客文章、速记文本、章节、职位描述、演讲稿 —— 它就会根据每个不同的单词出现的频率进行排名、绘制分布图,并渲染出按频率缩放字号的交互式文字云。该工具专为检查意外单词重复的作者、寻找自然关键词密度的 SEO 专家、研究作者词汇的学生、进行快速词汇多样性健全检查的研究人员,以及探索陌生文本的翻译人员或语言学家而设计。一切都在您的浏览器或我们的服务器内存中运行,绝不会被存储。
是什么让这个分析器与众不同
- 边输边看的实时预览。 侧边栏面板会瞬间更新唯一单词计数、总单词数、TTR(词汇多样性)以及实时的前 5 名 —— 无需点击“分析”。您可以在几秒钟内反复调整过滤器。
- 六种语言的停用词列表。 英语、西班牙语、法语、德语、意大利语和葡萄牙语 —— 经过精心整理的列表,而非臃肿杂乱的堆砌。此外还配有自由格式的自定义停用词字段,可用于过滤角色名称、品牌名称或模版文字。
- 平方根缩放的文字云。 大多数文字云生成器根据原始计数对单词进行大小排序,这意味着排名第一的单词高度可能是中游单词的 50 倍,从而在视觉上挤压了文字云。平方根缩放能保持文字云的可读性,这是自 Wordle (2009) 以来行业的标准做法。
- 前三名“领奖台”视图。 扫一眼金/银/铜牌卡片,就能知道您的文本最严重依赖哪些单词 —— 这是您怀疑自己有意外重复字眼时首先要检查的地方。
- 词汇多样性指标。 词类与词表征比率 (TTR) 和孤词(hapax-legomena)计数为您提供了一个丰富度得分,而不仅仅是频率的堆砌。TTR > 0.6 的短篇散文很丰富;而长篇文档中低于 0.2 的 TTR 则说明重复性较高。
- 一键 CSV 导出。 下载或复制完整的排名表格,以便在电子表格中进行更深入的分析。
如何使用这个工具
- 粘贴您的文本。 最多支持 200,000 个字符 —— 大约 30,000 个英文单词,相当于一部长篇小说章节或几篇博客文章的总和。
- 选择停用词语言。 如果您不进行停用词过滤,表格的顶部将会充满 “the”、“of”、“and” 这样仅有一次性通知价值、之后毫无用处的词汇。选择您的文本所用的语言,或选择“无”以获得真正的原始词频计数。
- 设置最小单词长度。 如果您想跳过 “a”、“I”、“it”、“no”,可以将其设置为 3 或 4。设置为 1 则保留所有内容。
- 选择要显示的结果数量。 对于大多数散文,前 50 名是最合适的黄金范围;前 500 名则能给您带来完整的长尾词流。
- 可选切换开关。 如果您关心 “Paris” 与 “paris” 的区别,可以开启“区分大小写”。开启“基础词干提取”可以将 “runs”、“ran” 和 “running” 合并为 “run”。如果版本号、年份和统计数据在您的文本中具有实际意义,可以开启“计算数字”。
- 点击分析。 查看领奖台,扫视柱状图表,看一眼文字云,如果您想进一步挖掘,还可以导出 CSV。
指标背后的数学原理
频率和百分比
对于每个独特的单词 \( w \),计数是指它在保留的标记列表中出现的次数,而百分比是 \( \text{count}(w) / N \),其中 \( N \) 是保留标记的总数。柱状图的宽度是相对于最常见的单词计算的,因此您可以一目了然地看到分布的形态。
词类与词表征比率 (TTR)
公式为 \( \text{TTR} = U / N \),其中 \( U \) 是唯一单词(词类)的数量,\( N \) 是计算在内的总标记数。TTR 是衡量词汇多样性最简单的指标。一篇简短的新闻简报通常在 0.5–0.7 之间;一部长篇小说则会降至 0.15–0.25,因为常用词会不断重现。TTR 对文本长度很敏感 —— 长文本的 TTR 总是低于短文本,因此请勿在字数相差悬殊的文档之间盲目比较 TTR。
孤词 (Hapax legomena)
孤词(Hapax legomenon,希腊语意为“只说一次”)是指在文本中恰好只出现一次的单词。孤词计数和孤词百分比是词汇丰富度的经典信号。在莎士比亚的全部作品中,在其 31,000 个独立单词中大约有 14,000 个是孤词 —— 约占 45%。现代博客文章的孤词率往往能达到 60% 或更高,因为文本量还不够大,单词还来不及反复重现。
文字云字体大小缩放
文字云中单词 \( w \ ) 的字体大小在显示的最小计数和最大计数之间采用平方根缩放:
\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)
这压缩了动态范围,因此出现 200 次的单词大约只有出现 20 次的单词高度的 3 倍,而不是 10 倍。如果没有这种压缩,文字云将会被一两个巨型单词完全霸占。
颜色编码频率梯队
柱状图和文字云单词按排名梯队进行了颜色编码,以便您一目了然地捕捉分布的结构特征:
应用场景
作者 —— 捕捉无意识的重复
您会感到惊讶的是,某个单词(例如“快速地”、“真正地”、“本质上”或某个角色的名字)竟然会如此频繁地悄悄溜到您草稿的顶部。粘贴一个章节,看一看金银铜牌领奖台。如果出现了一个您没有刻意强调的实词,您就有了一个需要修剪掉的写作口癖。
SEO 和内容营销
设置停用词过滤器和最小长度,然后查看前 25 名。这些是搜索引擎最容易与您的页面强行关联的单词。如果它们与您的目标关键词簇不匹配,您的页面 SEO 表现将会打折扣。避免关键词堆砌 —— 现代算法会惩罚不自然的密度。对于您的主关键词,一个健康的基准目标大约在 1–2% 左右。
文学研究与文体学
粘贴狄更斯与海明威的一个章节,对比他们的 TTR、孤词百分比以及平均单词长度。作者写作风格的数字指纹在他们的整个作品生涯中出奇地一致 —— 这正是计算文体学(computational stylometry)的基石。
演讲稿与速记文本分析
政治家和 CEO 都有偏爱的词汇。将一篇演讲稿输入分析器并去除停用词,前 15 名就能揭示其传讯策略。对比同一位发言人的两篇演说,可以看出其侧重点发生了什么转变。
翻译与语言学习
在进行翻译工作时,先运行一遍源文本,看看哪些实词占据主导。确保您的译文保留了相同的侧重重点。对于学习者来说,挑选一篇 200 字的文章并在不进行停用词过滤的情况下运行它,可以向您展示需要流利识别哪些功能词。
研究与学术写作
许多期刊要求摘要中的词汇要克制精准。在提交前进行字频检查可以揪出无意识的行话过度使用。进行语料库语言学研究的研究人员将字频列表作为共现词(collocation)、n-gram 和主题模型工作的初始输入 —— 本工具便能生成该项输入。
按文档类型推荐的设置
| 文档类型 | 停用词 | 最小长度 | 显示数量 | 词干提取 |
|---|---|---|---|---|
| 博客文章 / 文章 | 英语(或您文本的语言) | 3 | 50 | 关闭 |
| 小说章节 | 英语 | 3 | 100 | 开启(合并 \"runs\"/\"ran\"/\"running\") |
| 学术论文 | 英语 | 4 | 100 | 开启 |
| 推文串 / 短贴文 | 无 | 1 | 25 | 关闭 |
| SEO 研究 | 英语 | 3 | 50 | 开启 |
| 演讲稿速记文本 | 英语 | 3 | 25 | 关闭(您需要精准的措辞) |
| 外语文本 | 匹配对应语言 | 1 | 50 | 关闭(仅支持英语词干提取) |
常见问题
什么算作一个“单词”?
分词器会匹配一个或多个 Unicode 字母,中间可以可选地由撇号或连字符连接。因此 don't、state-of-the-art 和 l'ovvio 分别算作一个单词。默认情况下会排除数字 —— 如果您想包含它们,请切换开启“计算数字”。分词器在拉丁字母、西里尔字母、希腊字母以及中日韩(CJK)文字中均可正常工作。
基础词干提取能做什么,不能做什么?
它执行三个轻量级的转换:去掉所有格 's、折叠常见的动词结尾(-ing、-ed),以及处理简单的复数形式(-s、-es、-ies → -y)。它不进行完整的形态学词干规范化(better → good、went → go)。完整的规范化需要引入 WordNet 词典,这对于词频分析来说有些大材小用,因为很多时候您恰恰就是想查看准确的单词形式。这种保守的方法也避免了最糟糕的词干提取器失败模式:将语义截然不同的单词归于一体(例如在 Porter 算法下,“university” 和 “universe” 会共享同一个词干)。
为什么实时预览和服务器结果会有轻微差异?
实时预览仅在客户端过滤英语停用词,以保持脚本文件足够小巧 —— 其他语言在服务器上会得到全量过滤。开启时,服务器还会应用基础词干提取。两者的总标记(token)计数始终是完全一致的。
该工具能处理非拉丁脚本吗?
可以 —— 分词器使用的是 Unicode 字符类,因此西里尔文、希腊文、阿拉伯文、希伯来文、中文、日文和韩文文本都能正确分词。中文和日文在词与词之间不使用空格,因此每个连续的 CJK 字符流都会被视为单个“标记” —— 要在这些语言中实现真正的分词,您需要一个专用的分词器,如 jieba(中文)或 MeCab(日文)。
文本大小的上限是多少?
每次运行最多 200,000 个字符 —— 大约相当于 30,000 个英文单词或一个典型的小说章节。超过这个限制,浏览器的内存和请求大小就会成为问题;您可以将您的文本切分成较小的分段分批进行。
我的文本安全保密吗?
是的。文本仅在内存中处理以渲染结果页面,绝不会写入磁盘。您输入时的实时微型统计完全在您的浏览器中运行。我们不会记录、存储或分析您粘贴的内容。
词频分析简史
词频列表是语言学中最古老的工具之一。世界上第一个由机器生成的英语词频列表是罗伯托·布萨神父(Father Roberto Busa)在 1949-1980 年间编制的 Index Thomisticus,他利用 IBM 打孔卡片机计算了托马斯·阿奎那全部著作中的每一个单词 —— 这被广泛认为是数字人文科学的奠基项目。布朗语料库(Brown Corpus, 1961)提供了第一个针对现代美式英语系统抽样的百万字级词频列表。今天,每一个搜索引擎、机器翻译系统、大型语言模型和 SEO 工具都在大规模运行着基于单词和标记的频率统计。您在这个工具中看到的基于简单计数器的排名,正是这个领域的核心内核。
引用此内容、页面或工具为:
"词频分析器" 于 https://MiniWebtool.com/zh-cn//,来自 MiniWebtool,https://MiniWebtool.com/
由 MiniWebtool 团队提供。更新时间:2026年5月27日