単語頻度アナライザー
任意のテキストを貼り付けるだけで、どの単語が最も頻繁に登場するかを即座に確認できます。ランキング形式の頻度テーブル、アニメーション付き棒グラフ、インタラクティブなワードクラウド、語彙多様性スコア、および6言語に対応したオプションのストップワード(除外検索語)フィルタリング機能を提供します。結果はCSVとしてエクスポート可能です。
広告ブロッカーにより広告が表示できません
MiniWebtool は広告収益で無料提供しています。このツールが役に立ったら、Premium(広告なし+高速)をご利用いただくか、MiniWebtool.com を許可リストに追加して再読み込みしてください。
- または Premium(広告なし)にアップグレード
- MiniWebtool.com の広告を許可してから再読み込みしてください
単語頻度アナライザー
単語頻度アナライザーは、「このテキストの中で、実際に最もよく使われている単語はどれか?」というシンプルな疑問に驚くほど深く答えます。ブログ記事、書き起こし、小説の章、職務記述書、スピーチなど、あらゆる文章ブロックを貼り付けるだけで、重複しないすべての単語を出現頻度順にランク付けし、分布図を作成し、頻度に応じたサイズのインタラクティブなワードクラウドをレンダリングします。このツールは、意図しない単語の繰り返しをチェックしたい執筆者、自然なキーワード密度を確認したいSEO専門家、著者の語彙を研究している学生、語彙の多様性を迅速に検証したい研究者、見慣れないテキストを調査する翻訳者や言語学者向けに構築されています。すべての処理はブラウザ内または当社のサーバー上で行われ、保存されることはありません。
このアナライザーの特徴
- 入力中のライブプレビュー。 「分析」ボタンをクリックしなくても、サイドパネルに重複しない単語数、総単語数、TTR(語彙の多様性)、および上位5単語のデータが即座に反映されます。フィルターの調整も数秒で行えます。
- 6言語のストップワードリスト。 英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語に対応。膨大で無駄なデータではなく、厳選されたリストを用意しています。さらに、登場人物名、ブランド名、定型文などを除外するための自由形式のカスタムストップワードフィールドも備えています。
- 平方根スケールのワードクラウド。 多くのワードクラウド生成ツールは生のカウント数でサイズを決定するため、最頻出の単語が中位の単語の50倍もの大きさになり、クラウド全体が視覚的に潰れてしまいます。平方根スケール(sqrt)を採用することで、クラウドの読みやすさを維持でき、これはWordle(2009年)以来の業界標準アプローチとなっています。
- トップ3の「表彰台」表示。 金・銀・銅のカードを一目見るだけで、テキストが最も依存している単語がわかります。偶発的な繰り返しが疑われる場合に、最初にチェックすべき項目です。
- 語彙多様性の指標。 異なり語数比(TTR)とハパックス・レゴメノンのカウントにより、単なる頻度の羅列ではなく、語彙の豊かさを表すスコアを提供します。TTRが0.6を超える短い文章は語彙が豊かであり、長い文書で0.2未満の場合は繰り返しが多いことを示します。
- ワンクリックのCSVエクスポート。 スプレッドシートでの分析用に、ランク付けされた完全な表をダウンロードまたはコピーできます。
このツールの使い方
- テキストを貼り付ける。 最大200,000文字まで対応。これは約30,000語に相当し、長い小説の1章分、あるいは複数のブログ記事を組み合わせた長さに匹敵します。
- ストップワードの言語を選択する。 ストップワードをフィルターしない場合、表の上位は「the」、「of」、「and」などで占められ、一度確認すれば十分な情報ばかりになってしまいます。テキストの言語を選択するか、真の生の頻度をカウントする場合は「なし」を選択してください。
- 最小単語長を設定する。 「a」、「I」、「it」、「no」などの短い語をスキップしたい場合は、3または4に設定します。すべてを保持する場合は1に設定します。
- 表示する結果の数を選択する。 ほとんどの文章では「上位50」が最適ですが、「上位500」を選択すれば、出現頻度の低いロングテールの単語まで完全に把握できます。
- オプションの切り替え。 「Paris」と「paris」を区別したい場合は「大文字・小文字を区別する」をオンにします。「runs」、「ran」、「running」を「run」に統合したい場合は「基本的な原型化」をオンにします。バージョン番号、年、統計データがテキストにおいて意味を持つ場合は「数字をカウントする」をオンにします。
- 「単語頻度を分析する」をクリック。 表彰台を確認し、バーチャート表をスクロールし、クラウドを眺め、さらに詳細に調査したい場合はCSVをエクスポートします。
指標の背後にある計算方法
頻度とパーセンテージ
重複しない各単語 \( w \) について、カウント数は保持されたトークンリストにその単語が登場する回数であり、パーセンテージは \( \text{count}(w) / N \)( \( N \) は保持されたトークンの総数)です。バーの幅は最も頻出する単語を基準とした相対値であるため、分布の形状を一目で把握できます。
異なり語数比(TTR)
\( \text{TTR} = U / N \) で定義され、 \( U \) は重複しない単語数(異なり語数)、 \( N \) はカウントされたトークンの総数です。TTRは、語彙の多様性を測る最もシンプルな指標です。短いニュース速報は通常0.5〜0.7になりますが、長い小説では一般的な単語が繰り返し使用されるため、0.15〜0.25に低下します。TTRはテキストの長さに影響を受けやすいため、長いテキストは短いテキストよりも常にTTRが低くなります。そのため、分量が大きく異なる文書間でTTRを比較することは避けてください。
ハパックス・レゴメノン
ハパックス・レゴメノン(ギリシャ語で「一度だけ言われた」の意)とは、テキスト中に完全に一度しか出現しない単語のことです。ハパックスのカウント数とハパックスの割合は、語彙の豊かさを示す古典的なシグナルです。シェイクスピアの全著作では、約31,000語の重複しない単語のうち、およそ14,000語がハパックスであり、約45%を占めます。現代のブログ記事では、単語が再出現するほどのテキスト量がないため、ハパックスが60%以上に達することがよくあります。
ワードクラウドのフォントサイズ設定
クラウド内の単語 \( w \) のフォントサイズは、表示されている最小カウント数と最大カウント数の間で平方根スケールを使用して計算されます:
\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)
これによりダイナミックレンジが圧縮されるため、200回出現する単語の高さは、20回出現する単語の10倍ではなく、約3倍に抑えられます。この圧縮がないと、クラウドが1つか2つの巨大な単語に占有されてしまいます。
カラーコード化された頻度ティア
バーとクラウド内の単語は、順位のティア(階層)ごとにカラーコード化されているため、分布の形状を一目で特定できます:
活用事例
執筆者 — 意図しない繰り返しの検知
単一の単語(「素早く」、「本当に」、「本質的に」や、登場人物の名前など)が、下書きの上位に忍び込んでいる頻度に驚かされることでしょう。章を貼り付けて、金・銀・銅の表彰台を見てみてください。意識的に強調したわけではない内容語がそこにある場合、それは推敲で修正すべき口癖(執筆の癖)です。
SEOとコンテンツマーケティング
ストップワードフィルターと最小単語長を設定し、上位25語を確認します。これらは、検索エンジンがあなたのページと最も強く関連付ける単語です。これらがターゲットとするキーワードクラスターと一致しない場合、ページ上のSEOパフォーマンスは低下します。キーワードの詰め込み(キーワードスタッフィング)は避けてください。現代のアルゴリズムは不自然な密度にペナルティを科します。健全な目標値は、メインキーワードで全体の約1〜2%です。
文学研究と文体論
ディケンズとヘミングウェイの章を貼り付けて、TTR、ハパックスの割合、平均単語長を比較してみてください。著者固有の文体のデジタルな指紋は、その著作群を通じて驚くほど一貫しており、これが計量文体論(コンピューター文体論)の基礎となっています。
スピーチと書き起こしの分析
政治家や経営者にはお気に入りの単語があります。ストップワードを除去した状態でスピーチをアナライザーにかけると、上位15語からメッセージング戦略が明らかになります。同じ話し手による2つのスピーチを比較して、何が変化したかを確認することもできます。
翻訳と語学学習
翻訳作業を行う際、最初に原テキトを分析して、どの内容語が主流を占めているかを確認します。これにより、翻訳文でも同じ強調が維持されるようにします。語学学習者の場合、200語程度の記事をストップワードフィルターなしで実行すると、流暢に認識すべき重要な機能語がどれであるかが分かります。
研究と学術論文の執筆
多くのジャーナルでは、アブストラクト(要旨)において制御された語彙を使用することが求められます。投稿前に頻度をチェックすることで、偶発的な専門用語の過剰使用を防ぐことができます。コーパス言語学の研究を行う研究者は、連語(コロケーション)、n-gram、トピックモデリング作業の初期入力として頻度リストを使用します。このツールはそのインプットを生成できます。
文書タイプ別の推奨設定
| 文書タイプ | ストップワード | 最小単語長 | 上位表示数(Top N) | 原型化 |
|---|---|---|---|---|
| ブログ記事 / 一般記事 | 英語(または該当言語) | 3 | 50 | オフ |
| 小説の1章 | 英語 | 3 | 100 | オン("runs"/"ran"/"running"を統合) |
| 学術論文 | 英語 | 4 | 100 | オン |
| ツイートスレッド / 短い投稿 | なし | 1 | 25 | オフ |
| SEOリサーチ | 英語 | 3 | 50 | オン |
| スピーチの書き起こし | 英語 | 3 | 25 | オフ(正確な言い回しを保持するため) |
| 外国語テキスト | 該当する言語に合わせる | 1 | 50 | オフ(英語のみの原型化ツールのため) |
よくある質問
何が「単語」としてカウントされますか?
トークナイザーは、1つ以上のUnicode文字をマッチングし、オプションでアポストロフィやハイフンで結合されたものを抽出します。そのため、don't、state-of-the-art、l'ovvio はそれぞれ1つの単語として扱われます。数字はデフォルトで除外されていますが、「数字をカウントする」をオンにすれば含めることができます。トークナイザーは、ラテン文字、キリル文字、ギリシャ文字、およびCJK(中国語・日本語・韓国語)スクリプトに対応しています。
基本的な原型化ツールは何を行い、何を行いませんか?
このツールは3つの軽量な変換を行います:所有格の 's の削除、一般的な動詞の語尾(-ing, -ed)の集約、およびシンプルな複数形(-s, -es, -ies → -y)の処理です。 WordNet語彙集を組み込む必要があるような、本格的な形態論的原型化(例: better → good, went → go)は行いません。正確な単語の形態そのものを確認したいことが多い頻度分析において、完全な原型化は過剰(オーバーキル)です。また、この控えめなアプローチにより、ステミングの最悪の失敗モードである「文脈上異なる単語の統合」(例: Porterステムマーにおける「university」と「universe」の同一視)を避けることができます。
ライブプレビューとサーバーの分析結果がわずかに異なるのはなぜですか?
ライブプレビューは、スクリプトのサイズを最小限に抑えるために、クライアント側での英語のストップワードのフィルタリングのみを行います。他の言語はサーバー側で完全にフィルタリングされます。また、サーバーは切り替えが有効な場合に基本的な原型化を適用します。ただし、両者間で総トークン数は常に一致します。
ラテン文字以外のスクリプト(日本語など)も処理できますか?
はい。トークナイザーはUnicode文字クラスを使用しているため、キリル文字、ギリシャ文字、アラビア語、ヘブライ語、中国語、日本語、韓国語のテキストもすべて正しくトークン化されます。ただし、中国語や日本語は単語間にスペースを使用しないため、連続するCJK文字の並び全体が1つの「トークン」として扱われます。これらの言語で真の単語分割(形態素解析)を行うには、jieba(中国語)やMeCab(日本語)のような専用のトークナイザーが必要となります。
テキストサイズの制限はありますか?
1回あたり200,000文字までです。これは英語の約30,000語、あるいは一般的な小説の1章分に相当します。これを超える分量では、ブラウザのメモリやリクエストサイズの問題が発生する可能性があるため、テキストを小さく分割して実行してください。
私のテキストのプライバシーは保護されていますか?
はい。テキストは結果ページをレンダリングするためにメモリ内で処理され、ディスクに書き込まれることはありません。入力中に表示されるライブミニ統計は、すべてブラウザ内で完全に実行されます。貼り付けられたコンテンツをログに記録、保存、または分析することはありません。
単語頻度分析の短い歴史
単語頻度リストは、言語学において最も古いツールの1つです。機械によって生成された最初の英語の頻度リストは、ロベルト・ブーザ神父(Father Roberto Busa)による1949〜1980年の Index Thomisticus でした。これはIBMのパンチカードマシンを使用して、トマス・アクィナスの著作に含まれるすべての単語をカウントしたもので、デジタル・ヒューマニティーズ(デジタル人文学)の創始プロジェクトとして広く知られています。ブラウンコーパス(1961年)は、現代アメリカ英語の、体系的にサンプリングされた最初の100万語規模の頻度リストを提供しました。今日、すべての検索エンジン、機械翻訳システム、大規模言語モデル(LLM)、およびSEOツールは、大規模な単語およびトークンの頻度統計に基づいて動作しています。このツールに表示されている、単純なカウンターベースのランキングと同じ仕組みが、その分野の核心(カーネル)となっています。
このコンテンツ、ページ、またはツールを引用する場合は、次のようにしてください:
"単語頻度アナライザー"(https://MiniWebtool.com/ja//) MiniWebtool からの引用、https://MiniWebtool.com/
by miniwebtool チーム. 更新日: 2026年5月27日