作業フローを簡素化:miniwebtoolを検索。
追加
ホームページ > テキストツール > テキスト統計ツール > 単語頻度アナライザー
 

単語頻度アナライザー

任意のテキストを貼り付けるだけで、どの単語が最も頻繁に登場するかを即座に確認できます。ランキング形式の頻度テーブル、アニメーション付き棒グラフ、インタラクティブなワードクラウド、語彙多様性スコア、および6言語に対応したオプションのストップワード(除外検索語)フィルタリング機能を提供します。結果はCSVとしてエクスポート可能です。

単語頻度アナライザー
📚 サンプルを試す
記事、エッセイ、書き起こし、小説の章など、あらゆる文章を貼り付けてください。1回あたり最大200,000文字まで対応しています。
登場人物名、ブランド名、除外したい単語などをカンマまたはスペースで区切って入力してください。

Embed 単語頻度アナライザー Widget

単語頻度アナライザー

単語頻度アナライザーは、「このテキストの中で、実際に最もよく使われている単語はどれか?」というシンプルな疑問に驚くほど深く答えます。ブログ記事、書き起こし、小説の章、職務記述書、スピーチなど、あらゆる文章ブロックを貼り付けるだけで、重複しないすべての単語を出現頻度順にランク付けし、分布図を作成し、頻度に応じたサイズのインタラクティブなワードクラウドをレンダリングします。このツールは、意図しない単語の繰り返しをチェックしたい執筆者、自然なキーワード密度を確認したいSEO専門家、著者の語彙を研究している学生、語彙の多様性を迅速に検証したい研究者、見慣れないテキストを調査する翻訳者や言語学者向けに構築されています。すべての処理はブラウザ内または当社のサーバー上で行われ、保存されることはありません。

このアナライザーの特徴

  • 入力中のライブプレビュー。 「分析」ボタンをクリックしなくても、サイドパネルに重複しない単語数、総単語数、TTR(語彙の多様性)、および上位5単語のデータが即座に反映されます。フィルターの調整も数秒で行えます。
  • 6言語のストップワードリスト。 英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語に対応。膨大で無駄なデータではなく、厳選されたリストを用意しています。さらに、登場人物名、ブランド名、定型文などを除外するための自由形式のカスタムストップワードフィールドも備えています。
  • 平方根スケールのワードクラウド。 多くのワードクラウド生成ツールは生のカウント数でサイズを決定するため、最頻出の単語が中位の単語の50倍もの大きさになり、クラウド全体が視覚的に潰れてしまいます。平方根スケール(sqrt)を採用することで、クラウドの読みやすさを維持でき、これはWordle(2009年)以来の業界標準アプローチとなっています。
  • トップ3の「表彰台」表示。 金・銀・銅のカードを一目見るだけで、テキストが最も依存している単語がわかります。偶発的な繰り返しが疑われる場合に、最初にチェックすべき項目です。
  • 語彙多様性の指標。 異なり語数比(TTR)とハパックス・レゴメノンのカウントにより、単なる頻度の羅列ではなく、語彙の豊かさを表すスコアを提供します。TTRが0.6を超える短い文章は語彙が豊かであり、長い文書で0.2未満の場合は繰り返しが多いことを示します。
  • ワンクリックのCSVエクスポート。 スプレッドシートでの分析用に、ランク付けされた完全な表をダウンロードまたはコピーできます。

このツールの使い方

  1. テキストを貼り付ける。 最大200,000文字まで対応。これは約30,000語に相当し、長い小説の1章分、あるいは複数のブログ記事を組み合わせた長さに匹敵します。
  2. ストップワードの言語を選択する。 ストップワードをフィルターしない場合、表の上位は「the」、「of」、「and」などで占められ、一度確認すれば十分な情報ばかりになってしまいます。テキストの言語を選択するか、真の生の頻度をカウントする場合は「なし」を選択してください。
  3. 最小単語長を設定する。 「a」、「I」、「it」、「no」などの短い語をスキップしたい場合は、3または4に設定します。すべてを保持する場合は1に設定します。
  4. 表示する結果の数を選択する。 ほとんどの文章では「上位50」が最適ですが、「上位500」を選択すれば、出現頻度の低いロングテールの単語まで完全に把握できます。
  5. オプションの切り替え。 「Paris」と「paris」を区別したい場合は「大文字・小文字を区別する」をオンにします。「runs」、「ran」、「running」を「run」に統合したい場合は「基本的な原型化」をオンにします。バージョン番号、年、統計データがテキストにおいて意味を持つ場合は「数字をカウントする」をオンにします。
  6. 「単語頻度を分析する」をクリック。 表彰台を確認し、バーチャート表をスクロールし、クラウドを眺め、さらに詳細に調査したい場合はCSVをエクスポートします。

指標の背後にある計算方法

頻度とパーセンテージ

重複しない各単語 \( w \) について、カウント数は保持されたトークンリストにその単語が登場する回数であり、パーセンテージは \( \text{count}(w) / N \)( \( N \) は保持されたトークンの総数)です。バーの幅は最も頻出する単語を基準とした相対値であるため、分布の形状を一目で把握できます。

異なり語数比(TTR)

\( \text{TTR} = U / N \) で定義され、 \( U \) は重複しない単語数(異なり語数)、 \( N \) はカウントされたトークンの総数です。TTRは、語彙の多様性を測る最もシンプルな指標です。短いニュース速報は通常0.5〜0.7になりますが、長い小説では一般的な単語が繰り返し使用されるため、0.15〜0.25に低下します。TTRはテキストの長さに影響を受けやすいため、長いテキストは短いテキストよりも常にTTRが低くなります。そのため、分量が大きく異なる文書間でTTRを比較することは避けてください。

ハパックス・レゴメノン

ハパックス・レゴメノン(ギリシャ語で「一度だけ言われた」の意)とは、テキスト中に完全に一度しか出現しない単語のことです。ハパックスのカウント数とハパックスの割合は、語彙の豊かさを示す古典的なシグナルです。シェイクスピアの全著作では、約31,000語の重複しない単語のうち、およそ14,000語がハパックスであり、約45%を占めます。現代のブログ記事では、単語が再出現するほどのテキスト量がないため、ハパックスが60%以上に達することがよくあります。

ワードクラウドのフォントサイズ設定

クラウド内の単語 \( w \) のフォントサイズは、表示されている最小カウント数と最大カウント数の間で平方根スケールを使用して計算されます:

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

これによりダイナミックレンジが圧縮されるため、200回出現する単語の高さは、20回出現する単語の10倍ではなく、約3倍に抑えられます。この圧縮がないと、クラウドが1つか2つの巨大な単語に占有されてしまいます。

カラーコード化された頻度ティア

バーとクラウド内の単語は、順位のティア(階層)ごとにカラーコード化されているため、分布の形状を一目で特定できます:

ティア 1 — 1〜5位テキストが最も依存している5つの単語です。意味を持つ内容語がここにランクインしている場合、それがそのテキストのテーマです。
ティア 2 — 6〜15位メインのアイデアを展開するために繰り返し使用される、脇を固める名詞や動詞です。
ティア 3 — 16〜40位上位のテーマを取り囲む、より幅広い語彙層です。
ティア 4 — 41〜100位専門用語や特定の用語(固有名詞、専門用語、名前付きエンティティなど)です。
ティア 5 — 101位以降ロングテール部分です。1、2回しか使われていない単語であり、最も興味深い語彙がここに隠れていることがよくあります。

活用事例

執筆者 — 意図しない繰り返しの検知

単一の単語(「素早く」、「本当に」、「本質的に」や、登場人物の名前など)が、下書きの上位に忍び込んでいる頻度に驚かされることでしょう。章を貼り付けて、金・銀・銅の表彰台を見てみてください。意識的に強調したわけではない内容語がそこにある場合、それは推敲で修正すべき口癖(執筆の癖)です。

SEOとコンテンツマーケティング

ストップワードフィルターと最小単語長を設定し、上位25語を確認します。これらは、検索エンジンがあなたのページと最も強く関連付ける単語です。これらがターゲットとするキーワードクラスターと一致しない場合、ページ上のSEOパフォーマンスは低下します。キーワードの詰め込み(キーワードスタッフィング)は避けてください。現代のアルゴリズムは不自然な密度にペナルティを科します。健全な目標値は、メインキーワードで全体の約1〜2%です。

文学研究と文体論

ディケンズとヘミングウェイの章を貼り付けて、TTR、ハパックスの割合、平均単語長を比較してみてください。著者固有の文体のデジタルな指紋は、その著作群を通じて驚くほど一貫しており、これが計量文体論(コンピューター文体論)の基礎となっています。

スピーチと書き起こしの分析

政治家や経営者にはお気に入りの単語があります。ストップワードを除去した状態でスピーチをアナライザーにかけると、上位15語からメッセージング戦略が明らかになります。同じ話し手による2つのスピーチを比較して、何が変化したかを確認することもできます。

翻訳と語学学習

翻訳作業を行う際、最初に原テキトを分析して、どの内容語が主流を占めているかを確認します。これにより、翻訳文でも同じ強調が維持されるようにします。語学学習者の場合、200語程度の記事をストップワードフィルターなしで実行すると、流暢に認識すべき重要な機能語がどれであるかが分かります。

研究と学術論文の執筆

多くのジャーナルでは、アブストラクト(要旨)において制御された語彙を使用することが求められます。投稿前に頻度をチェックすることで、偶発的な専門用語の過剰使用を防ぐことができます。コーパス言語学の研究を行う研究者は、連語(コロケーション)、n-gram、トピックモデリング作業の初期入力として頻度リストを使用します。このツールはそのインプットを生成できます。

文書タイプ別の推奨設定

文書タイプストップワード最小単語長上位表示数(Top N)原型化
ブログ記事 / 一般記事英語(または該当言語)350オフ
小説の1章英語3100オン("runs"/"ran"/"running"を統合)
学術論文英語4100オン
ツイートスレッド / 短い投稿なし125オフ
SEOリサーチ英語350オン
スピーチの書き起こし英語325オフ(正確な言い回しを保持するため)
外国語テキスト該当する言語に合わせる150オフ(英語のみの原型化ツールのため)

よくある質問

何が「単語」としてカウントされますか?

トークナイザーは、1つ以上のUnicode文字をマッチングし、オプションでアポストロフィやハイフンで結合されたものを抽出します。そのため、don'tstate-of-the-artl'ovvio はそれぞれ1つの単語として扱われます。数字はデフォルトで除外されていますが、「数字をカウントする」をオンにすれば含めることができます。トークナイザーは、ラテン文字、キリル文字、ギリシャ文字、およびCJK(中国語・日本語・韓国語)スクリプトに対応しています。

基本的な原型化ツールは何を行い、何を行いませんか?

このツールは3つの軽量な変換を行います:所有格の 's の削除、一般的な動詞の語尾(-ing, -ed)の集約、およびシンプルな複数形(-s, -es, -ies → -y)の処理です。 WordNet語彙集を組み込む必要があるような、本格的な形態論的原型化(例: better → good, went → go)は行いません。正確な単語の形態そのものを確認したいことが多い頻度分析において、完全な原型化は過剰(オーバーキル)です。また、この控えめなアプローチにより、ステミングの最悪の失敗モードである「文脈上異なる単語の統合」(例: Porterステムマーにおける「university」と「universe」の同一視)を避けることができます。

ライブプレビューとサーバーの分析結果がわずかに異なるのはなぜですか?

ライブプレビューは、スクリプトのサイズを最小限に抑えるために、クライアント側での英語のストップワードのフィルタリングのみを行います。他の言語はサーバー側で完全にフィルタリングされます。また、サーバーは切り替えが有効な場合に基本的な原型化を適用します。ただし、両者間で総トークン数は常に一致します。

ラテン文字以外のスクリプト(日本語など)も処理できますか?

はい。トークナイザーはUnicode文字クラスを使用しているため、キリル文字、ギリシャ文字、アラビア語、ヘブライ語、中国語、日本語、韓国語のテキストもすべて正しくトークン化されます。ただし、中国語や日本語は単語間にスペースを使用しないため、連続するCJK文字の並び全体が1つの「トークン」として扱われます。これらの言語で真の単語分割(形態素解析)を行うには、jieba(中国語)やMeCab(日本語)のような専用のトークナイザーが必要となります。

テキストサイズの制限はありますか?

1回あたり200,000文字までです。これは英語の約30,000語、あるいは一般的な小説の1章分に相当します。これを超える分量では、ブラウザのメモリやリクエストサイズの問題が発生する可能性があるため、テキストを小さく分割して実行してください。

私のテキストのプライバシーは保護されていますか?

はい。テキストは結果ページをレンダリングするためにメモリ内で処理され、ディスクに書き込まれることはありません。入力中に表示されるライブミニ統計は、すべてブラウザ内で完全に実行されます。貼り付けられたコンテンツをログに記録、保存、または分析することはありません。

単語頻度分析の短い歴史

単語頻度リストは、言語学において最も古いツールの1つです。機械によって生成された最初の英語の頻度リストは、ロベルト・ブーザ神父(Father Roberto Busa)による1949〜1980年の Index Thomisticus でした。これはIBMのパンチカードマシンを使用して、トマス・アクィナスの著作に含まれるすべての単語をカウントしたもので、デジタル・ヒューマニティーズ(デジタル人文学)の創始プロジェクトとして広く知られています。ブラウンコーパス(1961年)は、現代アメリカ英語の、体系的にサンプリングされた最初の100万語規模の頻度リストを提供しました。今日、すべての検索エンジン、機械翻訳システム、大規模言語モデル(LLM)、およびSEOツールは、大規模な単語およびトークンの頻度統計に基づいて動作しています。このツールに表示されている、単純なカウンターベースのランキングと同じ仕組みが、その分野の核心(カーネル)となっています。

このコンテンツ、ページ、またはツールを引用する場合は、次のようにしてください:

"単語頻度アナライザー"(https://MiniWebtool.com/ja/単語頻度アナライザー/) MiniWebtool からの引用、https://MiniWebtool.com/

by miniwebtool チーム. 更新日: 2026年5月27日

その他の関連ツール:

テキスト統計ツール:

おすすめ:

標準偏差電卓 - 高精度パーセンテージ減少電卓パーセント増加電卓平均寿命電卓InstagramユーザーID検索ランダムカラージェネレーターシグマ記法電卓 総和ランダム名前ジェネレーターwar電卓筆算割り算電卓パーセント誤差電卓弧長電卓円錐展開図テンプレートジェネレーターMACアドレス検索英単語ランダム生成ツールフィートとインチからセンチメートルへのコンバーター画像分割ツール合計電卓クロスワードパズルメーカーHEX電卓中央値電卓番号を並べ替えるCAGR電卓ランダム誕生日ジェネレーター分散電卓 高精度YouTubeチャンネル統計手数料電卓相対標準偏差電卓動画を逆再生平方完成電卓楕円円周電卓ランダム絵文字ジェネレーターai句読点追加売上総利益率電卓ボウリングスコア計算機対数電卓動画を結合逆テキストFPSコンバーターランダムトーナメント表作成ツールセンチメートルからフィートとインチへのコンバーターMP3ルーパーランダム超能力ジェネレーター太陽・月・上昇星座電卓 🌞🌙✨エンジェルナンバー電卓迷路ジェネレータービンゴカードジェネレーターランダム日付ジェネレーター動画を回転相関係数計算機モジュロ電卓血糖値コンバーター関数電卓指数電卓-高精度ASCIIコード表上下反転テキストジェネレーターテキストリピート平方根電卓比率電卓マスターナンバー電卓桁数電卓変動係数電卓小数時間から普通の時間へのコンバーター土星回帰電卓階段電卓パスワード強度テスターXMLバリデーター空の行を削除する変化率電卓HEXコンバーターlog-base-2電卓デシベル (dB) 電卓SRT 時間シフト 電卓積分電卓t検定電卓じゃんけんジェネレータービデオ速度を調整割り切れるテスト電卓ピタゴラスの定理電卓オンライン句読点削除ツール圧力電卓斜辺電卓平方和の計算加速度電卓魔方陣ジェネレーター複数分数電卓沸点計算ツール配当利回り電卓歩数距離変換電卓👙 ブラサイズ電卓ボルト締付トルク計算機ANC電卓マン・ホイットニーのU検定計算機カイ二乗検定電卓不可視文字除去ツールオーディオ スプリッタータンジェント電卓ランダム時刻ジェネレーター私のIPアドレスは何ですか表面積電卓画像回転ツールBUN対クレアチニン比電卓CPM 電卓三角関数グラフ作成ツール水星逆行カレンダー🖱️ クリックカウンタートルク電卓正多角形電卓CRC32チェックサム電卓バイナリ電卓並列抵抗電卓VTTからtxtへのコンバーター🔊 トーンジェネレーターfena電卓分数電卓平均電卓-高精度血液型計算機労働時間計算ツール自転車ギア比計算機パーソナリティ・ナンバー電卓自然対数電卓年の日電卓 - 今日は今年の何日目信頼区間電卓外れ値電卓素因数分解電卓馬力電卓SRTからTXTへの変換ツールランダムトランプカードジェネレーター中間日計算機逆関数電卓周波数波長変換ツールTwitch収益計算ツールwpaキージェネレーターランダム国ジェネレーター文字数による改行FIP電卓インタラクティブ単位円ビジュアライザーヒストグラムメーカーランダム俳句ジェネレーターランダム算数問題ジェネレーター動画から画像抽出ツール散布図作成ツールTwitter/X タイムスタンプ変換器ビデオをループ再生比較分数電卓中国剰余定理電卓分数をパーセントに変換するコンバーターLog Base 10 電卓アナグラム生成器音節カウンターFacebookユーザーID検索ノノグラムジェネレーター (ピクロス)10進数からBCDへのコンバーターZalgoテキストジェネレーターランニングペース電卓愛の相性電卓3d距離電卓IPアドレスから16進数への変換ダイスロール確率電卓水泳ペース計算機点つなぎジェネレーター角度変換ツールランダムアニマルジェネレーター素数ですかグレイコード・バイナリ変換電卓二乗平均平方根電卓MP4 GIF 変換ツールTikTok収益計算ツールランダム名ピッカー四次方程式計算機長方形の電卓10進数から16進数へのコンバーター車両重量配分計算機atan2電卓RC時定数電卓分数から小数への電卓梁の電卓hba1c電卓シャープレシオ電卓動画クロッパー重複行削除ツール16進数からCMYKへの変換ツールeの最初のn桁カックロジェネレーターサッカーxg期待ゴール電卓素数のリストCohen's d 電卓YouTubeショート収益化計算ツールベーカーズパーセント電卓小文字生成器 ⁽ᶜᵒᵖʸ ⁿ ᵖᵃˢᵗᵉ⁾GIFメーカーPSIからbarへの変換器エントロピー電卓ランダム整数ジェネレーターワードスクランブルジェネレーター円周率の最初のn桁動画圧縮論理ゲートシミュレーターHexからBCDへのコンバーターOPS電卓引っ越し用ダンボール数計算機ストレージユニットサイズ計算機カプセルワードローブ計算機ベルト長さ計算機油圧シリンダー推力計算機滑車システム計算機ギア比計算機機械比熱計算機熱膨張計算機熱伝達計算機ベルヌーイの式計算機レイノルズ数計算機太陽位置計算機潮汐時刻計算機星空観測条件計算機結び方リファレンスツール寝袋温度評価ガイドテントフットプリントサイズ電卓バックパッキング食料重量電卓ネイスミス式ハイキングペース電卓刺繍糸長さ電卓レジンキャスト量計算電卓ビーズパターン電卓陶芸粘土収縮率電卓折り紙用紙サイズ電卓キルトバインディング電卓クロスステッチ刺繍糸計算編み物パターン計算機編み針サイズ変換器かぎ針サイズ変換器馬の干し草計算ツールペット航空輸送クレートサイズ検索爬虫類飼育UVBライト距離計算機鳥かごサイズ計算機水槽ヒーターワット数電卓猫のトイレ数計算機ヘッドライト照射距離電卓エンジン圧縮比計算機タイヤ溝摩耗計算機トレーラー牽引荷重計算機旅行費用割り勘計算停止距離計算機労災補償計算機遺産配分電卓商標区分検索ツール特許出願料電卓売上税ネクサスチェッカー刑期短縮計算機時効計算機Airbnb料金最適化ツールルームメイト家賃分割計算機セクション8 家賃電卓BRRRR法計算機キャッシュオンキャッシュリターン計算機賃貸利回り計算機1031エクスチェンジ計算機資産成長ビジュアライザーランチ代計算機ジム vs 自宅トレーニング費用電卓コーヒー代計算機リモートワーク節約計算機副業ROI電卓サブスクリプション費用トラッカーSaaS料金計算ツールフリーランスプロジェクト料金計算機スモークウッド・ペアリングガイド発酵時間計算機マリネ時間計算機食事制限レシピフィルタースパイス代用品ファインダーカフェイン半減期トラッカー標準ドリンク計算ツールワインペアリング提案ツールクライミンググレード変換器釣り結び強度計算機ヨガポーズホールドタイマー水泳SWOLF電卓レースタイム予測計算機ボクシングパンチ力計算機ラグビー得点電卓クリケット・ランレート電卓テニススコアトラッカーWellsスコア電卓 (DVT/PE)グラスゴー・コーマ・スケール計算機アプガースコア計算機FFMI 電卓クーパー12分間走計算ツール1マイルウォークテストロックポート電卓除脂肪体重から筋力計算炭水化物インスリン比計算機インスリン感受性係数計算機ヘブライ暦変換器ヒジュラ暦変換器旧暦変換ツール文化別年齢電卓どれくらい前計算機あと何日カウントダウン電卓日付パターンジェネレーター日付に営業日を追加営業日計算機単語頻度アナライザー文の長さばらつき分析ツールヘミングウェイ風リーダビリティエディタ発音IPA変換ツールヴィジュネル暗号ツールアトバッシュ暗号ツールROT13エンコーダー・デコーダーEXIFデータビューア・削除ツールピッグラテン翻訳機バックロニム ジェネレーター頭字語ジェネレーターパングラムチェッカーリポグラム チェッカー画像からSVGトレーサー画像からASCIIアートへの変換器JSONスキーマジェネレーターTypeScriptプレイグラウンドLessからCSSへのコンパイラーSCSSからCSSへのコンパイラーSVGからReact/JSXへの変換器クエリ文字列ビルダーURLパーサーUUID検証・デコーダーHTTPステータスコードリファレンスcURLコマンドビルダーシェルピンスキーの三角形ジェネレーター3D曲面プロッター極方程式プロッタージュリア集合生成器マンデルブロ集合エクスプローラーL-Systemフラクタルジェネレータードロネー三角形分割ジェネレーターボロノイ図ジェネレータースピログラフジェネレーターテッセレーションジェネレーターシックスシグマ工程能力計算機パレート図ジェネレーターNPSネットプロモータースコア計算機コホート維持率電卓解約率計算機顧客獲得コストCAC計算機顧客生涯価値CLV電卓コンバージョン率電卓A/Bテスト サンプルサイズ電卓A/Bテスト有意性電卓レンズの式計算機導線の磁場電卓電場計算機クーロンの法則電卓スネルの法則計算機慣性モーメント計算機角速度計算機求心力計算機振り子周期電卓ばね定数電卓ドップラー効果電卓ソルティノレシオ電卓トレイナー・レシオ電卓株式ベータ計算機インフレ連動米国債TIPS電卓住宅ローン リキャスト 電卓フォワードレート電卓債券デュレーション電卓 マコーレーと修正債券コンベクシティ電卓インデックス連動年金電卓変額年金電卓リバースモーゲージ電卓年金支払い計算機そろばんシミュレーターロシア農民式乗算ヴェーダ数学トリック電卓古代エジプト式乗算電卓ローマ数字計算ソルバー暗算トレーナー九九クイズ繰り上がりと繰り下がりビジュアライザー数の合成と分解生成ツール硬貨文章題ソルバー距離・速さ・時間の三角形電卓仕事算ソルバー混合問題ソルバー年齢文章題ソルバー列車出会い問題ソルバー水分補給計算機ペース カロリー電卓薬剤投与量計算機アルコールカロリー電卓ボディリコンポジション電卓ランダム討論トピックジェネレーターランダムな猫犬の名前ジェネレーターyoutubeサムネイルダウンローダーyoutube収益見積もりツールランダムRPGキャラクタージェネレーター