단어 빈도 분석기
원하는 텍스트를 붙여넣기 하여 어떤 단어가 가장 자주 등장하는지 즉시 확인해 보세요. 순위별 빈도수 표, 애니메이션 막대형 차트, 대화형 워드 클라우드, 어휘 다양성 점수 및 6개 언어 기반의 불용어(Stop-word) 필터링 옵션을 제공합니다. 분석 결과는 CSV 파일로 내보낼 수 있습니다.
광고 차단기로 인해 광고를 표시할 수 없습니다
MiniWebtool은 광고로 무료로 운영됩니다. 이 도구가 도움이 되었다면 Premium(광고 제거 + 더 빠름)으로 지원하시거나 MiniWebtool.com을 허용 목록에 추가한 뒤 새로고침하세요.
- 또는 Premium(광고 없음)으로 업그레이드
- MiniWebtool.com 광고를 허용한 다음 새로고침하세요
단어 빈도 분석기 정보
단어 빈도 분석기는 '이 텍스트에서 실제로 가장 많이 사용된 단어는 무엇인가?'라는 단순한 질문에 놀라울 정도로 심도 있는 답변을 제공합니다. 블로그 포스트, 녹취록, 책의 한 장, 채용 공고문, 연설문 등 어떤 산문 텍스트든 붙여넣기만 하면, 각 고유 단어를 등장 빈도에 따라 순위를 매기고 분포를 차트로 그리며, 빈도별로 크기가 조정되는 대화형 워드 클라우드를 생성해 줍니다. 이 도구는 의도치 않은 단어 반복을 확인하려는 작가, 자연스러운 키워드 밀도를 확인하려는 SEO 전문가, 작가의 어휘를 공부하는 학생, 어휘 다양성을 빠르게 검증하려는 연구원, 그리고 낯선 텍스트를 분석하려는 번역가나 언어학자를 위해 특별히 설계되었습니다. 모든 작업은 브라우저 또는 당사 서버의 메모리 내에서만 실행되며 절대 저장되지 않습니다.
이 분석기만의 차별점
- 입력하는 동안 실시간 미리보기 제공: 사이드 패널이 고유 단어 수, 총 단어 수, TTR(어휘 다양성), 실시간 상위 5개 단어를 '분석하기' 버튼을 누르지 않아도 즉시 업데이트합니다. 단 몇 초 만에 필터를 조정해가며 반복해서 시도해볼 수 있습니다.
- 6개 국어 불용어 목록 지원: 영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어에 대해 방대한 데이터 덤프가 아닌 정제된 목록을 제공합니다. 추가로 등장인물 이름, 브랜드 이름 또는 상투적인 문구를 걸러낼 수 있는 자유 형식의 사용자 지정 불용어 필드도 제공합니다.
- 제곱근(Square-root) 스케일링이 적용된 워드 클라우드: 대부분의 클라우드 생성기는 원본 빈도 개수로 단어 크기를 정합니다. 이 경우 1위 단어가 중간 순위 단어보다 50배 이상 커져서 클라우드를 시각적으로 완전히 가려버리게 됩니다. 제곱근 스케일링은 가독성을 완벽하게 유지해 주며, 이는 Wordle(2009년) 이후 업계 표준으로 자리 잡은 방식입니다.
- 상위 3위 단어를 보여주는 "포디움" 뷰: 금/은/동 카드를 한눈에 보면 텍스트에서 어떤 단어에 가장 심하게 의존하고 있는지 바로 알 수 있습니다. 자신도 모르게 단어를 반복하고 있는지 의심될 때 가장 먼저 확인해야 할 부분입니다.
- 어휘 다양성 지표 제공: Type-Token Ratio 및 하파스 레고메논(Hapax legomena) 카운트를 통해 단순한 빈도 나열을 넘어 어휘의 풍부함 점수를 제공합니다. TTR이 0.6보다 큰 짧은 산문은 어휘가 풍부한 편이며, 긴 문서에서 TTR이 0.2 미만이면 단어 반복이 심하다는 의미입니다.
- 클릭 한 번으로 CSV 내보내기: 스프레드시트 분석을 위해 전체 순위표를 다운로드하거나 클립보드에 바로 복사할 수 있습니다.
이 도구의 사용 방법
- 텍스트를 붙여넣습니다. 최대 200,000자까지 가능하며, 이는 단어 수로 약 30,000 단어에 해당하여 긴 소설의 한 장이나 여러 개의 블로그 포스트를 합친 분량까지 한 번에 소화할 수 있습니다.
- 불용어 언어를 선택합니다. 불용어를 필터링하지 않으면 표 상단이 영어의 경우 "the", "of", "and" 등으로 도배되어 실질적인 정보를 얻기 어렵습니다. 텍스트의 언어를 지정하거나, 진짜 날것 그대로의 빈도수를 보려면 '없음'을 선택하세요.
- 최소 단어 길이를 지정합니다. "a", "I", "it", "no" 같이 짧은 단어들을 건너뛰려면 3 또는 4로 설정하세요. 모든 단어를 다 유지하려면 1로 설정하면 됩니다.
- 표시할 결과 단어 수를 선택합니다. 일반적인 산문 텍스트에서는 상위 50개가 가장 보기 좋으며, 상위 500개를 선택하면 롱테일(Long-tail) 단어까지 아주 자세하게 확인할 수 있습니다.
- 선택 토글 옵션을 지정합니다. "Paris"와 "paris"를 구별하여 카운트하고 싶다면 '대소문자 구분'을 켜세요. 영어의 경우 "runs", "ran", "running"을 모두 "run"으로 묶어서 집계하려면 '기본 표제어 추출'을 켜면 편리합니다. 버전 번호, 연도, 통계 수치 등이 텍스트에서 중요한 의미를 갖는다면 '숫자 카운트'를 켜세요.
- '분석하기'를 클릭합니다. 포디움을 확인하고, 막대 그래프 표를 아래로 훑어보고, 클라우드를 살펴본 뒤 필요한 경우 추가 분석을 위해 CSV 파일을 내보내세요.
지표에 숨겨진 수학적 원리
빈도 및 백분율
개별 고유 단어 \( w \)에 대해, 카운트는 필터링을 거쳐 유지된 토큰 목록에서 해당 단어가 나타난 횟수이며, 백분율은 \( \text{count}(w) / N \)으로 계산됩니다. 여기서 \( N \)은 필터링 후 남은 총 토큰 수입니다. 각 행의 막대 너비는 가장 자주 나타난 단어를 기준으로 상대 평가되므로 전체적인 분포의 형태를 직관적으로 파악할 수 있습니다.
Type-Token Ratio (TTR)
\( \text{TTR} = U / N \) 으로 계산되며, 여기서 \( U \)는 고유 단어 수(Types)이고 \( N \)은 카운트된 총 토큰 수입니다. TTR은 어휘 다양성을 측정하는 가장 단순 명료한 지표입니다. 짧은 뉴스 브리핑은 보통 0.5~0.7 사이에 위치하지만, 긴 소설의 경우 흔히 쓰이는 단어들이 끊임없이 반복되므로 0.15~0.25까지 떨어지기도 합니다. TTR은 텍스트의 길이에 매우 민감하여 텍스트가 길어질수록 항상 수치가 낮아지는 특성을 가집니다. 따라서 분량 차이가 너무 많이 나는 문서 간에 TTR 값을 직접 비교하는 것은 권장되지 않습니다.
하파스 레고메논 (Hapax legomena)
하파스 레고메논(Hapax legomenon, 그리스어로 '한 번 말해진 것'이라는 뜻)은 텍스트 전체에서 정확히 단 한 번만 등장하는 단어를 의미합니다. 하파스 수와 하파스 백분율은 어휘의 풍부함을 나타내는 고전적인 신호입니다. 셰익스피어 전집 전체를 보면 그의 고유 단어 31,000개 중 약 14,000개가 하파스(약 45%)에 해당합니다. 현대의 블로그 포스트는 분량 자체가 짧아서 단어가 재차 반복될 기회가 적기 때문에 종종 하파스 비율이 60% 이상을 기록하기도 합니다.
워드 클라우드 글꼴 크기 산정 방식
워드 클라우드에 표시되는 단어 \( w \)의 글꼴 크기는 화면에 표시되는 최소 카운트와 최대 카운트 사이에서 아래와 같이 제곱근(Square-root) 스케일링을 사용하여 결정됩니다.
\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)
이 방식은 다이내믹 레인지를 압축해 주어, 예를 들어 200번 등장한 단어가 20번 등장한 단어보다 10배가 아닌 약 3배 정도만 더 높게 표시되도록 제어해 줍니다. 이러한 압축 처리가 없으면 워드 클라우드는 단 한두 개의 거대한 단어에 의해 완전히 장악되어 버립니다.
색상으로 구분된 빈도 티어(Tier)
막대 그래프와 클라우드 단어들은 순위 티어별로 색상이 지정되어 있어 분포의 형태를 한눈에 식별할 수 있습니다.
실제 활용 사례
작가 — 나도 모르는 어휘 반복 잡아내기
초고를 쓰다 보면 특정 단어("갑자기", "진짜로", "기본적으로" 또는 특정 등장인물의 이름)가 본인도 모르게 얼마나 자주 위로 기어 올라오는지 알면 깜짝 놀라실 것입니다. 작성 중인 장을 복사해 넣고 금·은·동 포디움을 확인해 보세요. 의도치 않게 강조된 단어가 있다면 바로 수정해야 할 타이밍입니다.
SEO 및 콘텐츠 마케팅
불용어 필터와 최소 단어 길이를 설정한 뒤 상위 25개 단어를 확인해 보세요. 이 단어들이 바로 검색엔진이 귀하의 페이지를 분석할 때 가장 강력하게 연관 지을 키워드들입니다. 만약 타깃으로 삼은 핵심 키워드 클러스터와 일치하지 않는다면 온페이지 SEO 성능이 떨어질 수 있습니다. 단, 키워드 채워넣기(Keyword stuffing)는 피해야 합니다. 현대의 검색 알고리즘은 부자연스러운 밀도에 패널티를 부여하므로, 메인 키워드의 경우 대략 1~2% 정도의 밀도를 유지하는 것이 가장 건강합니다.
문학 연구 및 문체론
찰스 디킨스와 어니스트 헤밍웨이의 소설 한 장을 각각 붙여넣고 TTR, 하파스 백분율, 평균 단어 길이를 비교해 보세요. 작가의 문체적 정체성을 보여주는 이러한 디지털 지문은 그들의 전체 작품군에 걸쳐 놀라울 정도로 일관되게 나타나며, 이는 컴퓨터 문체론(Stylometry) 연구의 든든한 기초가 됩니다.
연설문 및 녹취록 분석
정치인이나 최고경영자(CEO)들에게는 저마다 유독 좋아하는 애착 단어들이 있습니다. 불용어를 제거하고 연설문을 분석기에 돌려보면 상위 15개 단어를 통해 그들의 핵심 메시지 전략을 훤히 들여다볼 수 있습니다. 같은 화자의 서로 다른 두 연설을 비교해 보면 강조점이 어떻게 이동했는지도 추적할 수 있습니다.
번역 및 언어 학습
번역 작업을 시작하기 전에 원문 텍스트를 먼저 분석기에 돌려보면 어떤 의미 단어들이 전체를 지배하고 있는지 간파할 수 있습니다. 이를 통해 번역문에서도 동일한 강조점이 잘 살아나도록 중심을 잡을 수 있습니다. 외국어를 공부하는 학생이라면 200단어 정도의 짧은 기사를 불용어 필터링 없이 실행하여, 내가 유창하게 읽기 위해 반드시 마스터해야 하는 기능어들이 무엇인지 목록화할 수 있습니다.
연구 및 학술 논문 작성
많은 학술지가 초록(Abstract)에서 통제된 어휘를 사용하기를 기대합니다. 논문을 제출하기 전에 빈도 점검을 거치면 특정 전문 용어가 과도하게 오용되는 것을 미연에 방지할 수 있습니다. 말뭉치 언어학(Corpus linguistics) 연구를 진행하는 연구원들에게 이 빈도 목록은 연어(Collocation), n-gram, 토픽 모델링 작업을 위한 가장 기초적인 입력 데이터가 되어 줍니다.
문서 유형별 추천 설정 안내
| 문서 종류 | 불용어 필터 | 최소 길이 | 표시 개수(Top N) | 표제어 추출 |
|---|---|---|---|---|
| 블로그 포스트 / 기사 | 영어 (또는 해당 언어) | 3 | 50 | 꺼짐 |
| 소설의 한 장(Chapter) | 영어 | 3 | 100 | 켜짐 ("runs"/"ran" 등 통합) |
| 학술 논문 | 영어 | 4 | 100 | 켜짐 |
| 트윗 타래 / 짧은 글 | 없음 | 1 | 25 | 꺼짐 |
| SEO 리서치 | 영어 | 3 | 50 | 켜짐 |
| 연설문 녹취록 | 영어 | 3 | 25 | 꺼짐 (생생한 표현 그대로 유지) |
| 기타 외국어 텍스트 | 해당 언어 맞춤 | 1 | 50 | 꺼짐 (영어 전용 추출기이므로) |
자주 묻는 질문 (FAQ)
무엇을 하나의 "단어"로 판정하나요?
텍스트 토크나이저(Tokenizer)는 하나 이상의 유니코드 문자를 기본 단위로 삼으며, 아포스트로피(')나 하이픈(-)으로 연결된 단어도 하나로 묶어 판정합니다. 따라서 don't, state-of-the-art, l'ovvio는 각각 하나의 단어로 취급됩니다. 숫자는 기본적으로 제외되나, 필요에 따라 "숫자 카운트" 토글을 켜서 포함할 수 있습니다. 토크나이저는 라틴 문자, 키릴 문자, 그리스 문자 및 CJK(한중일) 스크립트 전반에 걸쳐 유연하게 작동합니다.
기본 표제어 추출기는 구체적으로 어떤 처리를 하고, 어떤 처리를 하지 않나요?
이 기능은 세 가지 가벼운 변환만을 수행합니다: 소유격 's 제거, 일반적인 동사 어미(-ing, -ed) 정리, 그리고 단순 복수형(-s, -es, -ies → -y) 형태를 단수형으로 되돌립니다. 단, 단어의 형태 자체가 통째로 바뀌는 완전한 형태소 분석(예: better → good, went → go)까지는 수행하지 않습니다. 본격적인 형태소 분석을 수행하려면 WordNet 어휘집 전체를 스크립트에 탑재해야 하므로 배보다 배꼽이 더 커지며, 텍스트 분석 시 단어의 원래 형태를 그대로 보고 싶어 하는 사용 목적에도 오히려 방해가 될 수 있습니다. 또한 이러한 보수적인 접근법은 어휘의 의미가 완전히 다른 두 단어를 억지로 같은 어근으로 뭉개버리는 형태소 분석기 특유의 치명적인 오류(예: Porter 알고리즘 하에서 "university"와 "universe"가 같은 어근으로 묶이는 현상)를 방지해 줍니다.
실시간 미리보기와 서버 분석 결과가 왜 미세하게 다른가요?
브라우저용 스크립트의 크기를 가볍고 작게 유지하기 위해, 실시간 미리보기 패널은 클라이언트 측에서 '영어 불용어'만을 필터링하도록 설계되어 있습니다. 그 외 다른 언어들은 서버로 데이터가 전달된 뒤 서버 안에서 완벽하게 필터링을 완료합니다. 또한 표제어 추출 토글 기능 역시 서버 단에서 최종 적용됩니다. 단, 필터를 거치기 전 본문 본연의 전체 토큰(단어) 개수는 양쪽 모두 언제나 완벽하게 일치합니다.
라틴 문자가 아닌 다른 언어 스크립트도 처리할 수 있나요?
네, 가능합니다. 토크나이저가 유니코드 문자 클래스를 기반으로 설계되어 키릴 문자, 그리스 문자, 아랍어, 히브리어는 물론 중국어, 일본어, 한국어(한글) 텍스트까지 모두 올바르게 토큰화하여 쪼개줍니다. 단, 중국어나 일본어의 경우 단어와 단어 사이에 띄어쓰기(공백)를 사용하지 않으므로 이어져 있는 CJK 문자열 전체를 하나의 커다란 '토큰'으로 취급하는 한계가 있습니다. 해당 언어들에서 완벽한 단어 단위 형태소 분리를 원하신다면 jieba(중국어)나 MeCab(일본어) 같은 각 언어 전용 단어 세그멘테이션 도구를 활용하셔야 합니다.
입력할 수 있는 텍스트 크기의 상한선은 얼마인가요?
1회 실행당 최대 200,000자까지 수용할 수 있습니다. 이는 영어 기준으로 약 30,000 단어 안팎에 해당하며, 일반적인 소설의 한 장 전체나 긴 블로그 포스트 여러 개를 한데 묶은 분량입니다. 이 크기를 초과하면 브라우저의 메모리 부하 및 요청 페이로드 용량 문제가 발생할 수 있으므로, 더 긴 문서의 경우 분량을 적절히 나누어 여러 번 나누어 분석해 주시기 바랍니다.
내가 붙여넣은 텍스트의 프라이버시는 보장되나요?
네, 완벽하게 보장됩니다. 입력하신 텍스트는 결과 페이지를 그려내기 위해 오직 메모리 상에서만 일시적으로 처리되며, 디스크 상의 어떤 파일이나 데이터베이스에도 절대 기록되지 않습니다. 글을 타이핑하는 동안 우측에 나타나는 실시간 미니 통계 기능 역시 전적으로 귀하의 로컬 브라우저 내부에서만 독립적으로 실행됩니다. 저희는 사용자가 붙여넣은 어떠한 콘텐츠도 로깅, 저장, 또는 별도로 분석하지 않습니다.
단어 빈도 분석의 짧은 역사
단어 빈도 목록은 언어학 역사에서 가장 유서 깊은 도구 중 하나입니다. 인류 최초로 기계를 통해 자동 생성된 영어 빈도 목록은 로베르토 부사(Roberto Busa) 신부가 1949년부터 1980년에 걸쳐 완성한 Index Thomisticus입니다. 그는 IBM의 천공카드 시스템을 활용하여 토마스 아퀴나스의 방대한 저작에 사용된 모든 단어들을 하나하나 카운트하였으며, 이는 오늘날 디지털 인문학(Digital Humanities)의 시초를 연 전설적인 프로젝트로 평가받고 있습니다. 이후 1961년에 탄생한 브라운 말뭉치(Brown Corpus)는 현대 미국 영어에서 체계적으로 샘플링된 최초의 100만 단어급 빈도 목록을 세상에 제공해 주었습니다. 오늘날 우리가 매일 사용하는 모든 검색엔진, 기계번역 시스템, 거대 언어 모델(LLM), 그리고 SEO 마케팅 도구들 역시 모두 거대한 규모의 단어 및 토큰 빈도 통계 인프라 위에서 작동하고 있습니다. 지금 이 도구 안에서 보시는 단순한 카운터 기반의 순위 매기기 알고리즘이 바로 이 거대한 첨단 언어학 분야의 가장 위대한 씨앗입니다.
이 콘텐츠, 페이지 또는 도구를 다음과 같이 인용하세요:
"단어 빈도 분석기" - https://MiniWebtool.com/ko//에서 MiniWebtool 인용, https://MiniWebtool.com/
by miniwebtool team. 업데이트 날짜: 2026년 5월 27일