Công cụ này làm gì?

Nó đọc bất kỳ đoạn văn bản nào, đếm từng từ riêng biệt và xếp hạng chúng từ thường xuyên nhất đến ít thường xuyên nhất. Bạn sẽ thấy bảng xếp hạng, biểu đồ thanh động có kích thước theo từ đứng đầu, đám mây từ với kích thước phông chữ theo tỷ lệ căn bậc hai và số liệu thống kê về tính đa dạng từ vựng. Bạn có thể tải xuống kết quả dưới dạng CSV.

Tại sao phải lọc từ dừng?

Trong tiếng Anh, 5 từ hàng đầu ('the', 'of', 'and', 'a', 'to') làm lu mờ mọi thứ thực sự mang ý nghĩa. Danh sách từ dừng sẽ loại bỏ các từ chức năng có tần suất cao này để báo cáo hiển thị những từ mà văn bản của bạn thực sự nói về. Chúng tôi cung cấp các danh sách được tuyển chọn cho tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Ý và tiếng Bồ Đào Nha, và bạn có thể thêm các từ dừng tùy chỉnh như tên nhân vật hoặc thương hiệu sản phẩm.

Tỷ lệ Type-Token Ratio là gì?

Tỷ lệ Type-Token Ratio (TTR) = số từ duy nhất / tổng số từ. Đây là một thước đo cổ điển về sự đa dạng từ vựng. Một bài báo tin tức ngắn thường ở mức khoảng 0.5-0.7, một cuốn tiểu thuyết dài thường giảm xuống 0.1-0.2 vì các từ phổ biến lặp đi lặp lại. TTR cao hơn có nghĩa là vốn từ vựng phong phú hơn ở cấp độ bạn đã phân tích.

Hapax legomena là gì?

Những từ chỉ xuất hiện đúng một lần. Chúng là một dấu hiệu mạnh mẽ cho thấy sự phong phú của từ vựng. Trong toàn bộ tác phẩm của Shakespeare, khoảng 14,000 trong số 31,000 từ riêng biệt của ông là hapax. Tỷ lệ phần trăm hapax cao có nghĩa là có nhiều ý tưởng độc nhất; tỷ lệ phần trăm thấp có nghĩa là sử dụng lại nhiều một vốn từ vựng nhỏ.

Tại sao đám mây từ được định kích thước theo căn bậc hai chứ không phải theo số lượng?

Nếu từ đứng đầu xuất hiện 200 lần và từ tiếp theo xuất hiện 20 lần, việc định kích thước tuyến tính làm cho từ đứng đầu có chiều cao gấp 10 lần — nó sẽ chèn ép đám mây về mặt trực quan và bạn không thể đọc được bất kỳ từ nào khác. Tỷ lệ căn bậc hai nén sự khác biệt xuống còn khoảng 3 lần để đám mây từ vẫn dễ đọc trong khi vẫn nhấn mạnh các từ thống trị. Đây là cách các công cụ đám mây từ nghiêm túc luôn hoạt động.

Bộ phân tích có lưu giữ văn bản của tôi không?

Không. Văn bản của bạn được xử lý trong bộ nhớ để hiển thị trang này và không bao giờ được ghi vào đĩa. Số liệu thống kê nhỏ trực tiếp khi bạn nhập chạy hoàn toàn trong trình duyệt của bạn. Không có hoạt động theo dõi của bên thứ ba đối với nội dung bạn dán.

Bộ Phân Tích Tần Suất Từ

Dán bất kỳ đoạn văn bản nào và xem ngay những từ nào xuất hiện thường xuyên nhất. Nhận bảng tần suất được xếp hạng, biểu đồ cột động, đám mây từ ngữ tương tác, điểm đa dạng từ vựng và bộ lọc từ dừng tùy chọn trên 6 ngôn ngữ. Xuất kết quả dưới dạng CSV.

📚 Thử một ví dụ

Văn bản của bạn Dán bất kỳ đoạn văn xuôi nào — một bài báo, bài luận, bản ghi âm, hoặc thậm chí là cả một chương tiểu thuyết. Tối đa 200,000 ký tự cho mỗi lần chạy.

Danh sách từ dừng

Độ dài từ tối thiểu

Hiển thị top

Các từ dừng tùy chỉnh (tùy chọn) Thêm tên nhân vật, tên thương hiệu hoặc bất kỳ từ nào bạn muốn lọc bỏ — phân tách bằng dấu phẩy hoặc khoảng trắng.

Phân biệt chữ hoa-chữ thường Giảm cấp từ cơ bản (runs → run) Đếm cả số

Embed Bộ Phân Tích Tần Suất Từ Widget

Giới thiệu về Bộ Phân Tích Tần Suất Từ

Bộ Phân Tích Tần Suất Từ trả lời một câu hỏi đơn giản nhưng có chiều sâu đáng ngạc nhiên: những từ nào thực sự được văn bản này sử dụng nhiều nhất? Hãy dán bất kỳ đoạn văn xuôi nào — một bài đăng blog, một bản ghi âm, một chương sách, một bản mô tả công việc, một bài phát biểu — và nó sẽ xếp hạng từng từ riêng biệt dựa trên tần suất xuất hiện, lập biểu đồ phân phối và hiển thị một đám mây từ tương tác có kích thước theo tần suất. Công cụ này được xây dựng dành cho các nhà văn muốn kiểm tra việc lặp từ vô ý, các chuyên gia SEO đang tìm kiếm mật độ từ khóa tự nhiên, học sinh nghiên cứu từ vựng của một tác giả, nhà nghiên cứu thực hiện kiểm tra nhanh tính đa dạng từ vựng, và các dịch giả hoặc nhà ngôn ngữ học đang khám phá một văn bản xa lạ. Mọi thứ đều chạy trong trình duyệt của bạn hoặc trên máy chủ của chúng tôi và không bao giờ được lưu trữ.

Điều gì làm cho bộ phân tích này trở nên khác biệt

Xem trước trực tiếp khi bạn nhập. Bảng bên cạnh cập nhật số lượng từ duy nhất, tổng số từ, TTR (đa dạng từ vựng) và top 5 trực tiếp ngay lập tức — không cần nhấp vào Phân tích. Bạn có thể thử nghiệm các bộ lọc chỉ trong vài giây.
Danh sách từ dừng cho sáu ngôn ngữ. Tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Ý và tiếng Bồ Đào Nha — các danh sách được tinh lọc cẩn thận, không phải là những kho dữ liệu cồng kềnh hỗn tạp. Thêm vào đó là trường từ dừng tùy chỉnh tự do cho tên nhân vật, tên thương hiệu hoặc các văn bản khuôn mẫu.
Đám mây từ theo tỷ lệ căn bậc hai. Hầu hết các trình tạo đám mây đều định kích thước từ theo số lượng thô, điều đó có nghĩa là từ đứng đầu có thể cao gấp 50 lần so với các từ ở thứ hạng trung bình và chèn ép đám mây về mặt trực quan. Tỷ lệ căn bậc hai giúp đám mây từ luôn dễ đọc và là phương pháp tiêu chuẩn ngành kể từ Wordle (2009).
Chế độ xem "bục vinh quang" top-3. Chỉ cần nhìn lướt qua các thẻ vàng/bạc/đồng là bạn biết được những từ mà văn bản của bạn phụ thuộc nhiều nhất — điều đầu tiên cần kiểm tra khi bạn nghi ngờ có sự lặp từ vô ý.
Các chỉ số đo lường độ dạng từ vựng. Tỷ lệ Type-Token Ratio và số lượng hapax-legomena mang đến cho bạn điểm số về độ phong phú, chứ không chỉ là một bảng thống kê tần suất thô. Văn xuôi ngắn với TTR > 0.6 là phong phú; một TTR dưới 0.2 trong một tài liệu dài cho thấy sự lặp đi lặp lại.
Xuất CSV bằng một cú nhấp chuột. Tải xuống hoặc sao chép toàn bộ bảng xếp hạng để phân tích bằng bảng tính.

Cách sử dụng công cụ này

Dán văn bản của bạn. Tối đa 200,000 ký tự — khoảng 30,000 từ, tương đương với chiều dài của một chương tiểu thuyết dài hoặc vài bài đăng blog cộng lại.
Chọn một ngôn ngữ từ dừng. Nếu bạn không lọc từ dừng, phần đầu của bảng sẽ là các từ như "the", "of", "and" — chỉ mang lại thông tin một lần, sau đó không còn hữu ích nữa. Hãy chọn ngôn ngữ của văn bản, hoặc chọn None để có một kết quả đếm tần suất thô thực tế.
Đặt độ dài từ tối thiểu. Đặt thành 3 hoặc 4 nếu bạn muốn bỏ qua các từ như "a", "I", "it", "no". Đặt thành 1 để giữ lại mọi thứ.
Chọn số lượng kết quả hiển thị. Top 50 là con số lý tưởng cho hầu hết các văn bản xuôi; Top 500 cung cả phần đuôi dài đầy đủ.
Các tùy chọn chuyển đổi bổ sung. Bật phân biệt chữ hoa-chữ thường nếu bạn quan tâm đến sự khác biệt giữa "Paris" và "paris". Bật giảm cấp từ cơ bản để gộp các từ như "runs", "ran" và "running" thành "run". Bật đếm cả số nếu các số phiên bản, năm và số liệu thống kê có ý nghĩa quan trọng trong văn bản của bạn.
Nhấp vào Phân tích. Đọc bục vinh quang, quét bảng biểu đồ thanh, nhìn lướt qua đám mây từ và xuất CSV nếu bạn muốn tìm hiểu sâu hơn.

Toán học đằng sau các chỉ số

Tần suất và tỷ lệ phần trăm

Đối với mỗi từ riêng biệt \( w \), số lần xuất hiện là số lần nó xuất hiện trong danh sách token được giữ lại, và tỷ lệ phần trăm là \( \text{count}(w) / N \), trong đó \( N \) là tổng số token được giữ lại. Chiều rộng thanh tỷ lệ thuận với từ phổ biến nhất để bạn có thể thấy hình dạng của sự phân phối chỉ trong một cái nhìn thoáng qua.

Tỷ lệ Type-Token Ratio (TTR)

\( \text{TTR} = U / N \) trong đó \( U \) là số từ duy nhất (types) và \( N \) là tổng số token được đếm. TTR là thước đo đơn giản nhất cho sự đa dạng từ vựng. Một bản tin ngắn thường ở mức 0.5–0.7; một cuốn tiểu thuyết dài giảm xuống còn 0.15–0.25 vì các từ phổ biến liên tục lặp lại. TTR rất nhạy cảm với độ dài — các văn bản dài luôn có TTR thấp hơn văn bản ngắn, vì vậy không nên so sánh TTR giữa các tài liệu có kích thước quá khác biệt nhau.

Hapax legomena

Một hapax legomenon (tiếng Hy Lạp có nghĩa là "nói một lần") là một từ chỉ xuất hiện đúng một lần trong văn bản. Số lượng hapax và tỷ lệ phần trăm hapax là những tín hiệu cổ điển cho sự phong phú của từ vựng. Trong toàn bộ tác phẩm của Shakespeare, có khoảng 14,000 từ trong tổng số 31,000 từ riêng biệt của ông là hapax — chiếm khoảng 45%. Một bài đăng blog hiện đại thường đạt 60% hoặc hơn thế vì không có đủ văn bản để các từ lặp lại nhiều lần.

Định kích thước phông chữ đám mây từ

Kích thước phông chữ cho từ \( w \) trong đám mây sử dụng tỷ lệ căn bậc hai giữa số lượng tối thiểu và tối đa hiển thị:

\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)

Công thức này nén phạm vi động để một từ xuất hiện 200 lần có chiều cao chỉ gấp khoảng 3 lần so với từ xuất hiện 20 lần, chứ không phải gấp 10 lần. Không có sự nén này, đám mây từ sẽ bị thống trị bởi một hoặc hai từ khổng lồ.

Các tầng tần suất được mã hóa bằng màu sắc

Các thanh và từ trong đám mây được mã hóa màu theo tầng thứ hạng để bạn có thể nhận biết hình dạng phân phối của mình ngay lập tức:

Tầng 1 — hạng 1–55 từ mà văn bản của bạn phụ thuộc nhiều nhất. Nếu một từ mang nội dung rơi vào đây, đó chính là chủ đề của bạn.

Tầng 2 — hạng 6–15Nhóm hỗ trợ. Các danh từ và động từ lặp lại mà bạn sử dụng để phát triển ý tưởng chính.

Tầng 3 — hạng 16–40Vốn từ vựng rộng hơn xung quanh các chủ đề hàng đầu của bạn.

Tầng 4 — hạng 41–100Các thuật ngữ chuyên ngành hoặc cụ thể — danh từ riêng, thuật ngữ chuyên môn, thực thể có tên.

Tầng 5 — hạng 101+Phần đuôi dài. Các từ chỉ được sử dụng một hoặc hai lần. Thường là nơi chứa những từ vựng thú vị nhất.

Trường hợp sử dụng

Nhà văn — phát hiện sự lặp từ vô ý

Bạn sẽ ngạc nhiên khi thấy một từ đơn lẻ ("nhanh chóng", "thực sự", "về cơ bản", tên một nhân vật) lẻn lên đầu bản nháp của mình thường xuyên như thế nào. Hãy dán một chương và nhìn vào bục vàng-bạc-đồng. Nếu một từ mang nội dung xuất hiện ở đó mà bạn không có ý định nhấn mạnh một cách có ý thức, bạn đã có một thói quen lặp từ cần chỉnh sửa.

SEO và tiếp thị nội dung

Đặt bộ lọc từ dừng và độ dài tối thiểu, sau đó đọc top 25 từ hàng đầu. Đây là những từ mà các công cụ tìm kiếm sẽ liên kết mạnh mẽ nhất với trang của bạn. Nếu chúng không khớp với nhóm từ khóa mục tiêu của bạn, hiệu quả SEO trên trang sẽ kém đi. Tránh nhồi nhét từ khóa — các thuật toán hiện đại sẽ phạt mật độ không tự nhiên. Mức mục tiêu lành mạnh là khoảng 1–2% cho từ khóa chính của bạn.

Nghiên cứu văn học và phong cách học

Dán một chương của Dickens so với Hemingway và so sánh TTR, tỷ lệ phần trăm hapax và độ dài từ trung bình. Dấu vân tay kỹ thuật số của các phong cách tác giả là vô cùng nhất quán trong các khối tác phẩm của họ — đây là nền tảng của ngành phong cách học máy tính.

Phân tích bài phát biểu và bản ghi âm

Các chính trị gia và CEO luôn có những từ yêu thích. Chạy một bài phát biểu qua bộ phân tích với các từ dừng đã được loại bỏ và top 15 từ hàng đầu sẽ tiết lộ chiến lược thông điệp. So sánh hai bài phát biểu của cùng một người để xem những gì đã thay đổi.

Dịch thuật và học ngôn ngữ

Khi thực hiện một bản dịch, hãy chạy văn bản gốc trước để xem những từ nội dung nào chiếm ưu thế. Đảm bảo bản dịch của bạn vẫn giữ nguyên sự nhấn mạnh đó. Đối với người học, việc chọn một bài báo 200 từ và chạy nó mà không lọc từ dừng sẽ hiển thị những từ chức năng nào bạn cần nhận biết một cách trôi chảy.

Nghiên cứu và viết học thuật

Nhiều tạp chí yêu cầu vốn từ vựng được kiểm soát trong các bản tóm tắt. Kiểm tra tần suất trước khi gửi giúp phát hiện việc lạm dụng thuật ngữ chuyên môn vô ý. Các nhà nghiên cứu thực hiện các nghiên cứu ngôn ngữ học kho ngữ liệu sử dụng danh sách tần suất làm đầu vào bắt đầu cho các công việc mô hình hóa chủ đề, n-gram và cụm từ kết hợp — công cụ này tạo ra đầu vào đó.

Cài đặt khuyên dùng theo loại tài liệu

Tài liệu	Từ dừng	Độ dài tối thiểu	Top N	Giảm cấp từ
Bài đăng blog / bài báo	Tiếng Anh (hoặc ngôn ngữ của bạn)	3	50	Tắt
Chương tiểu thuyết	Tiếng Anh	3	100	Bật (gộp \"runs\"/\"ran\"/\"running\")
Bài báo học thuật	Tiếng Anh	4	100	Bật
Chuỗi Tweet / bài đăng ngắn	None	1	25	Tắt
Nghiên cứu SEO	Tiếng Anh	3	50	Bật
Bản ghi bài phát biểu	Tiếng Anh	3	25	Tắt (bạn cần cách diễn đạt chính xác)
Văn bản tiếng nước ngoài	Khớp với ngôn ngữ	1	50	Tắt (bộ giảm cấp từ chỉ hỗ trợ tiếng Anh)

Câu hỏi thường gặp

Cái gì được tính là một "từ"?

Bộ phân tách token khớp với một hoặc nhiều chữ cái Unicode, có thể được nối với nhau bằng dấu nháy đơn hoặc dấu gạch ngang. Vì vậy don't, state-of-the-art, và l'ovvio mỗi từ đều là một từ đơn lẻ. Các chữ số được loại trừ theo mặc định — hãy bật "Đếm cả số" nếu bạn muốn bao gồm chúng. Bộ phân tách token hoạt động trên các chữ viết Latin, Cyrillic, Hy Lạp và CJK.

Bộ giảm cấp từ cơ bản làm được gì và không làm được gì?

Nó thực hiện ba chuyển đổi gọn nhẹ: loại bỏ sở hữu cách 's, thu gọn các đuôi động từ phổ biến (-ing, -ed) và các dạng số nhiều đơn giản (-s, -es, -ies → -y). Nó không thực hiện giảm cấp từ hình thái đầy đủ (better → good, went → go). Việc giảm cấp từ đầy đủ sẽ yêu cầu cung cấp từ điển WordNet và là quá mức cần thiết cho việc phân tích tần suất, nơi các hình thái từ chính xác thường là những gì bạn muốn xem. Phương pháp tiếp cận cẩn trọng này cũng giúp tránh lỗi nghiêm trọng nhất của bộ tách gốc từ: gộp các từ có ngữ nghĩa hoàn toàn khác nhau ("university" và "universe" có chung một gốc từ theo thuật toán Porter).

Tại sao bản xem trước trực tiếp và kết quả từ máy chủ lại khác nhau một chút?

Bản xem trước trực tiếp chỉ lọc các từ dừng tiếng Anh ở phía client để giữ cho đoạn mã nhỏ gọn — các ngôn ngữ khác được lọc hoàn toàn trên máy chủ. Máy chủ cũng áp dụng giảm cấp từ cơ bản khi được bật. Tổng số lượng token luôn giống nhau giữa cả hai bên.

Công cụ có xử lý được các hệ chữ viết không phải Latin không?

Có — bộ phân tách token sử dụng các phân lớp ký tự Unicode, vì vậy các văn bản tiếng Cyrillic, Hy Lạp, Ả Rập, Do Thái, Trung Quốc, Nhật Bản và Hàn Quốc đều được phân tách token chính xác. Tiếng Trung và tiếng Nhật không sử dụng khoảng trắng giữa các từ, vì vậy mỗi chuỗi ký tự CJK liên tục được coi là một "token" duy nhất — để phân đoạn từ thực sự trong các ngôn ngữ đó, bạn sẽ cần một bộ tách từ chuyên dụng như jieba (tiếng Trung) hoặc MeCab (tiếng Nhật).

Giới hạn tối đa cho kích thước văn bản là bao nhiêu?

200,000 ký tự cho mỗi lần chạy — khoảng 30,000 từ tiếng Anh hoặc một chương tiểu thuyết điển hình. Vượt quá mức đó, bộ nhớ trình duyệt và kích thước yêu cầu sẽ trở thành một vấn đề đáng ngại; hãy chia nhỏ văn bản của bạn thành các phần nhỏ hơn.

Văn bản của tôi có được bảo mật riêng tư không?

Có. Văn bản được xử lý trong bộ nhớ để hiển thị trang kết quả và không bao giờ được ghi vào đĩa. Các số liệu thống kê nhỏ trực tiếp trong khi bạn nhập chạy hoàn toàn trong trình duyệt của bạn. Chúng tôi không ghi nhật ký, lưu trữ hoặc phân tích nội dung bạn dán.

Sơ lược lịch sử về phân tích tần suất từ

Danh sách tần suất từ là một trong những công cụ lâu đời nhất trong ngành ngôn ngữ học. Danh sách tần suất đầu tiên được tạo ra bằng máy của tiếng Anh là tác phẩm Index Thomisticus (1949–1980) của Linh mục Roberto Busa, tác phẩm đã đếm từng từ trong các công trình của Thomas Aquinas bằng máy đục lỗ IBM — được coi là dự án sáng lập của ngành nhân văn kỹ thuật số. Brown Corpus (1961) đã cung cấp danh sách tần suất một triệu từ được lấy mẫu có hệ thống đầu tiên của tiếng Mỹ hiện đại. Ngày nay, mọi công cụ tìm kiếm, hệ thống dịch máy, mô hình ngôn ngữ lớn và công cụ SEO đều chạy trên các số liệu thống kê tần suất từ và token ở quy mô lớn. Chính bảng xếp hạng dựa trên bộ đếm Counter đơn giản mà bạn thấy trong công cụ này là hạt nhân của lĩnh vực đó.

Tham khảo nội dung, trang hoặc công cụ này như sau:

"Bộ Phân Tích Tần Suất Từ" tại https://MiniWebtool.com/vi/bo-phan-tich-tan-suat-tu/ từ MiniWebtool, https://MiniWebtool.com/

bởi đội ngũ MiniWebtool. Cập nhật: Ngày 27 tháng 5 năm 2026

Có API dành cho developer: Chạy công cụ này từ ứng dụng, tự động hóa hoặc agent của bạn bằng một yêu cầu HTTP JSON. Xem tài liệu API

Công cụ thống kê văn bản:

Bộ đếm ký tự
Lấy độ dài chuỗi
Công cụ đếm hàng Nổi bật
Máy tính điểm dễ đọc
Công cụ đếm từ
Công cụ Phân tích Tiêu đề Mới
Trình phát hiện nội dung AI Mới
Bộ Đếm Token AI Mới
Máy Đếm Âm Tiết Mới
Bộ Đếm Câu Mới
Đếm Đoạn Văn Mới
Máy Tính Thời Gian Nói Mới
Máy Tính Thời Gian Đọc Mới
Trình Chỉnh Sửa Khả Năng Đọc Kiểu Hemingway Mới
Trình phân tích phương sai độ dài câu Mới
Bộ Phân Tích Tần Suất Từ Mới

Bộ Phân Tích Tần Suất Từ

Giới thiệu về Bộ Phân Tích Tần Suất Từ

Điều gì làm cho bộ phân tích này trở nên khác biệt

Cách sử dụng công cụ này

Toán học đằng sau các chỉ số

Tần suất và tỷ lệ phần trăm

Tỷ lệ Type-Token Ratio (TTR)

Hapax legomena

Định kích thước phông chữ đám mây từ

Các tầng tần suất được mã hóa bằng màu sắc

Trường hợp sử dụng

Nhà văn — phát hiện sự lặp từ vô ý

SEO và tiếp thị nội dung

Nghiên cứu văn học và phong cách học

Phân tích bài phát biểu và bản ghi âm

Dịch thuật và học ngôn ngữ

Nghiên cứu và viết học thuật

Cài đặt khuyên dùng theo loại tài liệu

Câu hỏi thường gặp

Cái gì được tính là một "từ"?

Bộ giảm cấp từ cơ bản làm được gì và không làm được gì?

Tại sao bản xem trước trực tiếp và kết quả từ máy chủ lại khác nhau một chút?

Công cụ có xử lý được các hệ chữ viết không phải Latin không?

Giới hạn tối đa cho kích thước văn bản là bao nhiêu?

Văn bản của tôi có được bảo mật riêng tư không?

Sơ lược lịch sử về phân tích tần suất từ

Công cụ thống kê văn bản:

Công cụ nổi bật: