Bộ Phân Tích Tần Suất Từ
Dán bất kỳ đoạn văn bản nào và xem ngay những từ nào xuất hiện thường xuyên nhất. Nhận bảng tần suất được xếp hạng, biểu đồ cột động, đám mây từ ngữ tương tác, điểm đa dạng từ vựng và bộ lọc từ dừng tùy chọn trên 6 ngôn ngữ. Xuất kết quả dưới dạng CSV.
Trình chặn quảng cáo đang ngăn chúng tôi hiển thị quảng cáo
MiniWebtool miễn phí nhờ quảng cáo. Nếu công cụ này hữu ích, hãy ủng hộ bằng Premium (không quảng cáo + nhanh hơn) hoặc cho phép MiniWebtool.com rồi tải lại trang.
- Hoặc nâng cấp Premium (không quảng cáo)
- Cho phép quảng cáo cho MiniWebtool.com, rồi tải lại
Giới thiệu về Bộ Phân Tích Tần Suất Từ
Bộ Phân Tích Tần Suất Từ trả lời một câu hỏi đơn giản nhưng có chiều sâu đáng ngạc nhiên: những từ nào thực sự được văn bản này sử dụng nhiều nhất? Hãy dán bất kỳ đoạn văn xuôi nào — một bài đăng blog, một bản ghi âm, một chương sách, một bản mô tả công việc, một bài phát biểu — và nó sẽ xếp hạng từng từ riêng biệt dựa trên tần suất xuất hiện, lập biểu đồ phân phối và hiển thị một đám mây từ tương tác có kích thước theo tần suất. Công cụ này được xây dựng dành cho các nhà văn muốn kiểm tra việc lặp từ vô ý, các chuyên gia SEO đang tìm kiếm mật độ từ khóa tự nhiên, học sinh nghiên cứu từ vựng của một tác giả, nhà nghiên cứu thực hiện kiểm tra nhanh tính đa dạng từ vựng, và các dịch giả hoặc nhà ngôn ngữ học đang khám phá một văn bản xa lạ. Mọi thứ đều chạy trong trình duyệt của bạn hoặc trên máy chủ của chúng tôi và không bao giờ được lưu trữ.
Điều gì làm cho bộ phân tích này trở nên khác biệt
- Xem trước trực tiếp khi bạn nhập. Bảng bên cạnh cập nhật số lượng từ duy nhất, tổng số từ, TTR (đa dạng từ vựng) và top 5 trực tiếp ngay lập tức — không cần nhấp vào Phân tích. Bạn có thể thử nghiệm các bộ lọc chỉ trong vài giây.
- Danh sách từ dừng cho sáu ngôn ngữ. Tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Ý và tiếng Bồ Đào Nha — các danh sách được tinh lọc cẩn thận, không phải là những kho dữ liệu cồng kềnh hỗn tạp. Thêm vào đó là trường từ dừng tùy chỉnh tự do cho tên nhân vật, tên thương hiệu hoặc các văn bản khuôn mẫu.
- Đám mây từ theo tỷ lệ căn bậc hai. Hầu hết các trình tạo đám mây đều định kích thước từ theo số lượng thô, điều đó có nghĩa là từ đứng đầu có thể cao gấp 50 lần so với các từ ở thứ hạng trung bình và chèn ép đám mây về mặt trực quan. Tỷ lệ căn bậc hai giúp đám mây từ luôn dễ đọc và là phương pháp tiêu chuẩn ngành kể từ Wordle (2009).
- Chế độ xem "bục vinh quang" top-3. Chỉ cần nhìn lướt qua các thẻ vàng/bạc/đồng là bạn biết được những từ mà văn bản của bạn phụ thuộc nhiều nhất — điều đầu tiên cần kiểm tra khi bạn nghi ngờ có sự lặp từ vô ý.
- Các chỉ số đo lường độ dạng từ vựng. Tỷ lệ Type-Token Ratio và số lượng hapax-legomena mang đến cho bạn điểm số về độ phong phú, chứ không chỉ là một bảng thống kê tần suất thô. Văn xuôi ngắn với TTR > 0.6 là phong phú; một TTR dưới 0.2 trong một tài liệu dài cho thấy sự lặp đi lặp lại.
- Xuất CSV bằng một cú nhấp chuột. Tải xuống hoặc sao chép toàn bộ bảng xếp hạng để phân tích bằng bảng tính.
Cách sử dụng công cụ này
- Dán văn bản của bạn. Tối đa 200,000 ký tự — khoảng 30,000 từ, tương đương với chiều dài của một chương tiểu thuyết dài hoặc vài bài đăng blog cộng lại.
- Chọn một ngôn ngữ từ dừng. Nếu bạn không lọc từ dừng, phần đầu của bảng sẽ là các từ như "the", "of", "and" — chỉ mang lại thông tin một lần, sau đó không còn hữu ích nữa. Hãy chọn ngôn ngữ của văn bản, hoặc chọn None để có một kết quả đếm tần suất thô thực tế.
- Đặt độ dài từ tối thiểu. Đặt thành 3 hoặc 4 nếu bạn muốn bỏ qua các từ như "a", "I", "it", "no". Đặt thành 1 để giữ lại mọi thứ.
- Chọn số lượng kết quả hiển thị. Top 50 là con số lý tưởng cho hầu hết các văn bản xuôi; Top 500 cung cả phần đuôi dài đầy đủ.
- Các tùy chọn chuyển đổi bổ sung. Bật phân biệt chữ hoa-chữ thường nếu bạn quan tâm đến sự khác biệt giữa "Paris" và "paris". Bật giảm cấp từ cơ bản để gộp các từ như "runs", "ran" và "running" thành "run". Bật đếm cả số nếu các số phiên bản, năm và số liệu thống kê có ý nghĩa quan trọng trong văn bản của bạn.
- Nhấp vào Phân tích. Đọc bục vinh quang, quét bảng biểu đồ thanh, nhìn lướt qua đám mây từ và xuất CSV nếu bạn muốn tìm hiểu sâu hơn.
Toán học đằng sau các chỉ số
Tần suất và tỷ lệ phần trăm
Đối với mỗi từ riêng biệt \( w \), số lần xuất hiện là số lần nó xuất hiện trong danh sách token được giữ lại, và tỷ lệ phần trăm là \( \text{count}(w) / N \), trong đó \( N \) là tổng số token được giữ lại. Chiều rộng thanh tỷ lệ thuận với từ phổ biến nhất để bạn có thể thấy hình dạng của sự phân phối chỉ trong một cái nhìn thoáng qua.
Tỷ lệ Type-Token Ratio (TTR)
\( \text{TTR} = U / N \) trong đó \( U \) là số từ duy nhất (types) và \( N \) là tổng số token được đếm. TTR là thước đo đơn giản nhất cho sự đa dạng từ vựng. Một bản tin ngắn thường ở mức 0.5–0.7; một cuốn tiểu thuyết dài giảm xuống còn 0.15–0.25 vì các từ phổ biến liên tục lặp lại. TTR rất nhạy cảm với độ dài — các văn bản dài luôn có TTR thấp hơn văn bản ngắn, vì vậy không nên so sánh TTR giữa các tài liệu có kích thước quá khác biệt nhau.
Hapax legomena
Một hapax legomenon (tiếng Hy Lạp có nghĩa là "nói một lần") là một từ chỉ xuất hiện đúng một lần trong văn bản. Số lượng hapax và tỷ lệ phần trăm hapax là những tín hiệu cổ điển cho sự phong phú của từ vựng. Trong toàn bộ tác phẩm của Shakespeare, có khoảng 14,000 từ trong tổng số 31,000 từ riêng biệt của ông là hapax — chiếm khoảng 45%. Một bài đăng blog hiện đại thường đạt 60% hoặc hơn thế vì không có đủ văn bản để các từ lặp lại nhiều lần.
Định kích thước phông chữ đám mây từ
Kích thước phông chữ cho từ \( w \) trong đám mây sử dụng tỷ lệ căn bậc hai giữa số lượng tối thiểu và tối đa hiển thị:
\( \text{size}(w) = 60\% + 180\% \cdot \dfrac{\sqrt{\text{count}(w)} - \sqrt{\text{min}}}{\sqrt{\text{max}} - \sqrt{\text{min}}} \)
Công thức này nén phạm vi động để một từ xuất hiện 200 lần có chiều cao chỉ gấp khoảng 3 lần so với từ xuất hiện 20 lần, chứ không phải gấp 10 lần. Không có sự nén này, đám mây từ sẽ bị thống trị bởi một hoặc hai từ khổng lồ.
Các tầng tần suất được mã hóa bằng màu sắc
Các thanh và từ trong đám mây được mã hóa màu theo tầng thứ hạng để bạn có thể nhận biết hình dạng phân phối của mình ngay lập tức:
Trường hợp sử dụng
Nhà văn — phát hiện sự lặp từ vô ý
Bạn sẽ ngạc nhiên khi thấy một từ đơn lẻ ("nhanh chóng", "thực sự", "về cơ bản", tên một nhân vật) lẻn lên đầu bản nháp của mình thường xuyên như thế nào. Hãy dán một chương và nhìn vào bục vàng-bạc-đồng. Nếu một từ mang nội dung xuất hiện ở đó mà bạn không có ý định nhấn mạnh một cách có ý thức, bạn đã có một thói quen lặp từ cần chỉnh sửa.
SEO và tiếp thị nội dung
Đặt bộ lọc từ dừng và độ dài tối thiểu, sau đó đọc top 25 từ hàng đầu. Đây là những từ mà các công cụ tìm kiếm sẽ liên kết mạnh mẽ nhất với trang của bạn. Nếu chúng không khớp với nhóm từ khóa mục tiêu của bạn, hiệu quả SEO trên trang sẽ kém đi. Tránh nhồi nhét từ khóa — các thuật toán hiện đại sẽ phạt mật độ không tự nhiên. Mức mục tiêu lành mạnh là khoảng 1–2% cho từ khóa chính của bạn.
Nghiên cứu văn học và phong cách học
Dán một chương của Dickens so với Hemingway và so sánh TTR, tỷ lệ phần trăm hapax và độ dài từ trung bình. Dấu vân tay kỹ thuật số của các phong cách tác giả là vô cùng nhất quán trong các khối tác phẩm của họ — đây là nền tảng của ngành phong cách học máy tính.
Phân tích bài phát biểu và bản ghi âm
Các chính trị gia và CEO luôn có những từ yêu thích. Chạy một bài phát biểu qua bộ phân tích với các từ dừng đã được loại bỏ và top 15 từ hàng đầu sẽ tiết lộ chiến lược thông điệp. So sánh hai bài phát biểu của cùng một người để xem những gì đã thay đổi.
Dịch thuật và học ngôn ngữ
Khi thực hiện một bản dịch, hãy chạy văn bản gốc trước để xem những từ nội dung nào chiếm ưu thế. Đảm bảo bản dịch của bạn vẫn giữ nguyên sự nhấn mạnh đó. Đối với người học, việc chọn một bài báo 200 từ và chạy nó mà không lọc từ dừng sẽ hiển thị những từ chức năng nào bạn cần nhận biết một cách trôi chảy.
Nghiên cứu và viết học thuật
Nhiều tạp chí yêu cầu vốn từ vựng được kiểm soát trong các bản tóm tắt. Kiểm tra tần suất trước khi gửi giúp phát hiện việc lạm dụng thuật ngữ chuyên môn vô ý. Các nhà nghiên cứu thực hiện các nghiên cứu ngôn ngữ học kho ngữ liệu sử dụng danh sách tần suất làm đầu vào bắt đầu cho các công việc mô hình hóa chủ đề, n-gram và cụm từ kết hợp — công cụ này tạo ra đầu vào đó.
Cài đặt khuyên dùng theo loại tài liệu
| Tài liệu | Từ dừng | Độ dài tối thiểu | Top N | Giảm cấp từ |
|---|---|---|---|---|
| Bài đăng blog / bài báo | Tiếng Anh (hoặc ngôn ngữ của bạn) | 3 | 50 | Tắt |
| Chương tiểu thuyết | Tiếng Anh | 3 | 100 | Bật (gộp \"runs\"/\"ran\"/\"running\") |
| Bài báo học thuật | Tiếng Anh | 4 | 100 | Bật |
| Chuỗi Tweet / bài đăng ngắn | None | 1 | 25 | Tắt |
| Nghiên cứu SEO | Tiếng Anh | 3 | 50 | Bật |
| Bản ghi bài phát biểu | Tiếng Anh | 3 | 25 | Tắt (bạn cần cách diễn đạt chính xác) |
| Văn bản tiếng nước ngoài | Khớp với ngôn ngữ | 1 | 50 | Tắt (bộ giảm cấp từ chỉ hỗ trợ tiếng Anh) |
Câu hỏi thường gặp
Cái gì được tính là một "từ"?
Bộ phân tách token khớp với một hoặc nhiều chữ cái Unicode, có thể được nối với nhau bằng dấu nháy đơn hoặc dấu gạch ngang. Vì vậy don't, state-of-the-art, và l'ovvio mỗi từ đều là một từ đơn lẻ. Các chữ số được loại trừ theo mặc định — hãy bật "Đếm cả số" nếu bạn muốn bao gồm chúng. Bộ phân tách token hoạt động trên các chữ viết Latin, Cyrillic, Hy Lạp và CJK.
Bộ giảm cấp từ cơ bản làm được gì và không làm được gì?
Nó thực hiện ba chuyển đổi gọn nhẹ: loại bỏ sở hữu cách 's, thu gọn các đuôi động từ phổ biến (-ing, -ed) và các dạng số nhiều đơn giản (-s, -es, -ies → -y). Nó không thực hiện giảm cấp từ hình thái đầy đủ (better → good, went → go). Việc giảm cấp từ đầy đủ sẽ yêu cầu cung cấp từ điển WordNet và là quá mức cần thiết cho việc phân tích tần suất, nơi các hình thái từ chính xác thường là những gì bạn muốn xem. Phương pháp tiếp cận cẩn trọng này cũng giúp tránh lỗi nghiêm trọng nhất của bộ tách gốc từ: gộp các từ có ngữ nghĩa hoàn toàn khác nhau ("university" và "universe" có chung một gốc từ theo thuật toán Porter).
Tại sao bản xem trước trực tiếp và kết quả từ máy chủ lại khác nhau một chút?
Bản xem trước trực tiếp chỉ lọc các từ dừng tiếng Anh ở phía client để giữ cho đoạn mã nhỏ gọn — các ngôn ngữ khác được lọc hoàn toàn trên máy chủ. Máy chủ cũng áp dụng giảm cấp từ cơ bản khi được bật. Tổng số lượng token luôn giống nhau giữa cả hai bên.
Công cụ có xử lý được các hệ chữ viết không phải Latin không?
Có — bộ phân tách token sử dụng các phân lớp ký tự Unicode, vì vậy các văn bản tiếng Cyrillic, Hy Lạp, Ả Rập, Do Thái, Trung Quốc, Nhật Bản và Hàn Quốc đều được phân tách token chính xác. Tiếng Trung và tiếng Nhật không sử dụng khoảng trắng giữa các từ, vì vậy mỗi chuỗi ký tự CJK liên tục được coi là một "token" duy nhất — để phân đoạn từ thực sự trong các ngôn ngữ đó, bạn sẽ cần một bộ tách từ chuyên dụng như jieba (tiếng Trung) hoặc MeCab (tiếng Nhật).
Giới hạn tối đa cho kích thước văn bản là bao nhiêu?
200,000 ký tự cho mỗi lần chạy — khoảng 30,000 từ tiếng Anh hoặc một chương tiểu thuyết điển hình. Vượt quá mức đó, bộ nhớ trình duyệt và kích thước yêu cầu sẽ trở thành một vấn đề đáng ngại; hãy chia nhỏ văn bản của bạn thành các phần nhỏ hơn.
Văn bản của tôi có được bảo mật riêng tư không?
Có. Văn bản được xử lý trong bộ nhớ để hiển thị trang kết quả và không bao giờ được ghi vào đĩa. Các số liệu thống kê nhỏ trực tiếp trong khi bạn nhập chạy hoàn toàn trong trình duyệt của bạn. Chúng tôi không ghi nhật ký, lưu trữ hoặc phân tích nội dung bạn dán.
Sơ lược lịch sử về phân tích tần suất từ
Danh sách tần suất từ là một trong những công cụ lâu đời nhất trong ngành ngôn ngữ học. Danh sách tần suất đầu tiên được tạo ra bằng máy của tiếng Anh là tác phẩm Index Thomisticus (1949–1980) của Linh mục Roberto Busa, tác phẩm đã đếm từng từ trong các công trình của Thomas Aquinas bằng máy đục lỗ IBM — được coi là dự án sáng lập của ngành nhân văn kỹ thuật số. Brown Corpus (1961) đã cung cấp danh sách tần suất một triệu từ được lấy mẫu có hệ thống đầu tiên của tiếng Mỹ hiện đại. Ngày nay, mọi công cụ tìm kiếm, hệ thống dịch máy, mô hình ngôn ngữ lớn và công cụ SEO đều chạy trên các số liệu thống kê tần suất từ và token ở quy mô lớn. Chính bảng xếp hạng dựa trên bộ đếm Counter đơn giản mà bạn thấy trong công cụ này là hạt nhân của lĩnh vực đó.
Tham khảo nội dung, trang hoặc công cụ này như sau:
"Bộ Phân Tích Tần Suất Từ" tại https://MiniWebtool.com/vi// từ MiniWebtool, https://MiniWebtool.com/
bởi đội ngũ MiniWebtool. Cập nhật: Ngày 27 tháng 5 năm 2026