Công cụ trích xuất cột văn bản
Trích xuất các cột dọc từ dữ liệu văn bản có cấu trúc một cách dễ dàng. Hoàn hảo cho các tệp nhật ký (log), dữ liệu CSV, giá trị được phân tách bằng dấu cách và đầu ra lệnh. Chọn các cột cụ thể theo số, chọn dấu phân cách và nhận kết quả sạch ngay lập tức.
Trình chặn quảng cáo đang ngăn chúng tôi hiển thị quảng cáo
MiniWebtool miễn phí nhờ quảng cáo. Nếu công cụ này hữu ích, hãy ủng hộ bằng Premium (không quảng cáo + nhanh hơn) hoặc cho phép MiniWebtool.com rồi tải lại trang.
- Hoặc nâng cấp Premium (không quảng cáo)
- Cho phép quảng cáo cho MiniWebtool.com, rồi tải lại
Giới thiệu về Công cụ trích xuất cột văn bản
Chào mừng bạn đến với Công cụ trích xuất cột văn bản của chúng tôi, một công cụ trực tuyến miễn phí mạnh mẽ được thiết kế để trích xuất các cột dọc cụ thể từ dữ liệu văn bản có cấu trúc. Cho dù bạn đang làm việc với các tệp nhật ký, dữ liệu CSV, đầu ra lệnh hay bất kỳ văn bản nào được định dạng theo cột, công cụ này giúp bạn dễ dàng cô lập và trích xuất chính xác dữ liệu bạn cần.
Cách hoạt động của việc trích xuất cột
(Nhiều dòng)
Dấu phân cách
Cột
Dấu phân cách đầu ra
Các tính năng chính
- Hỗ trợ nhiều dấu phân cách: Hoạt động với khoảng trắng, dấu phẩy, tab, dấu gạch đứng, dấu chấm phẩy, dấu hai chấm hoặc dấu phân cách tùy chỉnh
- Lựa chọn cột linh hoạt: Chỉ định các cột bằng cú pháp đơn giản như
1,3,5hoặc phạm vi như1-3 - Xử lý khoảng trắng thông minh: Dấu phân cách khoảng trắng coi nhiều dấu cách/tab là một dấu phân cách duy nhất
- Tùy chọn cho cột bị thiếu: Chọn bỏ qua các dòng, sử dụng chuỗi trống hoặc chèn trình giữ chỗ cho dữ liệu bị thiếu
- Tùy chỉnh đầu ra: Định dạng đầu ra với các dấu phân cách khác nhau hoặc thậm chí đặt mỗi cột trên một dòng mới
- Xem trước trực quan: Xem chính xác những cột nào đang được trích xuất với bản xem trước được mã hóa màu
- Thống kê thời gian thực: Xem số lượng tổng số dòng, dòng đã xử lý và dòng đã bỏ qua
- Cắt bỏ khoảng trắng: Tự động dọn dẹp các khoảng trắng thừa khỏi dữ liệu được trích xuất
Các trường hợp sử dụng phổ biến
1. Xử lý các tệp nhật ký (Log)
Trích xuất dấu thời gian và loại thông báo từ nhật ký máy chủ. Ví dụ: từ nhật ký như 2025-12-31 10:15:23 INFO User login successful, bạn có thể chỉ trích xuất ngày, giờ và mức trạng thái (cột 1, 2, 3).
2. Trích xuất dữ liệu CSV
Lấy các cột cụ thể từ dữ liệu được phân tách bằng dấu phẩy. Nếu bạn có một tệp CSV lớn với 20 cột nhưng chỉ cần cột 1, 5 và 12, công cụ này sẽ trích xuất chúng ngay lập tức mà không cần mở phần mềm bảng tính.
3. Xử lý đầu ra lệnh
Phân tích đầu ra từ các công cụ dòng lệnh như ps, ls -l hoặc netstat. Chỉ trích xuất ID quy trình, tên tệp hoặc số cổng mà bạn cần.
4. Kết quả truy vấn cơ sở dữ liệu
Khi sao chép kết quả truy vấn dưới dạng văn bản, hãy trích xuất các cột cụ thể để làm báo cáo hoặc phân tích thêm.
5. Chuyển đổi định dạng dữ liệu
Chuyển đổi giữa các định dạng dấu phân cách khác nhau. Ví dụ: chuyển đổi các giá trị được phân tách bằng tab thành các giá trị được phân tách bằng dấu phẩy hoặc trích xuất dữ liệu được phân tách bằng dấu gạch đứng sang định dạng được phân tách bằng dấu cách.
Cách sử dụng công cụ này
Bước 1: Dán văn bản của bạn
Sao chép văn bản có cấu trúc của bạn và dán vào trường nhập liệu. Mỗi mục nên ở trên một dòng mới. Công cụ xử lý văn bản có độ dài bất kỳ, từ vài dòng đến hàng nghìn dòng.
Bước 2: Chọn dấu phân cách đầu vào
Chọn ký tự hoặc mẫu phân tách các cột trong đầu vào của bạn:
- Khoảng trắng: Đối với văn bản được phân tách bằng khoảng trắng. Tùy chọn này coi bất kỳ lượng khoảng trắng nào (dấu cách, tab) là một dấu phân cách duy nhất, hoàn hảo cho đầu ra lệnh được căn chỉnh.
- Dấu phẩy: Đối với các tệp CSV (Giá trị được phân tách bằng dấu phẩy).
- Tab: Đối với các tệp TSV (Giá trị được phân tách bằng tab).
- Dấu gạch đứng (|): Phổ biến trong xuất dữ liệu cơ sở dữ liệu và một số định dạng nhật ký.
- Tùy chỉnh: Chỉ định bất kỳ ký tự hoặc chuỗi nào làm dấu phân cách.
Bước 3: Chỉ định các cột cần trích xuất
Nhập số cột bạn muốn trích xuất. Các cột được đánh số bắt đầu từ 1. Bạn có thể sử dụng một số định dạng:
1- Chỉ trích xuất cột 11,3,5- Trích xuất các cột 1, 3 và 51-3- Trích xuất các cột 1, 2 và 3 (phạm vi)1,3-5,7- Kết hợp: trích xuất các cột 1, 3, 4, 5 và 7
Bước 4: Cấu hình các tùy chọn đầu ra
Tùy chỉnh cách định dạng dữ liệu được trích xuất:
- Dấu phân cách đầu ra: Chọn cách nối các cột được trích xuất (khoảng trắng, dấu phẩy, tab, v.v.)
- Bỏ qua các dòng trống: Bỏ qua các dòng trống trong đầu vào
- Cắt bỏ khoảng trắng: Loại bỏ các khoảng trắng đầu/cuối của mỗi cột
- Xử lý các cột bị thiếu: Phải làm gì khi một dòng có ít cột hơn chỉ định (bỏ qua dòng, sử dụng chuỗi trống hoặc sử dụng trình giữ chỗ N/A)
Bước 5: Trích xuất và sao chép
Nhấp vào nút Trích xuất cột. Công cụ hiển thị bản xem trước trực quan cho thấy những cột nào được trích xuất từ vài dòng đầu tiên, thống kê về quá trình xử lý và kết quả đầy đủ. Sao chép kết quả bằng một lần nhấp.
Ví dụ về cú pháp lựa chọn cột
Lựa chọn cơ bản
1 - Chỉ cột đầu tiên
1,2 - Cột thứ nhất và thứ hai
1,3,5 - Các cột 1, 3 và 5
Lựa chọn phạm vi
1-3 - Các cột từ 1 đến 3 (tương đương với 1,2,3)
5-10 - Các cột từ 5 đến 10
Lựa chọn kết hợp
1,3-5 - Cột 1, sau đó là các cột từ 3 đến 5
1,3-5,7,9-11 - Kết hợp phức tạp giữa các cột đơn lẻ và các phạm vi
Hiểu về các dấu phân cách
Dấu phân cách khoảng trắng (Chế độ thông minh)
Khi bạn chọn "Khoảng trắng" làm dấu phân cách, công cụ sẽ coi bất kỳ chuỗi ký tự khoảng trắng nào (dấu cách, tab) là một dấu phân cách duy nhất. Điều này lý tưởng cho đầu ra văn bản được căn chỉnh từ các lệnh nơi các cột được phân tách bằng lượng khoảng trắng khác nhau.
Ví dụ đầu vào:
Tên Tuổi Công việc Thành phố John 25 Kỹ sư NYC Jane 30 Thiết kế LA
Với dấu phân cách khoảng trắng, văn bản này được phân tích chính xác thành 4 cột mặc dù khoảng cách khác nhau.
Các dấu phân cách khác
Các dấu phân cách khác như dấu phẩy, tab hoặc dấu gạch đứng được xử lý theo nghĩa đen. Mỗi lần xuất hiện sẽ tạo ra một ranh giới cột mới, ngay cả khi cột đó trống.
Ví dụ với dấu phẩy:
John,Doe,25,Engineer Jane,Smith,,Designer
Dòng thứ hai có cột thứ 3 trống (giữa hai dấu phẩy).
Xử lý các cột bị thiếu
Không phải tất cả các dòng trong dữ liệu thực tế đều có cùng số lượng cột. Công cụ này cung cấp ba chiến lược:
Bỏ qua dòng nếu thiếu cột
Nếu một dòng không có tất cả các cột bạn đã chỉ định, toàn bộ dòng đó sẽ bị bỏ qua trong đầu ra. Điều này đảm bảo đầu ra của bạn chỉ chứa dữ liệu hoàn chỉnh.
Sử dụng chuỗi trống
Nếu một cột bị thiếu, một chuỗi trống sẽ được sử dụng thay thế. Điều này duy trì số dòng nhưng để lại các khoảng trống cho dữ liệu bị thiếu.
Sử dụng trình giữ chỗ (N/A)
Các cột bị thiếu được điền bằng "N/A" hoặc văn bản trình giữ chỗ tương tự, giúp làm rõ rằng dữ liệu đã vắng mặt.
Câu hỏi thường gặp
Công cụ trích xuất cột văn bản là gì?
Công cụ trích xuất cột văn bản là một công cụ trích xuất các cột dọc cụ thể từ dữ liệu văn bản có cấu trúc. Nó chia mỗi dòng theo một dấu phân cách (như khoảng trắng, dấu phẩy hoặc tab) và chỉ trích xuất các cột bạn chỉ định. Điều này hữu ích cho việc xử lý các tệp nhật ký, dữ liệu CSV, đầu ra lệnh và bất kỳ định dạng văn bản có cấu trúc nào.
Làm cách nào để chỉ định cột nào cần trích xuất?
Bạn có thể chỉ định các cột theo nhiều cách: các cột đơn lẻ (1,3,5), các phạm vi (1-3 cho các cột 1, 2, 3) hoặc kết hợp (1,3-5 cho các cột 1, 3, 4, 5). Các cột được đánh số bắt đầu từ 1. Ví dụ: nếu văn bản của bạn có Tên, Tuổi, Công việc, Thành phố, việc chỉ định cột 1,3 sẽ trích xuất Tên và Công việc từ mỗi dòng.
Những dấu phân cách nào được hỗ trợ?
Công cụ hỗ trợ các dấu phân cách phổ biến bao gồm khoảng trắng, dấu phẩy, tab, dấu gạch đứng (|), dấu chấm phẩy và dấu hai chấm. Bạn cũng có thể chỉ định một dấu phân cách tùy chỉnh cho các định dạng duy nhất. Dấu phân cách khoảng trắng coi bất kỳ khoảng trắng nào (nhiều dấu cách, tab) là một dấu phân cách duy nhất, làm cho nó lý tưởng cho đầu ra văn bản được căn chỉnh.
Điều gì xảy ra khi một dòng có ít cột hơn chỉ định?
Bạn có thể chọn cách xử lý các cột bị thiếu. Các tùy chọn bao gồm: bỏ qua toàn bộ dòng nếu thiếu bất kỳ cột nào, sử dụng chuỗi trống cho các cột bị thiếu hoặc sử dụng trình giữ chỗ như N/A. Tính linh hoạt này đảm bảo công cụ hoạt động với các định dạng dữ liệu không nhất quán.
Tôi có thể sử dụng cái này cho các tệp CSV không?
Vâng! Công cụ này hoàn hảo để trích xuất các cột cụ thể từ các tệp CSV. Chỉ cần đặt dấu phân cách thành dấu phẩy, chỉ định các cột bạn muốn (như 1,4,7) và công cụ sẽ trích xuất các cột đó từ mỗi dòng. Sau đó, bạn có thể xuất chúng bằng một dấu phân cách khác nếu cần.
Sự khác biệt giữa dấu phân cách khoảng trắng và tab là gì?
Dấu phân cách khoảng trắng là "thông minh" - nó coi bất kỳ lượng khoảng trắng nào (một hoặc nhiều dấu cách, tab) là một dấu phân cách duy nhất. Điều này hoàn hảo cho đầu ra văn bản được căn chỉnh. Dấu phân cách tab chỉ tách trên các ký tự tab thực (\t), coi mỗi tab là chính xác một ranh giới cột.
Tôi có thể trích xuất các cột theo một thứ tự khác không?
Vâng! Các cột được trích xuất theo thứ tự bạn chỉ định. Nếu bạn chỉ định 3,1,2, đầu ra sẽ có cột 3 trước, sau đó là cột 1, sau đó là cột 2, thay đổi thứ tự dữ liệu của bạn.
Làm cách nào để xử lý dữ liệu có dấu ngoặc kép hoặc dấu phân cách được thoát?
Công cụ này thực hiện tách dựa trên dấu phân cách đơn giản và hiện không xử lý các dấu phân cách được thoát hoặc chuỗi được trích dẫn (như tệp CSV nơi các dấu phẩy bên trong dấu ngoặc kép nên được giữ lại). Để phân tích cú pháp CSV phức tạp với dấu ngoặc kép, hãy xem xét sử dụng các công cụ xử lý CSV chuyên dụng.
Có giới hạn nào về lượng văn bản tôi có thể xử lý không?
Mặc dù không có giới hạn nghiêm ngặt, các tệp văn bản rất lớn (hàng trăm nghìn dòng) có thể mất nhiều thời gian hơn để xử lý. Để có hiệu suất tối ưu, công cụ hoạt động tốt nhất với các tệp lên đến vài nghìn dòng. Đối với các tập dữ liệu khổng lồ, hãy xem xét xử lý theo đợt.
Mẹo để trích xuất cột hiệu quả
Xem trước dữ liệu của bạn trước
Trước khi trích xuất, hãy xem vài dòng đầu tiên của dữ liệu để biết có bao nhiêu cột và dấu phân cách nào được sử dụng. Bản xem trước trực quan trong kết quả giúp xác nhận bạn đã chọn đúng các cột.
Sử dụng Cắt bỏ khoảng trắng
Bật "Cắt bỏ khoảng trắng từ các cột" sẽ dọn dẹp các khoảng trắng thừa ở đầu hoặc cuối dữ liệu được trích xuất, mang lại cho bạn kết quả sạch hơn, đặc biệt khi làm việc với văn bản được căn chỉnh.
Kiểm tra thống kê
Sau khi trích xuất, hãy xem lại các số liệu thống kê hiển thị số dòng đã được xử lý so với các dòng bị bỏ qua. Nếu nhiều dòng bị bỏ qua, bạn có thể cần điều chỉnh chiến lược xử lý cột bị thiếu của mình.
Kết hợp với các công cụ khác
Sử dụng công cụ này kết hợp với các công cụ xử lý văn bản khác. Ví dụ: trích xuất các cột trước, sau đó sử dụng công cụ sắp xếp, công cụ xóa trùng lặp hoặc công cụ tìm và thay thế để xử lý thêm.
Ví dụ thực tế
Ví dụ 1: Trích xuất tên và tuổi từ danh sách liên hệ
Đầu vào (phân tách bằng dấu cách):
John Doe 25 Engineer NYC Jane Smith 30 Designer LA Bob Johnson 28 Developer SF
Các cột cần trích xuất: 1,3
Đầu ra:
John 25 Jane 30 Bob 28
Ví dụ 2: Phân tích dấu thời gian của nhật ký máy chủ
Đầu vào (nhật ký phân tách bằng dấu cách):
2025-12-31 10:15:23 INFO User login successful 2025-12-31 10:16:45 ERROR Database connection failed 2025-12-31 10:17:12 WARN High memory usage
Các cột cần trích xuất: 1-3
Đầu ra:
2025-12-31 10:15:23 INFO 2025-12-31 10:16:45 ERROR 2025-12-31 10:17:12 WARN
Ví dụ 3: Trích xuất thông tin sản phẩm từ dữ liệu phân tách bằng dấu gạch đứng
Đầu vào (phân tách bằng dấu gạch đứng):
Product001|Widget|49.99|100|In-Stock Product002|Gadget|79.99|50|Low-Stock Product003|Tool|29.99|200|In-Stock
Dấu phân cách: Dấu gạch đứng (|)
Các cột cần trích xuất: 1,2,3
Dấu phân cách đầu ra: Dấu phẩy
Đầu ra:
Product001,Widget,49.99 Product002,Gadget,79.99 Product003,Tool,29.99
Tham khảo nội dung, trang hoặc công cụ này như sau:
"Công cụ trích xuất cột văn bản" tại https://MiniWebtool.com/vi// từ MiniWebtool, https://MiniWebtool.com/
bởi đội ngũ miniwebtool. Cập nhật: 31/12/2025