Tool Icon

Xóa văn bản PDF

Đánh dấu và xóa văn bản trong tệp PDF của bạn

Thả tệp PDF của bạn vào đây hoặc
Tải lên từ thiết bị của bạn
Tải lên từ Google Drive
Tải lên từ DropBox
Tải lên từ địa chỉ Web (URL)
Kích thước tệp tối đa: 128 MB
Powered by GdPicture PDF Editor SDK | Tìm hiểu thêm tại đây - PSPDFKit GdPicture.NET PDF Editor

Các tệp của bạn được an toàn!

Chúng tôi sử dụng các phương pháp mã hóa tốt nhất để bảo vệ dữ liệu của bạn.

Tất cả các tài liệu sẽ tự động bị xóa khỏi máy chủ của chúng tôi sau 30 phút.

Nếu muốn, bạn có thể xóa tệp của mình theo cách thủ công ngay sau khi xử lý bằng cách nhấp vào biểu tượng thùng rác.

Cách xóa văn bản của PDF trực tuyến:

  1. Để bắt đầu, hãy thả tệp PDF của bạn hoặc tải nó lên từ thiết bị hoặc dịch vụ lưu trữ đám mây của bạn.
  2. Chọn cài đặt của bạn và nhấp vào nút Xóa văn bản.
  3. Tải tập tin PDF về máy tính của bạn hoặc lưu trực tiếp vào dịch vụ lưu trữ đám mây của bạn.

Bạn có biết không?

Tất cả các tệp PDF không được tạo bằng nhau
Ví dụ, hãy lấy hai tệp PDF: một tệp được tạo bằng trình xử lý văn bản, chẳng hạn như MS Word và một tài liệu được quét. Cả hai tệp đều kết thúc bằng phần mở rộng .pdf. Tuy nhiên, những tập tin này không giống nhau. Nếu bạn mở tệp PDF được tạo bằng trình xử lý văn bản của mình, bạn có thể nhấn CTRL + F, nhập các từ bạn đang tìm và phần mềm xem PDF sẽ làm nổi bật kết quả của tài liệu.
Nhưng hãy thử chọn hoặc tìm kiếm văn bản trong tệp PDF được tạo bởi phần mềm máy quét của bạn khi bạn quét các tài liệu giấy đã quét, điều đó là không thể. Đó là bởi vì tài liệu PDF được quét không dựa trên văn bản; nó dựa trên hình ảnh Loại PDF này được gọi là PDF raster và nó sẽ sớm trở thành một định dạng chuẩn để lưu trữ, vận chuyển và trao đổi các tài liệu được quét
Và sau đó, có các tệp PDF vector, thường được tạo từ CAD định dạng hoặc chương trình thiết kế đồ họa như Adobe Illustrator.
Văn bản đôi khi không phải là văn bản trong PDF
Văn bản là một yếu tố độc lập trong các tệp PDF gốc. Bạn có thể thấy các ký tự văn bản trong PDF, nhưng các ký tự đó không nhất thiết phải là các thành phần văn bản PDF. Làm thế nào bạn có thể cho biết sự khác biệt?
Như chúng ta vừa thấy, văn bản có thể là hình ảnh raster của văn bản hoặc hình ảnh vector của văn bản. Trong mọi trường hợp, nó trông giống như văn bản, nhưng máy tính không nhận ra nó như vậy và không thể chọn hoặc tìm kiếm nó.
Văn bản được tạo bởi trình xử lý văn bản không phải là raster cũng không phải là hình ảnh vector, nó được gọi là "Văn bản thực" hoặc Phần tử văn bản PDF. Văn bản thực có thể tìm kiếm và lựa chọn. Nó trông sắc nét ngay cả khi phóng to, trái ngược với văn bản vectơ xuất hiện vón cục và văn bản raster được pixel hóa.
Giống như trong Magritte bức tranh nổi tiếng, trong thế giới PDF, một hình ảnh của một văn bản không giống với chính văn bản đó.
Nhiều tệp PDF bao gồm văn bản vô hình
Để làm cho văn bản của tài liệu được quét có thể tìm kiếm được, bạn cần chạy nó thông qua OCR. Quá trình này thêm một lớp văn bản vô hình trong PDF, vì vậy công cụ OCR có thể nhận ra các ký tự và đọc văn bản. Văn bản này không được sử dụng trong khi in hoặc xem tài liệu PDF và nó vô hình với người dùng.
Tại sao bạn cần xóa văn bản ẩn của PDF? Đôi khi, một văn bản được quét đã được OCRed không hiển thị tốt trong trình xem. Trong một số trường hợp, mẹo là xóa văn bản ẩn và xử lý lại tài liệu bằng một công cụ khác (như AvePDF OCR PDF ).
Cũng có thể công cụ OCR bạn đang sử dụng cần được cập nhật và bạn muốn xử lý lại tài liệu của mình hoặc chuyển sang công cụ khác với hiệu suất tốt hơn. Việc xem xét cuối cùng, nếu bạn lưu dưới dạng PDF / OCR một loạt tài liệu bao gồm các tệp OCRed, tệp kết quả sẽ nặng hơn.