Dọn dẹp các tệp PDF
Xóa các đường viền màu đen, loại bỏ các lỗ đục lỗ, làm mờ và tự động sắp xếp các trang của PDF
Thả tệp PDF của bạn vào đây hoặc
Tải lên từ thiết bị của bạn
Tải lên từ Google Drive
Tải lên từ DropBox
Tải lên từ địa chỉ Web (URL)
Kích thước tệp tối đa: 128 MB
Powered by GdPicture OCR Preprocessing SDK | Tìm hiểu thêm tại đây - PSPDFKit GdPicture.NET OCR Preprocessing
Các tệp của bạn được an toàn!
Chúng tôi sử dụng các phương pháp mã hóa tốt nhất để bảo vệ dữ liệu của bạn.
Tất cả các tài liệu sẽ tự động bị xóa khỏi máy chủ của chúng tôi sau 30 phút.
Nếu muốn, bạn có thể xóa tệp của mình theo cách thủ công ngay sau khi xử lý bằng cách nhấp vào biểu tượng thùng rác.
Cách dọn dẹp các trang của tệp PDF trực tuyến:
- Để bắt đầu, hãy thả tệp PDF của bạn hoặc tải nó lên từ thiết bị hoặc dịch vụ lưu trữ đám mây của bạn.
- Nhấp vào bộ lọc bạn muốn áp dụng trên tài liệu của mình: xóa các viền đen, tự động tắt, loại bỏ lỗ đục, giải mã.
- Công cụ lọc tự động dọn sạch tài liệu.
- Nhấp vào nút Lưu.
- Tải xuống tệp PDF đã dọn sạch vào máy tính của bạn hoặc lưu trực tiếp vào dịch vụ lưu trữ đám mây của bạn.
Bài đăng trên blog
Bạn có biết không?
Tại sao việc tối ưu hóa các tài liệu được quét lại quan trọng như vậy? Bên cạnh khả năng đọc tốt hơn và hình thức trực quan của tệp, còn có những lợi ích khác để dọn dẹp tài liệu đã quét.
Bất kỳ công cụ phát hiện nào như OCR sẽ cung cấp kết quả tốt hơn trên một tài liệu rõ ràng. Nó cũng là trường hợp cho nhận dạng mã vạch , hộp kiểm trong biểu mẫu kiểm tra, phông chữ đặc biệt trong séc và bất kỳ phần tử nào khác.
Bạn cũng nhận được kết quả nén tốt hơn trên các tài liệu đã được làm sạch. Các công cụ như siêu nén đảm bảo tỷ lệ chất lượng / khả năng đọc tốt nhất cho các tệp PDF của bạn và đôi khi thậm chí cải thiện khả năng đọc của tài liệu được quét, nhờ vào nhiều thuật toán tối ưu hóa.
Sau khi tài liệu của bạn được làm sạch, bạn có thể nén và chuyển đổi chúng thành PDF / A để lưu trữ và bảo quản lâu dài. Những người sẽ sử dụng tài liệu của bạn trong tương lai sẽ cảm ơn bạn vì điều này!
Bất kỳ công cụ phát hiện nào như OCR sẽ cung cấp kết quả tốt hơn trên một tài liệu rõ ràng. Nó cũng là trường hợp cho nhận dạng mã vạch , hộp kiểm trong biểu mẫu kiểm tra, phông chữ đặc biệt trong séc và bất kỳ phần tử nào khác.
Bạn cũng nhận được kết quả nén tốt hơn trên các tài liệu đã được làm sạch. Các công cụ như siêu nén đảm bảo tỷ lệ chất lượng / khả năng đọc tốt nhất cho các tệp PDF của bạn và đôi khi thậm chí cải thiện khả năng đọc của tài liệu được quét, nhờ vào nhiều thuật toán tối ưu hóa.
Sau khi tài liệu của bạn được làm sạch, bạn có thể nén và chuyển đổi chúng thành PDF / A để lưu trữ và bảo quản lâu dài. Những người sẽ sử dụng tài liệu của bạn trong tương lai sẽ cảm ơn bạn vì điều này!
Các tài liệu được quét thường chứa các hiện vật không mong muốn và phổ biến ngẫu nhiên được gọi là "nhiễu". Trong lĩnh vực hình ảnh, chúng tôi thậm chí còn có "tiếng ồn muối và hạt tiêu", là các điểm ảnh sáng trên vùng tối hơn và điểm ảnh tối trên vùng ảnh sáng hơn, như thể ai đó đổ các hạt muối và hạt tiêu lên tài liệu (hình ảnh giống như phép ẩn dụ).
Có nhiều bộ lọc để loại bỏ nhiễu khỏi tài liệu được quét.
Bộ lọc Despeckle loại bỏ nhiễu khỏi hình ảnh mà không làm mờ các cạnh. Nó cố gắng phát hiện các khu vực phức tạp và giữ nguyên các khu vực này trong khi làm mịn các khu vực có thể nhận thấy tiếng ồn. Despeckle có thể làm sạch các bản vẽ bẩn hoặc mờ có đốm hoặc lốm đốm sau khi quét.
Các Bộ lọc trung vị giảm nhiễu trong một lớp bằng cách pha trộn độ sáng của các pixel trong một vùng chọn bằng cách sử dụng một thuật toán. Bộ lọc tìm kiếm các pixel có độ sáng tương tự, loại bỏ các pixel khác biệt quá nhiều so với các pixel liền kề và thay thế pixel trung tâm bằng giá trị độ sáng trung bình của các pixel được tìm kiếm. Nó giúp loại bỏ hoặc giảm sự xuất hiện của chuyển động trong hình ảnh hoặc các mẫu không mong muốn có thể xuất hiện trong hình ảnh được quét.
Lọc trung vị đặc biệt nâng cao kết quả OCR vì nó loại bỏ nhiễu nhưng vẫn bảo toàn các cạnh.
Có nhiều bộ lọc để loại bỏ nhiễu khỏi tài liệu được quét.
Bộ lọc Despeckle loại bỏ nhiễu khỏi hình ảnh mà không làm mờ các cạnh. Nó cố gắng phát hiện các khu vực phức tạp và giữ nguyên các khu vực này trong khi làm mịn các khu vực có thể nhận thấy tiếng ồn. Despeckle có thể làm sạch các bản vẽ bẩn hoặc mờ có đốm hoặc lốm đốm sau khi quét.
Các Bộ lọc trung vị giảm nhiễu trong một lớp bằng cách pha trộn độ sáng của các pixel trong một vùng chọn bằng cách sử dụng một thuật toán. Bộ lọc tìm kiếm các pixel có độ sáng tương tự, loại bỏ các pixel khác biệt quá nhiều so với các pixel liền kề và thay thế pixel trung tâm bằng giá trị độ sáng trung bình của các pixel được tìm kiếm. Nó giúp loại bỏ hoặc giảm sự xuất hiện của chuyển động trong hình ảnh hoặc các mẫu không mong muốn có thể xuất hiện trong hình ảnh được quét.
Lọc trung vị đặc biệt nâng cao kết quả OCR vì nó loại bỏ nhiễu nhưng vẫn bảo toàn các cạnh.
Skew là một hiện vật có thể xuất hiện trong quá trình quét tài liệu và nó bao gồm việc xoay văn bản / hình ảnh của tài liệu theo một góc nhỏ. Hầu hết thời gian, nó xảy ra khi đặt giấy không đúng chỗ trong máy quét. Autodeskew là quá trình phát hiện và khắc phục sự cố này trên các tệp được quét, vì vậy hình ảnh được giải mã sẽ có văn bản / hình ảnh được căn chỉnh chính xác.
Bộ lọc này làm tăng tỷ lệ nhận dạng ký tự chính xác vì văn bản được căn chỉnh gần hơn nhiều so với những gì phần mềm OCR được cho là gặp phải khi thực hiện phân tích hình ảnh. Độ sáng và độ tương phản là những điều chỉnh hình ảnh rất nổi tiếng và đặc biệt quan trọng đối với các tài liệu được quét vì chúng có thể cải thiện đáng kể khả năng đọc.
Chúng ta thường quên điều chỉnh gamma, nhưng việc thay đổi cài đặt gamma trên một hình ảnh rất sáng sẽ làm cho nó có thể đọc được mà không làm tối nó. Mục đích của nó là tối ưu hóa độ tương phản và độ sáng ở các tông màu trung bình trong khi vẫn giữ các yếu tố đen trắng.
A Công cụ trồng trọt rất hữu ích khi bạn cần cắt bỏ các vùng không mong muốn của trang. Và nếu bạn cần xóa viền đen và đục lỗ, tiện ích xóa sạch của chúng tôi sẽ làm điều đó cho bạn!
Bộ lọc này làm tăng tỷ lệ nhận dạng ký tự chính xác vì văn bản được căn chỉnh gần hơn nhiều so với những gì phần mềm OCR được cho là gặp phải khi thực hiện phân tích hình ảnh. Độ sáng và độ tương phản là những điều chỉnh hình ảnh rất nổi tiếng và đặc biệt quan trọng đối với các tài liệu được quét vì chúng có thể cải thiện đáng kể khả năng đọc.
Chúng ta thường quên điều chỉnh gamma, nhưng việc thay đổi cài đặt gamma trên một hình ảnh rất sáng sẽ làm cho nó có thể đọc được mà không làm tối nó. Mục đích của nó là tối ưu hóa độ tương phản và độ sáng ở các tông màu trung bình trong khi vẫn giữ các yếu tố đen trắng.
A Công cụ trồng trọt rất hữu ích khi bạn cần cắt bỏ các vùng không mong muốn của trang. Và nếu bạn cần xóa viền đen và đục lỗ, tiện ích xóa sạch của chúng tôi sẽ làm điều đó cho bạn!