Edycja plików PDF zamiast tekstu źródłowego: dlaczego trzeba specjalnego programu?
Format PDF jest doceniany za integralność – edycja takich dokumentów jest niemożliwa w podstawowych edytorach i to oczywiście ma konkretny cel, ale czasem jest niemałym utrudnieniem. Dlaczego tak jest i jak poradzić sobie z takim problemem?
Dlaczego do usuwania tekstu z PDF-ów trzeba specjalnego programu?
Mogłoby się wydawać, że wycięcie fragmentu tekstu powinno być banalnie łatwe – wystarczy przecież zaznaczyć żądany fragment i… I tu zaczyna się problem, ponieważ to, co wydaje się tekstem, jest od strony technicznej bardziej obrazem, więc żeby wyodrębnić z niego tekst, trzeba użyć oprogramowania OCR. Usuwanie tekstu z PDF jest więc procesem wieloetapowym i wymaga funkcji, których standardowe edytory tekstu po prostu nie mają.
Problemy mogą dotyczyć również formatowania
Usunięcie fragmentu tekstu w pliku edytowalnym powoduje, że pozostała część dokumentu, jeśli został on prawidłowo sformatowany, przesuwa się, zajmuje odpowiednie miejsce i trzyma format. W przypadku PDF jest to znacznie trudniejsze i wymaga przeprowadzenia wielu operacji. To tak naprawdę najtrudniejszy element opracowania związanego z usuwaniem tekstu. O ile samo wycięcie znaków jest przynajmniej teoretycznie wyobrażalne, to późniejsze przebudowanie dokumentu i zachowanie formatowania będzie potężnym wyzwaniem. A przecież cały czas mowa o dokumencie, który nie składa się z edytowalnego tekstu, więc to formatowanie jest czysto umownym pojęciem.
Po co w ogóle edytować pliki PDF?
W tym momencie można sobie zadać pytanie: skoro jest to tak skomplikowane, to po co w ogóle usuwać tekst z PDF, skoro łatwiej byłoby wyedytować plik źródłowy.
- Po pierwsze, plik źródłowy może już dawno nie istnieć. Jeśli jest to na przykład zakładowa instrukcja BHP, w której od lat nie wprowadzano żadnych zmian, za to kilka razy modernizowano stanowiska komputerowe, to jest spora szansa, że oryginalnego pliku nie uda się znaleźć.
- Po drugie – to nie tak, że edycja plików źródłowych zawsze idzie gładko. W wielu przypadkach łatwiejsze jest usuwanie tekstu z PDF w dobrym edytorze, niż walka z naprawdę fatalnym formatowaniem oryginalnego tekstu. W takim przypadku nawet drobna zmiana w pliku edytowalnym może spowodować, że cała reszta się wizualnie „rozjedzie”.
- W dużych organizacjach dochodzi jeszcze problem z kulejącym obiegiem dokumentów. Osoba, która chce i ma uprawnienia do wprowadzenia odpowiednich zmian w PDF, niekoniecznie jest tą samą, która ma też plik oryginalny – często nawet nie wiadomo, kto powinien go mieć i jak uzyskać do niego dostęp, więc edycja w PDF będzie mimo wszystko wygodniejsza.
Jak usuwać tekst z PDF bez komplikacji?
Tutaj wszystko sprowadza się do wyboru odpowiedniego edytora. Lepiej będzie od razu postawić na program z pełnym spektrum możliwości, niż zbierać paręnaście takich, które potrafią zrobić tylko jedną rzecz. To oczywiście może oznaczać pewien koszt, ale zważywszy na to, ile pracy można sobie oszczędzić, mogąc usuwać tekst bezpośrednio z PDF, może to być absolutnie uzasadniona inwestycja.