Úvodná » ako » Ako previesť súbor PDF do upraviteľného textu pomocou príkazového riadku v systéme Linux

    Ako previesť súbor PDF do upraviteľného textu pomocou príkazového riadku v systéme Linux

    Existujú rôzne dôvody, prečo by ste mohli konvertovať súbor PDF do upraviteľného textu. Možno budete musieť revidovať starý dokument a všetko, čo máte, je jeho verzia vo formáte PDF. Konvertovanie súborov PDF v systéme Windows je jednoduché, ale čo ak používate Linux?

    Žiaden strach. Ukážeme vám, ako ľahko konvertovať súbory PDF na editovateľný text pomocou nástroja príkazového riadka s názvom pdftotext, ktorý je súčasťou balíka "poppler-utils". Tento nástroj môže byť už nainštalovaný. Ak chcete skontrolovať, či je na vašom systéme nainštalovaný pdftotext, stlačte "Ctrl + Alt + T" na otvorenie okna terminálu. Na výzvu zadajte nasledujúci príkaz a stlačte kláves Enter.

    dpkg -s poppler-utils

    POZNÁMKA: Keď povieme, že v tomto článku niečo napíšete a v texte sú citácie, NEPOUŽÍVAJTE citácie, ak neurčíme inak.

    Ak nie je nainštalovaný pdftotext, zadajte na výzvu nasledujúci príkaz a stlačte "Enter".

    sudo apt-get nainštalovať poppler-utils

    Po výzve zadajte svoje heslo a stlačte "Enter".

    V balíčku poppler-utils je k dispozícii niekoľko nástrojov na konverziu PDF do rôznych formátov, manipuláciu so súbormi PDF a extrakciu informácií zo súborov.

    Nasledujúci je základný príkaz na konverziu súboru PDF do editovateľného textového súboru. Stlačením klávesov "Ctrl + Alt + T" otvorte okno Terminál, zadajte príkaz na výzvu a stlačte "Enter".

    pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Zmeňte cestu ku každému súboru tak, aby zodpovedala umiestneniu a názvu pôvodného súboru PDF a kam chcete uložiť výsledný textový súbor. Zmeniť názvy súborov tak, aby zodpovedali menám vašich súborov.

    Textový súbor je vytvorený a môže byť otvorený tak, ako by ste otvorili ľubovoľný iný textový súbor v systéme Linux.

    Prevedený text môže mať prestávky v riadku na miestach, ktoré nechcete. Zalomenia riadku sa vkladajú za každý riadok textu do súboru PDF.

    Rozloženie dokumentu (hlavičky, päty, stránkovanie atď.) Z pôvodného súboru PDF v konvertovanom textovom súbore môžete zachovať pomocou príznaku "-layout".

    pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Ak chcete previesť celý rad strán do súboru PDF, použite príznaky "-f" a "-l" (malé písmeno "L"), aby ste určili prvú a poslednú stranu v rozsahu, ktorý chcete previesť.

    pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Ak chcete previesť súbor PDF, ktorý je chránený a zašifrovaný heslom vlastníka, použite príznak "-opw" (prvý znak vo vlajke je malé písmeno "O", nie nula).

    pdftotext -opw 'heslo' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Zmeňte "heslo" na heslo, ktoré sa používa na ochranu pôvodného súboru PDF, ktorý sa prevádza. Uistite sa, že existujú jednoduché úvodzovky, nie dvojité, okolo "hesla".

    Ak je súbor PDF chránený a šifrovaný heslom používateľa, použite príznak "-upw" namiesto príznaku "-opw". Zvyšok príkazu je rovnaký.

    Môžete tiež určiť typ koncového znaku, ktorý sa použije na prekonvertovaný text. To je obzvlášť užitočné, ak plánujete prístup k súboru v inom operačnom systéme, ako je Windows alebo Mac. Použite príznak "-eol" (stredný znak vo vlajke je malý písmeno "O", nie nula), za ktorým nasleduje medzera a typ znaku konca riadku, ktorý chcete použiť (" unix "," dos "alebo" mac ").

    POZNÁMKA: Ak nezadáte názov súboru pre textový súbor, pdftotext automaticky použije základňu súboru PDF a pridá príponu ".txt". Napríklad "file.pdf" sa prevedie na "file.txt". Ak je textový súbor zadaný ako "-", prevedený text sa odošle do stdout, čo znamená, že text sa zobrazí v okne Terminál a nie je uložený do súboru.

    Ak chcete zatvoriť okno Terminál, kliknite na tlačidlo "X" v ľavom hornom rohu.

    Ďalšie informácie o príkaze pdftotext zadajte do príkazového riadka v okne terminálu "man page pdftotext".