Ako extrahovať a ukladať obrázky zo súboru PDF v systéme Linux
Môžete ľahko konvertovať súbory PDF na editovateľný text v systéme Linux pomocou príkazového riadku "pdftotext". Ak však v pôvodnom súbore PDF existujú nejaké obrázky, nie sú extrahované. Ak chcete extrahovať obrázky zo súboru PDF, môžete použiť iný nástroj príkazového riadku s názvom "pdfimages".
POZNÁMKA: Keď povieme, že v tomto článku niečo napíšete a v texte sú citácie, NEPOUŽÍVAJTE citácie, ak neurčíme inak.
Nástroj "pdfimages" je súčasťou balíka poppler-utils. Môžete skontrolovať, či je nainštalovaný vo vašom systéme a prípadne ho nainštalovať podľa krokov popísaných v tomto článku.
Ak chcete extrahovať obrázky zo súboru PDF pomocou pdfimages, stlačte "Ctrl + Alt + T" a otvorte okno Terminál. Na výzvu zadajte nasledujúci príkaz.
pdfimages /home/lori/Documents/SampleWithImages.pdf / home / lori / Dokumenty / ExtractedImages / image
Poznámka: Pre všetky príkazy uvedené v tomto článku nahraďte prvú cestu v príkaze a názov súboru PDF cestu a názov súboru pre pôvodný súbor PDF. Druhá cesta by mala byť cesta k koreňovému priečinku, do ktorého chcete uložené obrázky uložiť. Slovo "obrázok" na konci druhej cesty predstavuje čokoľvek, čo chcete predvolať s vaším názvom súboru. Názvy súborov obrázkov sú očíslované automaticky (000, 001, 002, 003 atď.). Ak chcete na začiatok každého obrázka pridať text, zadajte tento text na konci druhej cesty. V našom príklade začína každý názov súboru s obrázkom "image", napríklad image-001.ppm, image-002.ppm atď. Medzi zadaným textom a číslom sa pridá pomlčka.
Predvolený formát obrázka je PPM (prenosný pixmap) pre non-monochrome obrázky, alebo PBM (prenosné bitmapy) pre monochromatické obrázky. Tieto formáty sú navrhnuté tak, aby boli ľahko vymeniteľné medzi platformami.
POZNÁMKA: V súbore PDF môžete získať dva obrazové súbory pre každý obrázok. Druhý obrázok pre každý obrázok je prázdny, takže budete môcť zistiť, ktoré obrázky obsahujú obrázky zo súboru podľa miniatúry v súbore v Správcovi súborov.
Ak chcete vytvoriť obrazové súbory .jpg, pridajte príkaz "-j" príkazu, ako je uvedené nižšie.
pdfimages -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Dokumenty / ExtractedImages / image
POZNÁMKA: Môžete tiež zmeniť predvolený výstup na PNG pomocou voľby "-png" alebo TIFF pomocou voľby "-tiff".
Hlavný obrazový súbor pre každý obrázok sa uloží ako súbor .jpg. Druhý prázdny obrázok je stále súbor .ppm alebo .pbm.
Ak chcete len previesť obrázky na určitú stránku a po nej, použite voľbu "-f" s číslom, aby ste označili prvú stránku na konverziu, ako je uvedené v príklade príkladu nižšie.
pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Dokumenty / ExtractedImages / image
POZNÁMKA: Kombinovali sme voľbu "-j" s voľbou "-f", aby sme získali obrázky .jpg a urobili to isté s voľbou "-l" uvedenou nižšie.
Ak chcete previesť všetky obrázky pred a na určitej stránke, použite voľbu "-l" (malá písmena "L", nie číslo "1") s číslom na označenie poslednej stránky, ktorú chcete previesť, ako je uvedené nižšie.
pdfimages -l 1 -j /home/lori/Dokumenty/SampleWithImages.pdf / home / lori / Dokumenty / ExtractedImages / image
POZNÁMKA: Možnosti "-f" a "-l" môžete použiť na konverziu obrázkov v určitom rozsahu stránok v strede dokumentu.
Ak sa v súbore PDF nachádza heslo vlastníka, použite voľbu "-opw" a heslo v jednoduchých úvodzovkách, ako je uvedené nižšie. Ak je heslo v súbore PDF heslom používateľa, použite namiesto toho heslo "-up".
POZNÁMKA: Uistite sa, že máte vo svojom príkaze jedno heslo.
pdfimages -pw 'heslo' -j /home/lori/Documents/SampleWithImages.pdf / home / lori / Dokumenty / ExtractedImages / image
Pre viac informácií o použití príkazu pdfimages zadajte do poľa Terminal "pdfimages" a stlačte "Enter". Použitie príkazu sa zobrazí so zoznamom možností, ktoré sú k dispozícii v príkaze.