Ako môžem kopírovať text z PDF pri zachovaní formátovania?

PDF, všadeprítomný formát dokumentu, je skvelý pre zdieľanie dokumentov pri zachovaní písma, obrázkov a všeobecné rozloženie na rôznych platformách. Existuje však jednoduchý spôsob, ako zachovať toto veľmi formátovanie pri kopírovaní a vkladaní textu z dokumentu?

Dnešná relácia otázok a odpovedí sa k nám pridelí zdvorilosťou SuperUser - podskupiny Stack Exchange, zoskupenia webových stránok typu Q & A.

Otázka

Čítačka SuperUser Colen hľadá spôsob, ako extrahovať text z PDF súborov pri zachovaní formátovania:

Keď skopírujem text zo súboru PDF a do textového editora, končí rozmazaný rôznymi spôsobmi. Formátovanie ako tučné a kurzíva sú stratené; prerušenia mäkkej čiary v rámci textu textu sa premenia na prestávky s pevným riadkom; pomlčky prelomiť slovo na dvoch riadkoch sú zachované, aj keď by nemali byť; a jedno a dvojité úvodzovky sú nahradené? znaky.

V ideálnom prípade by som chcel byť schopný skopírovať text z PDF a formátovať previesť na HTML kódy, "inteligentné úvodzovky" konvertované na "a" a riadkové prestávky správne. Existuje nejaký spôsob, ako to urobiť??

Existuje rýchly a jednoduchý spôsob, ako Colen (a my ostatní) dostať chytiť text bez obetovania formátovania?

Odpoveď

Pomocník spoločnosti SuperUser Frabjous ponúka riešenie kombinované s veľkou dávkou opatrnosti:

Po prvé, musíte pochopiť, čo je PDF. Dokumenty PDF sú navrhnuté tak, aby napodobňovali vytlačenú stránku a sú navrhnuté iba ako výstupný formát, nie ako vstupný formát. PDF je v podstate mapa, ktorá obsahuje presné umiestnenie znakov (jednotlivé písmená alebo interpunkčné znamienka atď.) alebo obrázky. Vo väčšine prípadov dokument PDF neumožňuje ani ukladať informácie o tom, kde končí jedno slovo a začína ďalší, oveľa menej veci, ako sú mäkké prestávky alebo tvrdé prestávky pre koncovky okien.

(Niekoľko nedávnych súborov PDF ukladá niektoré informácie o týchto veciach, ale je to nová technológia a mali by ste mať šťastie, že nájde takéto súbory PDF.) Aj keď ste to urobili, váš prehliadač PDF nemusí o nej vedieť.)

Každopádne je na vašom softvéri, aby zaviedol nejaký druh "umelej inteligencie", aby z miesta jednotlivých znakov získal iba to, čo je slovo, čo je odsek a tak ďalej. Rôzny softvér bude robiť to lepšie ako ostatné, a to bude tiež závisieť na tom, ako PDF bol vyrobený. V žiadnom prípade by ste nikdy nemali očakávať dokonalé výsledky. S výstupom PDF nie je to isté ako mať zdrojový dokument. Ďaleko lepšie sa pokúsiť získať, že ak môžete.

Štandardným riešením vášho druhu problému je použiť Adobe Acrobat Professional (drahý, nie voľný čítač) na konverziu PDF na HTML. Aj to nebude mať dokonalé výsledky.

Existuje slobodný softvér, ktorý možno použiť na extrahovanie textu z PDF súborov s niektorými formátmi neporušenými, ale opäť neočakávame dokonalé výsledky. Pozrite si napríklad kalibru (ktorý môže konvertovať na formát RTF), pdftohtml / pdfreflow alebo AbiWord textový procesor (so všetkými importovanými / exportovanými doplnkami povolenými). K dispozícii je aj doplnok importu PDF pre OpenOffice.

Ale prosím neočakávajte dokonalosť s niektorým z týchto výsledkov. Chystáte sa proti zrnu. PDF sa jednoducho neznamená ako editovateľný vstupný formát.

Ak máte problémy s rozhodnutím, ktorý nástroj sa má začať, Caliber je skutočný dokument Swiss Army nôž. Môžete ho tiež použiť na konverziu súborov PDF na použitie vo vašom ebook reader a usporiadanie knižnice e-kníh / dokumentov.

Máte niečo doplniť vysvetlenie? Vyjadrite sa v komentároch. Chcete sa dozvedieť viac odpovedí od iných používateľov technickej úrovne Stack Exchange? Pozrite sa na celý diskusný príspevok tu.