Extrahovať text z PDF a obrázkových súborov
Máte dokument PDF, z ktorého by ste chceli extrahovať celý text? Čo s obrazovými súbormi naskenovaného dokumentu, ktoré chcete previesť do upraviteľného textu? Toto sú niektoré z najčastejších problémov, ktoré som videl na pracovisku pri práci so súbormi.
V tomto článku budem hovoriť o niekoľkých rôznych spôsoboch, ako môžete vyskúšať extrahovať text z PDF alebo z obrázka. Vaše výsledky extrakcie sa budú líšiť v závislosti od typu a kvality textu v PDF alebo obrázku. Tiež sa vaše výsledky budú líšiť v závislosti od nástroja, ktorý používate, takže je najlepšie vyskúšať toľko možností, ako je to možné, aby ste dosiahli najlepšie výsledky.
Extrahujte text z obrázka alebo PDF
Najjednoduchší a najrýchlejší spôsob, ako začať, je vyskúšať on-line službu extraktora PDF. Tieto sú zvyčajne bezplatné a môžu vám presne to, čo hľadáte, bez toho, aby ste museli inštalovať nič do počítača. Tu sú dva, ktoré som použil s veľmi dobrými až vynikajúcimi výsledkami:
ExtractPDF
ExtractPDF je bezplatný nástroj na uchopenie obrázkov, textu a písiem zo súboru PDF. Jediným obmedzením je, že maximálna veľkosť súboru PDF je 10 MB. To je trochu malé; takže ak máte väčší súbor, skúste niektorú z ďalších metód uvedených nižšie. Vyberte súbor a potom kliknite na tlačidlo Poslať súbor Tlačidlo. Výsledky sú zvyčajne veľmi rýchle a po kliknutí na kartu Text by ste mali vidieť náhľad textu.
To je tiež pekný pridaný prínos, že extrahuje obrázky z PDF súboru taky, len v prípade, že potrebujete tieto! Celkovo online nástroj funguje skvele, ale narazil som na niekoľko dokumentov PDF, ktoré mi dávajú zábavný výstup. Text je extrahovaný v pohode, ale z nejakého dôvodu bude mať za každým slovom zlomok riadka! Nie je obrovský problém pre krátky súbor PDF, ale určite problém pre súbory s množstvom textu. Ak sa vám to stane, vyskúšajte ďalší nástroj.
Online OCR
Online OCR zvyčajne pracovalo pre dokumenty, ktoré nevykonali správnu konverziu s nástrojom ExtractPDF, takže je dobré skúsiť obidve služby, aby zistili, ktoré z nich vám dávajú lepší výkon. Online OCR má aj niektoré peknejšie funkcie, ktoré sa môžu ukázať ako užitočné pre každého, kto má veľký súbor PDF, ktorý potrebuje len prevádzať text na niekoľkých stránkach, a nie na celý dokument.
Prvá vec, ktorú chcete urobiť, je pokračovať a vytvoriť bezplatný účet. Je to trochu nepríjemné, ale ak nevytvoríte bezplatný účet, bude to len čiastočne konvertovať váš PDF skôr ako celý dokument. Tiež namiesto toho, aby ste mohli nahrať iba 5 MB dokumentu, môžete nahrať až 100 MB na súbor s účtom.
Najprv vyberte jazyk a potom zvoľte typ výstupných formátov, ktoré chcete prekonvertovaný súbor. Máte niekoľko možností a môžete si vybrať viac, ak chcete. pod Viacstranový dokument, môžete vybrať Čísla stránok a potom vyberte iba stránky, ktoré chcete previesť. Potom vyberte súbor a kliknite na tlačidlo premeniť!
Po konverzii sa dostanete do sekcie Dokumenty (ak ste prihlásený), kde môžete zistiť, koľko voľných stránok máte k dispozícii a odkazy na prevzatie konvertovaných súborov. Vyzerá to, že máte len 25 strán zadarmo každý deň, takže ak potrebujete viac, musíte buď počkať trochu, alebo zakúpiť viac stránok.
Online OCR urobil vynikajúcu prácu pri konverzii súborov PDF, pretože dokázal zachovať aktuálne rozloženie textu. V mojom teste som vzal dokument Word, ktorý používal guľky, rôzne veľkosti písma atď. A premenil ho na PDF. Potom som použil on-line OCR na prevod do formátu Word a bol to asi 95% rovnaký ako originál. To je pre mňa celkom pôsobivé.
Navyše, ak hľadáte konverziu obrázka na text, môže to urobiť online OCR rovnako ľahko ako extrakcia textu zo súborov PDF.
Online OCR zadarmo
Vzhľadom k tomu, že hovorili o obrázku na text OCR, dovoľte mi spomenúť ďalšie dobré webové stránky, ktoré funguje na obrázkoch naozaj dobre. Free OCR bol veľmi dobrý a veľmi presný pri extrakcii textu z testovaných obrázkov. Vzal som pár fotiek z môjho iPhone stránok z kníh, brožúr atď. A bol som prekvapený, ako dobre to bolo možné previesť text.
Vyberte súbor a kliknite na tlačidlo Nahrať. Na ďalšej obrazovke je niekoľko možností a ukážka obrázka. Môžete to orezať, ak nechcete OCR celú vec. Potom stačí kliknúť na tlačidlo OCR a váš prekonvertovaný text sa zobrazí pod náhľadom obrázku. To tiež nemá žiadne obmedzenia, čo je naozaj pekné.
Okrem online služieb existujú dva freeware konvertory PDF, ktoré chcem spomenúť, ak potrebujete softvér bežiaci lokálne vo vašom počítači na vykonanie konverzií. Pri online službách budete vždy potrebovať internetové pripojenie a to nemusí byť pre všetkých možné. Všimol som si však, že kvalita konverzií z freeware programov bola výrazne horšia ako kvalita internetových stránok.
A-PDF Text Extractor
A-PDF Text Extractor je freeware, ktorý robí pomerne dobrú prácu pri extrakcii textu zo súborov PDF. Po jeho načítaní a inštalácii kliknite na tlačidlo Otvoriť a vyberte súbor PDF. Potom spustite proces kliknutím na položku Extrahovať text.
Bude sa vás opýtať na miesto, kde sa bude ukladať textový výstupný súbor a potom sa začne extrahovať. Môžete tiež kliknúť na tlačidlo voľba , ktorý vám umožňuje vybrať iba niektoré stránky na extrahovanie a typ extrakcie. Druhá možnosť je zaujímavá, pretože extrahuje text v rôznych rozloženiach a stojí za to skúsiť všetky tri, aby zistili, ktoré z nich vám dávajú najlepší výstup.
PDF2Text Pilot
Pilot PDF2Text vykonáva úlohu extrakcie textu. Nemá žiadne možnosti; stačí pridať súbory alebo priečinky, previesť a dúfať najlepšie. Na niektorých súboroch PDF fungoval dobre, ale pre väčšinu z nich bolo veľa problémov.
Stačí kliknúť na položku Pridať súbory a potom kliknúť premeniť. Po dokončení konverzie kliknite na tlačidlo Prehľadávať a otvorte súbor. Užívanie kilometrov sa bude meniť pomocou tohto programu, takže nečakajte veľa.
Tiež je potrebné spomenúť, že ak ste v podnikovom prostredí alebo môžete získať ruky na kópiu Adobe Acrobatu z práce, potom môžete naozaj získať oveľa lepšie výsledky. Aplikácia Acrobat nie je samozrejme zadarmo, ale má možnosť previesť formát PDF do formátu Word, Excel a HTML. To tiež robí najlepšie úlohu zachovať štruktúru pôvodného dokumentu a konverziu zložitý text.