Zoeken in deze blog

zondag 23 mei 2021

2021.05.23_PDF Text OCR Xtractor 1.8.5

Tekst extraheren uit PDF's en alle soorten populaire afbeeldingsformaten

PDF Text OCR Xtractor is perfect om tekst te extraheren uit PDF's en alle soorten populaire afbeeldingsformaten, zoals PNG, JPG, BMP en TIFF.

PDF Text OCR Xtractor maakt gebruik van de Tesseract OCR technologie. Tesseract is misschien wel de krachtigste en meest geavanceerde gratis OCR-software die er is en hier is waarom: Allereerst een stukje geschiedenis. Het werd ontwikkeld door HP in 1994, maar al snel gaf het bedrijf het vrij onder Apache Licentie voor open-source ontwikkeling. In 2006 nam Google het project over en sponsorde ontwikkelaars om aan Tesseract te werken. Inmiddels is Tesseract uitgegroeid tot de meest krachtige OCR engine die Deep Learning gebruikt om teksten uit afbeeldingen (BMP, PNG, JPEG, TIFF, enz.) en PDF-bestanden te extraheren.

PDF Text OCR Xtractor ondersteunt 20+ verschillende talen en laat u aangepaste verwerkingsparameters instellen op bronbestanden/afbeeldingen, zoals afvlakking en DPI-aanpassing, contrastverhoging en andere handige trucs, voordat u ze analyseert.

PDF Text OCR Xtractor heeft een hoge nauwkeurigheid en zal elke afbeelding of PDF die u heeft in bewerkbare doorzoekbare tekst veranderen. De conversie van afbeelding naar tekst is snel.

Belangrijkste kenmerken:
1. Gebruik van de beste OCR-technologie beschikbaar;
2. Ondersteuning voor 20+ verschillende talen;
3. Nuttige beeldtransformaties om de nauwkeurigheid op moeilijke documenten te verbeteren.

Extra functies:
1. Goedkoopste Tesseract engine grafische gebruikersinterface die u maar kunt vinden;
2. Ondersteuning voor PDF en alle gangbare afbeeldingsformaten zoals PNG, JPG, BMP.

Systeemeisen: Windows 7/ 8.1/ 10 (x32/x64)

We kregen deze 32 bitter nog niet eerder. Ik ken de maker PCWinSoft wel, maar ben niet erg onder de indruk van hun software. Dus alleen omdat het een nieuweling is, heb ik ermee gespeeld. Mooi dat de licentie levenslang is en dat het een vóór=geactiveerd product is. Dus geen gehannes met sleutels en stiekeme mailadressen. Tot mijn verbazing is het niet ingepakt in Themida. Dat lag namelijk met deze twee kenmerken (levenslang, geen sleutel nodig) wel voor de hand. Wel is het zo, dat het stiekem naar updates wil zoeken, waarmee u de activatie verliest. Let er dus op dat u het zoeken naar updates uitschakelt met deze registeraanpassing:

[HKEY_CURRENT_USER\Software\PCWinSoft\PDFTextOCRXtractor\general]
"checkforupdates"=dword:00000000

Helaas kent het geen Nederlands. Dat is bij OCR wel een gemis. Bij het installeren krijgt u Ghostscript 9.53.3 en ImageMagick Display erbij. Het eerste is een stukje Open Source. Ghostscript is een interpreter voor de PostScript® taal en PDF bestanden. Het is beschikbaar onder de GNU GPL Affero licentie of onder een licentie voor commercieel gebruik van Artifex Software, Inc. Het wordt al meer dan 30 jaar actief ontwikkeld en is in die tijd naar verschillende systemen geport. Ghostscript bestaat uit een PostScript interpreter laag en een grafische bibliotheek. Met ImageMagick Display kunt u plaatjes kijken. Tesseract OCR  is Open Source software voor tekenherkenning (OCR = Optical Character Recognition). Werkt lang niet zo goed als het onvolprezen ABBYY. Want die behoudt de lay-out. Dit prul produceert alleen tekst, conform zijn naam Xtractor = uittrekker. Doet me aan de tandarts denken. Die doet dat ook aan de lopende band.

Zelf gebruik ik de professionele versie van VueScan om te scannen, waarbij automatisch OCR wordt uitgevoerd, zodat de pdf's doorzoekbaar zijn. Kost €70, maar is dat dubbel en dwars waard. Als u geen behoefte aan OCR heeft, kunt u een goedkopere versie voor €20 kopen. Dan kunt u uw antieke scanner nog steeds gebruiken. Werkt ook onder Linux.

Helaas lukt het me niet om een werkende Cameyo portable te maken. Maar op de klassieke manier lukte dat wel.

In de uitwisselmap staat een install_and_"activate" en een klassiek gemaakte portable. Doet het prima op de virtuele W7 64 Pro.



Geen opmerkingen:

Een reactie posten