Je wilt een aantal gedrukte documenten inscannen om die dan in je tekstverwerker in te laden en aan te passen. Een onmogelijke klus zonder tekstherkenning (OCR). Nu zit er wel een basale OCR-module in Office ingebouwd, maar FreeOCR is iets flexibeler. Standaard herkent FreeOCR alleen de Engelse taal, maar op de site vind je een […]

Advertentie

Je wilt een aantal gedrukte documenten inscannen om die dan in je tekstverwerker in te laden en aan te passen. Een onmogelijke klus zonder tekstherkenning (OCR). Nu zit er wel een basale OCR-module in Office ingebouwd, maar FreeOCR is iets flexibeler.

Standaard herkent FreeOCR alleen de Engelse taal, maar op de site vind je een link naar bijkomende taalpakketten – inclusief de nodige installatie-instructies – waaronder Baskisch, Spaans, Portugees, Frans en Nederlands.

[download_file]

De tekstherkenningsmotor blijkt die van Tesseract te zijn: een uitstekende engine, ontwikkeld tussen 1985 en 1995 in de laboratoria van HP en intussen in handen van Google (zie ook hier).

Resultaat is goed
De tool laat zich eenvoudig bedienen. Je stelt de gewenste OCR-taal in, drukt de Scan-knop in (of opent een beeld- of pdf-bestand) en markeert desgevallend de tekst op het ingescande document die FreeOCR moet analyseren. Desnoods kan je het document nog in stappen van 90° roteren.

Met een druk op de knop OCR zet je de tekstherkenning in werking. Het resultaat verschijnt in een afzonderlijk paneel en kan je eventueel meteen corrigeren.

Het resultaat is behoorlijk, althans wanneer aan enkele voorwaarden is voldaan. Je scant bij voorkeur op 300 dpi in grijswaarden, de tekst moet van uitstekende kwaliteit zijn en het document bevat bij voorkeur geen grafische elementen.

De herkende tekst laat zich vervolgens naar een txt-bestand opslaan, naar het Windows-klembord kopiëren of naar een Word-document exporteren.

Op dit moment zijn de makers volop bezig met de ontwikkeling van opvolger FreeOCR 4.0. Die had zelfs enkele maanden geleden al online moeten staan.

Advertentie