Was sind OCR-Dienste?

OCR-Dienste bieten eine gute Möglichkeit Drucksachen, wie z. B. Verträge, Zeitungsartikel usw. zu digitalisieren und dann weiter zu verarbeiten. Das stundenlange Abtippen solcher Dokumente, PDF-Dateien usw. gehört dank OCR-Diensten der Vergangenheit an. Für das Einscannen der Drucksachen wird nur eine Digitalkamera oder ein Scanner benötigt, um mittels eines OCR-Dienstes die Datei in eine weiter verarbeitbare digitale Form zu bringen. 

WAS HEISST OCR?

OCR, ausgeschrieben Optical Charakter Recognition bedeutet nichts anderes als Texterkennung bzw. optische Zeichenerkennung. Hierbei handelt es sich um eine Technologie, die dabei hilft, digitale Bilder, PDF-Dateien oder eingespannte Papierdokumente in eine weiter verarbeitbare Datei umzuwandeln, indem der Inhalt nicht nur bildlich erfasst sondern für Software lesbar digitalisiert wird. 

WAS KANN EINE OCR-SOFTWARE 

Eine OCR-Software ist fähig, in Bildern Buchstaben zu erkennen und diese wieder zu Worten und ganzen Sätzen zusammenzubauen. 

WIE FUNKTIONIERT EIN OCR-DIENST? 

Ein OCR-Dienst analysiert zuerst das Layout eines Dokuments. Hierfür schaut er sich den Aufbau genau an und sorgt erst einmal für eine Trennung von Text und Bild. Dabei merkt sich die Software die genaue Position der einzelnen Elemente. Nachfolgend analysiert der OCR-Dienst die weiteren Elemente eines Dokuments, wie z. B. die Anzahl der Absätze, die Anzahl der Seiten usw. 

Nachfolgend wirft der OCR-Dienst einen genauen Blick auf die Textblöcke und zerlegt diese in Sätze, Worte bis hin zu einzelnen Buchstaben. Im nächsten Schritt vergleicht die Software das entdeckte Zeichen-Buchstaben-Muster noch einmal mit den Buchstaben des eingescannten Dokuments. Ist eine 99%ige Ähnlichkeit gegeben, geht der Algorithmus des OCR-Dienstes davon aus, dass der Buchstabe, den das Programm festgelegt hat, richtig ist. 

Wissenswert: Der Algorithmus eines OCR-Dienstes ist äußerst leistungsfähig. Er ist so genau, dass er sogar eine 8 von einem B unterscheiden kann.

Die erkannten Buchstaben, Zahlen und Zeichen werden nun wieder zu Worten und Sätzen kombiniert und an der entsprechenden Position im „neuen“, digitalen Dokument zusammengesetzt. Ist der OCR-Dienst fertig, wird der Inhalt in einem Dokumentenformat gespeichert, das wieder bearbeitet werden kann. 

WELCHE VORTEILE BIETEN OCR-DIENSTE? 

Sehbehinderte tun sich leichter, da sie dank OCR-Dienst wirklich jede Datei von ihrem Screenreader lesen lassen können. OCR-Dienste speichern das neue Dokument im selben Layout wie das Ursprungsdokument.

OCR-Dienste versprechen sich eine deutliche Erleichterung und Zeitersparnis, da die Dateneingabe deutlich schnell vonstatten geht. 

WELCHE FAKTOREN HABEN EINFLUSS AUF DIE QUALITÄT DES OCR-DIENSTES? 

Die Qualität und die Auflösung des Ursprungsdokuments haben deutlichen Einfluss auf das Ergebnis des OCR-Dienstes. Genauso wird die Qualität des neuen mittels OCR-Dienstes erstellten Dokuments vom Layout, der Schriftart, dem Kontrast und der Farbigkeit des Ursprungsdokuments beeinflusst. Natürlich spielen auch die Qualität der Wörterbücher und die Musterdatenbanken der Software eine wichtige Rolle. Ebenso von Relevanz ist der OCR-Algorithmus zur Korrektur von Fehlern.  

Welche Freeware gibt es im Bereich der OCR-Funktionalität? 

  • FineReader OCR 
  • Free OCR 
  • OCR-Texterkennung 

Mittlerweile gibt es auch eine Reihe an OCR-Apps für mobile Endgeräte.