Double OCR and Compare

 

OCR-Engine

Erkennungsrate

Qualitätssteigerung

Double OCR

manuelle Korrektur

Double OCR and Compare

 

Der Kunde:
Der Kunde ist ein Zeitungsverlag, dessen komplettes Archiv digitalisiert werden soll. Dabei ist das Ziel nicht nur, die alten, nur in gedruckter Fassung vorliegenden Zeitungen zu erhalten. Es geht auch darum, die Inhalte später in XML umzuwandeln, um sie für weitere Recherchen und Vermarktung einsetzen zu können.

Die Problemstellung:
OCR Engines arbeiten nie fehlerfrei. Das gilt selbst für Profiversionen, die lernfähig sind und über die Zeit ihre Erkennungsleistung verbessern. Dabei gilt: Je schlechter die Bildvorlage, desto schlechter das OCR-Ergebnis. Die Erkennungsrate liegt bei etwa 99 %. Das klingt sehr hoch, bedeutet aber, dass in der Realität pro 100 Zeichen ein Fehler auftritt. Bei einer ganzen Zeitungs- oder Buchseite summiert sich das leicht auf eine hohe Fehlerzahl. Die Ursache liegt in Verschmutzungen oder kleinsten Pünktchen auf der Seite. Die Bildqualität, die daraus resultiert, bestimmt das Endergebnis. Die Engine interpretiert solche Pünktchen als Zeichen und füllt mit Buchstaben oder Satzzeichen auf. Im Ergebnis bedeutet eine solche Erkennungsrate, dass Pro Seite etwa 15 bis 20 Fehler auftauchen. Für die Weiterverarbeitung zu XML ist eine solch hohe Fehlerquote störend.

Die Lösung:
Die Lösung besteht in einer Kombination aus mehreren Software-Schritten und einer manuellen Nachkontrolle durch die Mitarbeiter von tool-e-byte in Indien. Dabei wird zunächst ein doppeltes OCR genutzt. Das bedeutet, zwei sehr hochwertige OCR-Engines generieren den Text. Im nächsten Schritt vergleicht eine grafische Software die beiden Texte. Stimmen sie überein, läuft sie weiter. Gibt es Unterschiede an einer Stelle, stoppt die Software und die betreffende Stelle wird an einen Mitarbeiter von tool-e-byte in Indien übermittelt. Diesem Mitarbeiter liegen sowohl die beiden OCR-Ergebnisse als auch der Originaltext vor. Er kann jetzt entscheiden, welche Version die richtige ist und die Korrektur vornehmen. Das Outsourcing an tool-e-byte passiert ausschließlich an den Standort in Indien, weil dies die kostengünstigste Lösung darstellt. Sprachkenntnisse in Deutsch oder einer anderen Ausgangssprache sind dazu nicht notwendig, lediglich die Beherrschung des zugrundeliegenden Alphabets.

Die Vorteile:
Für den Verlag bedeutet die Kombination aus doppeltem OCR, grafischer Überprüfung und manueller Nachkontrolle eine erhebliche Qualitätssteigerung. Die Erkennungsrate von 99 % steigt auf 99,995 %. In Zeichen und Fehlern ausgedrückt bedeutet das: Bei 100.000 Zeichen liegen jetzt nur noch 5 Fehler vor. Die Weiterverarbeitung in XML ist jetzt kein Problem mehr. Gleichzeitig spart der Verlag erhebliche Kosten, denn die Nachbearbeitung durch Mitarbeiter in Indien sichert die günstigste Kostenvariante. Die Lösung selbst ist nicht nur für Verlage interessant. Auch andere Branchen, die eine sehr hohe Genauigkeit in der Qualität der OCR-Erkennung brauchen, können von diesem Prozess profitieren.