Texte mit Captcha digitalisieren

Die beste OCR-Software versagt bei schwer leserlichen Texten. Um deren Digitalisierung trotzdem zu realisieren hilft u. a. die Software reCAPTCHA. Durch diese helfen „Benutzer“ von einem sogenannten Captcha (meist unwissentlich) mit das Intenet Archiv (hier werden Bücher digitalisiert, deren Urheberschutz erloschen ist) und alte Ausgaben der New York Times zu digitalisieren.

Damit das funktioniert müssen Website-Betreiber das reCAPTCHA auf ihrer Seite integrieren. Zur Zeit sind dies ca. 450.000 – mit dabei z. B. auch Facebook. Dabei werden unleserliche Wörter in Form eines Captchas gleichzeitig an mehrere Seiten gesendet, so dass lt. der Betreiber eine Treffsicherheit von über 96% erzielt wird, denn im Gegensatz zu einem „richtigen“ Captcha ist die „Lösung“ vorher ja nicht bekannt.

Für WordPress gibt es sogar ein Plugin um reCAPTCHA zu nutzen.

Via Zeit Online

Schreibe einen Kommentar

Kommentarlinks könnten nofollow frei sein.