Gescanntes PDF mit OCR bearbeitbar machen

OCR für gescannte Dokumente

Gescannte PDFs sind im Grunde Bilder – Sie können den Text nicht auswählen oder bearbeiten. Die OCR-Technologie von UnblockPDF wandelt diese Bilder in durchsuchbaren, bearbeitbaren Text um.

Wann OCR verwenden

Verwenden Sie OCR bei gescannten Dokumenten, Fotos von Seiten oder PDFs, in denen der Text nicht auswählbar ist. Typische Beispiele sind eingescannte Verträge aus Papierarchiven, fotografierte Quittungen und Belege, ältere Dokumente, die nur als Scan vorliegen, sowie per Fax empfangene PDF-Dateien. Ein einfacher Test: Versuchen Sie, Text im PDF mit der Maus zu markieren. Wenn das nicht funktioniert, handelt es sich um ein Bild-PDF, das OCR benötigt.

So funktioniert OCR

Unsere OCR-Engine analysiert jede Seite, erkennt Textzeichen in den Bildern und erstellt eine Textebene über dem Original-Scan. Das bedeutet, dass das visuelle Erscheinungsbild Ihres Dokuments unverändert bleibt, aber eine unsichtbare Textschicht hinzugefügt wird. Diese Textschicht ermöglicht es Ihnen, Wörter zu suchen, Text zu kopieren und den Inhalt in anderen Programmen weiterzuverarbeiten.

Schritt-für-Schritt-Anleitung

1. PDF hochladen: Öffnen Sie Ihr gescanntes Dokument im Editor.
2. OCR-Erkennung starten: Die Texterkennung analysiert jede Seite automatisch. Je nach Seitenzahl und Scan-Qualität dauert dieser Vorgang wenige Sekunden bis einige Minuten.
3. Ergebnis prüfen: Kontrollieren Sie den erkannten Text stichprobenartig, insbesondere bei Zahlen, Eigennamen und Sonderzeichen.
4. Weiterverarbeiten: Bearbeiten Sie den erkannten Text im Editor oder exportieren Sie das durchsuchbare PDF.

Tipps für bessere OCR-Ergebnisse

Die Erkennungsqualität hängt stark von der Scan-Qualität ab. Scannen Sie Dokumente mit mindestens 300 DPI in Graustufen oder Schwarzweiß. Achten Sie auf gerade ausgerichtete Seiten – schiefe Scans führen zu mehr Erkennungsfehlern. Wenn schwarze Ränder oder überflüssige Bereiche stören, nutzen Sie vor der OCR-Erkennung das Zuschneiden-Tool, um nur den relevanten Seitenbereich zu verarbeiten. Nach der Texterkennung können Sie das Dokument mit dem Komprimieren-Tool verkleinern, da die zusätzliche Textebene die Dateigröße kaum verändert.

Weiterverarbeitung nach OCR

Ein durchsuchbares PDF ist der erste Schritt. Wenn Sie den Inhalt umfassend bearbeiten möchten, konvertieren Sie das Dokument anschließend in Word-Format. Für die reine Archivierung empfiehlt sich die Umwandlung in PDF/A, das eine langfristige Lesbarkeit sicherstellt.