PDFelement: Texte aus gescannten PDF-Dokumenten extrahieren mit OCR

3

PDF-Dokumente lassen sich in der Regel sehr einfach bearbeiten und selbst Microsoft Word bietet in diesem Zusammenhang viele Grundfunktionen. Besonders im Geschäftsleben, jedoch auch als Student sowie gelegentlich auch als Privatnutzer, hat man es manchmal mit eingescannten PDF-Dokumenten zu tun.

Solche PDF-Dokumente sind dann im Prinzip Bilddateien und die Texte, Bilder und anderen Elemente darauf können von Programmen wie Word nicht mehr bearbeitet werden. Um solche Dokumente bearbeiten zu können, sind Funktionen wie OCR erforderlich. OCR steht für Optical Character Recognition, zu Deutsch also „optische Zeichenerkennung“. Microsoft Office bietet eine solche Funktion nicht, weswegen Anwender zum Bearbeiten von eingescannten Office-Dokumenten von professioneller Software wie PDFelement Gebrauch machen müssen.

PDFelement zum Beispiel bietet ein sehr umfangreiches Set an Funktionen zum Bearbeiten von PDF-Dokumenten. Hierzu zählt auch ein integriertes OCR-Feature, das gescannte PDF-Dokumente in bearbeitbare Texte umwandelt. Ihr könnt daraufhin ein Dokument, das euch beispielsweise ein Kollege abfotografiert oder eingescannt hat, auf eurem Windows 10 PC oder Laptop ohne Weiteres bearbeiten.

Anleitung: Gescannte PDF-Dokumente bearbeiten

PDFelement 6 Pro bietet ein sehr einfaches Interface, welches auch ziemlich an Microsoft Office angelehnt ist. Wäre das Programm in der Office-Suite enthalten, würde es sich mit dem Design ideal einpflegen. Auf diese Weise gewöhnt man sich als Nutzer schnell an die Bedienung und kann einzelne Funktionen schnell finden. Obwohl PDFelement einen sehr großen Funktionsumfang bietet, wirkt das Interface nicht überladen und das Desktop-Programm ist dennoch sehr einfach zu bedienen.

Dennoch möchten wir euch in unserer kurzen Schritt-für-Schritt-Anleitung zeigen, wie ihr gescannte PDF-Dokumente bearbeiten könnt ihr PDFelement 6 Pro.

  1. Startet PDFelement 6 Pro.
  2. Öffnet das gewünschte PDF-Dokument in der Software.
  3. Navigiert zur Registerkarte Bearbeiten in der Ribbon-Leiste.
  4. Klickt nun auf OCR.
  5. Klickt auf OK, wenn die Sprache eures Dokuments korrekt angezeigt wird.
  6. Wartet bis PDFelement 6 Pro den Text eures PDF-Dokuments erkannt hat.

Beim ersten Nutzen von PDFelement Pro 6 zum Bearbeiten von eingescannten PDF-Dokumenten müsst ihr das entsprechende OCR-Plugin herunterladen.

Im Anschluss an die Erkennung durch das OCR-Feature könnt ihr den Text des Dokuments idealerweise in der Software selbst bearbeiten oder durchsuchen. Wenn es zum Beispiel kleinere Fehler in einem gescannten Dokument gibt, welches euch nicht als Textdatei vorliegt, könnt ihr diese in der Software schnell korrigieren. Es ist auch ein Export der Datei als Word-Dokument möglich, allerdings gibt es gelegentlich beim Layout einige Schwierigkeiten bei größeren Dokumenten. Unsere Empfehlung ist, die Dokumente direkt in PDFelement zu bearbeiten, wozu sich das Programm übrigens sehr gut eignet.

Video mit OCR-Feature Demo

Wir haben PDFelement 6 Pro vor einiger Zeit im Video vorgestellt und getestet. Dort zeigen wir auch, wie das OCR-Feature funktioniert und wie es benutzt wird.

In unserem gescannten Anwaltsbrief zeigt die Software ihre Stärken. Nachdem das Video bislang noch nicht allzu viele Aufrufe hatte, möchten wir das Gewinnspiel um die wertvollen Keys etwas verlängern. Was ihr dafür tun müsst, erfahrt ihr im Video.

0 0 votes
Article Rating

Über den Autor

Subscribe
Benachrichtige mich zu:
3 Comments
neuste
älteste beste Bewertung
Inline Feedbacks
View all comments