Willkommen Gast. Bitte einloggen oder registrieren. Haben Sie Ihre Aktivierungs E-Mail übersehen?
24.10.2021, 16:41:27

.
Einloggen mit Benutzername, Passwort und Sitzungslänge

Mitglieder
Statistiken
  • Beiträge insgesamt: 759438
  • Themen insgesamt: 61014
  • Heute online: 611
  • Am meisten online: 2287
  • (22.01.2020, 19:20:24)
Benutzer Online

Autor Thema: [gelöst]  tesseract mit XSane macht nur leere Textdateien, Cinnamon  (Gelesen 406 mal)

0 Mitglieder und 1 Gast betrachten dieses Thema.

[gelöst] tesseract mit XSane macht nur leere Textdateien, Cinnamon
« am: 14.09.2021, 22:08:34 »
Hi,

ich habe tesseract für XSane nach dieser Anleitung eingerichtet: https://wiki.ubuntuusers.de/tesseract-ocr/.

/usr/local/bin$ ls -l xsane2tess4.sh
-rwxr-xr-x 1 root root 4722 Sep 14 21:08 xsane2tess4.sh

Das Scannen in die Vorschau, wie dort beschrieben in Schwarz/Weiss und mit 300dpi Auflösung, funktioniert einwandfrei, wenn ich dort aber auf den OCR-Button gehe, bekomme ich nur eine leere Textdatei.

Ich verstehe nicht, was hier nicht stimmt. Kann mir da bitte jemand weiter helfen?
« Letzte Änderung: 15.09.2021, 12:44:24 von Mäck »

Re: tesseract mit XSane macht nur leere Textdateien, Cinnamon
« Antwort #1 am: 14.09.2021, 23:06:38 »
Ich kann Dir bei deinem Problem nicht helfen, jedoch auf eine kleine Alternative aufmerksam machen. Für die Texterkennung in gescannten Files nutze ich das Programm ocrmypdf. Das liegt in den Quellen und wie der Name schon sagt, fügt es bei pdf-Dateien einen zusätzliche Textlayer ein. Es funktioniert sehr schön, es ist leider nur ein Programm fürs Terminal, was aber auch nicht schlimm ist, da ich den Befehl
find . -printf '%p' -name '*.pdf' -exec ocrmypdf -l deu --rotate-pages '{}' '{}' \;
verwende. Damit werden alle Dateien im Verzeichnis nacheinander abgearbeitet und eben mit diesem Textlayer versehen. Wenn es den schon gibt, so springt das Programm weiter.
Jetzt noch was zu Lesen
https://write.tchncs.de/~/Paperless/schritt-2-texterkennung-ocr-von-pd-fs-unter-linux
https://ocrmypdf.readthedocs.io/en/latest/cookbook.html

Re: tesseract mit XSane macht nur leere Textdateien, Cinnamon
« Antwort #2 am: 15.09.2021, 08:11:35 »
Danke @Bernibär. Das kann ich auch gerne mal ausprobieren.

Es ging mir aber hauptsächlich um die Integration der tesseract OCR in XSane, um das auch für jemanden einigermaßen komfortabel nutzbar zu machen, der auf der Kommandozeile nichts kann.

Übrigens auch wenn ich als Dateityp TEXT angebe, bekomme ich eine leere Textdatei.


Re: tesseract mit XSane macht nur leere Textdateien, Cinnamon
« Antwort #3 am: 15.09.2021, 09:55:08 »
Es gibt da noch das Programm yagf, das auch in den Quellen ist und das eine GUI für Tesseract und Xsane dafür sein soll. Ich hatte es mir mal vor unlanger Zeit installiert und da funktionierte es ganz gut. Auch wenn ich Mausschubser bin so mag das ocrmypdf sehr, die Bedienung ist sehr einfach und es läuft.

Re: tesseract mit XSane macht nur leere Textdateien, Cinnamon
« Antwort #4 am: 15.09.2021, 11:05:42 »
Es gibt da noch das Programm yagf, das auch in den Quellen ist und das eine GUI für Tesseract und Xsane dafür sein soll.
Danke auch für diesen Tipp. Das Programm läuft und sieht gut aus, der Scan funktioniert einwandfrei und das Bild wird im Programm angezeigt. Aber auch hier bekomme ich beim abspeichern nur eine leere Textdatei.
 
Scheinbar ein Problem beim OCR-Vorgang von Tesseract. Ich kann aber nicht weiter eingrenzen, wo das Problem liegt.

Re: tesseract mit XSane macht nur leere Textdateien, Cinnamon
« Antwort #5 am: 15.09.2021, 11:10:39 »
Guten Morgen,
ich habe das bei mir auch >XSane< mit >tesseract< eingerichtet.
Damit das funktioniert musst du in >/usr/share/tesseract-ocr/4.00/tessdata< die Datei >deu_traineddata< in  >de_DEU.UTF-8.traineddata< umbenennen. Mach dir aber eine Sicherungskopie von der Datei und lege diese in einem anderen Verzeichnis ab.
Xsane stellst du wie im Bild gezeigt ein und in die Konfiguration für die Texterkennung gibst du folgendes ein:
/PFAD ZUM SCRIPT/SCRIPTNAME.sh -l deu -c txtBei den Optionen unbedingt auf die korrekte Syntax achten!!!
Rest der Einstellungen wie im Bild gezeigt...
Gruß
Wolfgang

Re: tesseract mit XSane macht nur leere Textdateien, Cinnamon
« Antwort #6 am: 15.09.2021, 12:43:10 »
Damit das funktioniert musst du in >/usr/share/tesseract-ocr/4.00/tessdata< die Datei >deu_traineddata< in  >de_DEU.UTF-8.traineddata< umbenennen.
...
/PFAD ZUM SCRIPT/SCRIPTNAME.sh -l deu -c txtBei den Optionen unbedingt auf die korrekte Syntax achten!!!
Hallo Wolfgang,

vielen Dank. Es lag wohl an den Optionen hinter dem Scriptnamen. Jetzt funktioniert es.
Allerdings noch ohne Änderung der "traineedata". Was hat es damit auf sich?

 :)

Re: tesseract mit XSane macht nur leere Textdateien, Cinnamon
« Antwort #7 am: 15.09.2021, 14:59:53 »
Moin,
das freut mich...
Bei wir war im Error.log des Scripts ersichtlich das er die >de_DEU.UTF-8.traineddata< erwartet. Möglicherweise liegt das an meinem LM 19.3...
Gruß
Wolfgang