Hallo Karl, Am 22.01.23 um 22:57 schrieb Karl Weber:
Hallo Mathias,
On Sunday, 22 January 2023 18:52:27 CET Mathias Klose wrote:
Scanner unter Linux hin oder her. Ein paar Fragen vorweg:
Was genau soll gescannt und ggf. weiterverarbeitet werden? Soll privat oder für eine Firma gescannt werden? Sollen Scans zu Bild-PDF's, durchsuchbaren PDF's, Archiv-PDF's (PDF/A) oder zu Bild-Dateien gescannt werden? Soll der Scanner Duplex beherrschen oder genügt der einfache Scan? Es soll ein Dokumentenscanner werden. Duplex wäre sehr erwünscht und sollte unter openSUSE auch funktionieren.
Duplex hat nichts mit dem OS zu tun. Das macht der Scanner.
Dias, Negative oder überhaupt Bilder/Fotos sind kein Thema. Es geht primär um Textdokumente, wie Rechnungen, Lieferscheine, Quittungen oder sonstige Dokumente, die gescannt und archiviert werden sollen. Die Möglichkeit, Visitenkarten und Plastikkarten wie Ausweise etc. zu scannen wäre ein nice-to-have, aber kein must. Das wird vermutlich gelegentlich aber wenn überhaupt dann nur sehr selten vorkommen.
Bisher habe ich immer nur TIFF mit scanimage gescannt und daraus dann mit convert (ImageMagic) selbst PDF/A erstellt und die Qualität von PDF/A mittels verapdf validiert. Convert macht dabei aus dem TIFF wohl ein JPEG 2000, gemäß Spezifikation von PDF/A. Dabei wird die Dateigröße auch drastisch reduziert, auf ein gut akzeptables Maß. Die Validierung erfolgt dabei klarerweise auf PDF/A-2, wegen der JPEG 2000-Kompression.
Das hat bisher immer perfekt funktioniert und ist mittels Script automatisiert. Die Qualität von PDF/A ist mir sehr wichtig, wegen der Langzeitarchivierung. Ich weiß nicht, in wieweit ich da dem, was einige Scanner vielleicht selbst machen, trauen kann/darf. Es wäre sehr ärgerlich, wenn verapdf nach dem Kauf die Qualität des vom Scanner erzeugten PDF/A bemängeln würde.
Was PDF/A betrifft, einfach mal die technischen Daten der Dokuscanner ansehen. Brother, Fujitsu oder Avision sind so einige Hersteller unter denen du mal schauen kannst.
OCR war bisher kein Thema und ich weiß nicht, ob es das überhaupt mal wird. Falls ja, dann würde ich mich tesseract erneut zuwenden. Damit hatte ich vor Jahren schon mal etwas herumgespielt, aber nicht ernsthaft betrachtet. OCR wäre nur notwendig für Metadaten und die Durchsuchbarkeit von PDF-Dokumenten. War bislang nicht erforderlich, die strukturierte Dokumentenablage war ausreichend. Von der Durchsuchbarkeit und wie ich das mit meinen Mitteln, angereichert um tesseract vielleicht erzeugen könnte, habe ich aber noch keine Ahnung. Wie gesagt, war bisher kein Thema und ist nicht absehbar.
Ich verwende hier einen Dokumentenscanner Brother ADS-2800W Brother ist durch sane kaum (praktisch gar nicht) unterstützt und der von Dir angegebene Scanner schon langsam über meinem Budget. Funktioniert der denn mit sane? Falls ja, wie? Was muss man dazu tun? Oder wie scannst Du unter openSUSE mit brother?
Ich scanne mit beiden Geräten via Netzwerk auf den Server. Brother hat übrigens generell einen erstklassigen Linux-Support. Für meinen Dokuscanner z.B. hier: https://support.brother.com/g/b/oslist.aspx?c=de&lang=de&prod=ads2800w_all Es gibt sogar Linux-Treiber zum Download.
Viele Grüße
Karl
Schöne Grüße Mathias