Formate Verwaltung abgescannter Briefe (tiff,pdf,..)?
Hat hier jmd Erfahrung mit der Verwaltung abgescannter Dokumente? - Es soll unter Linux ein Archivierungssystem mit html-Frontend erstellt werden. Die Dokumente werden mit dem fi4120-Duplexscanner eingescannt und dann solls irgendwie weitergehen: * alle Dokumente die der Scanner in einem Zug in seinem Dokument-Feeder vorgefunden hat (also ohne Unterbrechung), sollen in EIN Dokument zusammengefaßt werden. Das Dokument soll aber wieder trennbar sein, z.B. weil ein paar Seiten eines Briefes weggeworfen werden sollen. * Es sollen einzelne Scans gedreht werden können. * Es sollen einzeln abgescannte Briefe zu einem Dokument vereinigbar sein. Was für Formate sind die günstigsten? Ich meine das mit Hinsicht auf drehen, zusammenfügen, auseinandernehmen, etc, nicht in Hinsicht auf Speicherung. Es kommen in das Büro täglich ca 40 Briefe rein. danke schonmal Ekkard
Moin, Am Mo, den 07.06.2004 um 16:25 Uhr +0200 schrieb Ekkard Gerlach:
Hat hier jmd Erfahrung mit der Verwaltung abgescannter Dokumente? - Es soll unter Linux ein Archivierungssystem mit html-Frontend erstellt werden. Die Dokumente werden mit dem fi4120-Duplexscanner eingescannt und dann solls irgendwie weitergehen: * alle Dokumente die der Scanner in einem Zug in seinem Dokument-Feeder vorgefunden hat (also ohne Unterbrechung), sollen in EIN Dokument zusammengefaßt werden. Das Dokument soll aber wieder trennbar sein, z.B. weil ein paar Seiten eines Briefes weggeworfen werden sollen. * Es sollen einzelne Scans gedreht werden können. * Es sollen einzeln abgescannte Briefe zu einem Dokument vereinigbar sein.
Was für Formate sind die günstigsten? Ich meine das mit Hinsicht auf drehen, zusammenfügen, auseinandernehmen, etc, nicht in Hinsicht auf Speicherung. Es kommen in das Büro täglich ca 40 Briefe rein.
Auf die Gefahr, an die Wand genagelt zu werden, weil ich dir eine nicht-Linux-Lösung empfehle: Das Acrobat 4.0 Paket, welches ich für den Mac verwendet habe, enthielt ein paar Programme mehr als das aktuelle 6.0. Eines davon war eine Texterkennung mit einem besonderen Schmankerl: Es wurde beim Scannen eine PDF-Datei erstellt, die das Bild des Scans enthielt. Darüber lag unsichtbar der erkannte OCR-Text. Das heisst: Man /sieht/ das Originaldokument mit allen Fettfingern und Falzmarken, kann aber Copy&Paste machen wie bei einem normalen ASCII-Text, und per AdobeCatalog lies sich das ganze auch in einen Suchindex bringen. Meines Wissens sind die OCR-Programme unter Linux noch nicht so dolle (ich lasse mich gern vom Gegenteil überzeugen), sonst könnte man da bestimmt das gleiche dengeln. Ich habe vor einigen Tagen den Acrobat 6 Professional gekauft. Dort ist aber nur der Distiller und der Acrobat (Vollversion) drin, nicht aber obiges Tool und auch nicht Catalog. Ich habe den Namen der Texterkennung vergessen, grummel... Guck doch mal bei Adobe. Deine Aufgabenbeschreibung klingt so, als wäre im Budget noch Platz für etwas Software. :-) Gruß, Ratti -- -o) fontlinge | Fontmanagement for Linux | Schriftenverwaltung in Linux /\\ http://freshmeat.net/projects/fontlinge/ _\_V http://www.gesindel.de https://sourceforge.net/projects/fontlinge/
Hallo Ratti, Am Dienstag, 8. Juni 2004 21:29 schrieb Joerg Rossdeutscher:
Ich habe vor einigen Tagen den Acrobat 6 Professional gekauft. Dort ist aber nur der Distiller und der Acrobat (Vollversion) drin, nicht aber obiges Tool und auch nicht Catalog. Ich habe den Namen der Texterkennung vergessen, grummel...
Die Möglichkeit einer OCR innerhalb von Acrobat gibt es immer noch (---> Capture). Gruß Thomas
Joerg Rossdeutscher schrieb:
Am Mo, den 07.06.2004 um 16:25 Uhr +0200 schrieb Ekkard Gerlach:
Hat hier jmd Erfahrung mit der Verwaltung abgescannter Dokumente? - Es soll unter Linux ein Archivierungssystem mit html-Frontend erstellt werden. Die Dokumente werden mit dem fi4120-Duplexscanner eingescannt und dann solls irgendwie weitergehen: * alle Dokumente die der Scanner in einem Zug in seinem Dokument-Feeder vorgefunden hat (also ohne Unterbrechung), sollen in EIN Dokument zusammengefaßt werden. Das Dokument soll aber wieder trennbar sein, z.B. weil ein paar Seiten eines Briefes weggeworfen werden sollen. * Es sollen einzelne Scans gedreht werden können. * Es sollen einzeln abgescannte Briefe zu einem Dokument vereinigbar sein.
Was für Formate sind die günstigsten? Ich meine das mit Hinsicht auf drehen, zusammenfügen, auseinandernehmen, etc, nicht in Hinsicht auf Speicherung. Es kommen in das Büro täglich ca 40 Briefe rein.
Das wünsche ich mir auch schon seit Jahren. Bislang scanne ich die Dokumente unter Windoof mit Fujitsus Scandall21 und speichere sie als Multipage-TIFFs. Derzeit bin ich quasi in der Sammelphase, da eine mich zufrieden stellende und erschwingliche Lösung weder unter Win noch unter Linux existiert. Linux' Scanning-Subsystem Sane kennt derzeit folgende Fujitsu-Scanner: http://www.sane-project.org/sane-mfgs.html#Z-FUJITSU Der fi-4120 ist dabei, mein fi-4110cu wird nach wie vor nicht unterstützt. Die Firma Scandox bietet auf kommerzieller Basis Treiber für fujitsu-scanner an http://www.scandox.de. Wenn das die Jungs sind, die ich auf der letzten Dokumenten-Management-Messe in Essen gesehen habe, bieten sie auch Support für meinen Scanner.
Ich werde aber erst investieren, wenn die sonstige Software-Infrastruktur unter Linux den Bedürfnissen für Dokumentenmanagement entgegen kommt: - Es muss ein Tool da sein, mit dem sich Multi-Page-Tiffs anlegen, verwalten und modifizieren lassen. - Eine Texterkennung muss sich einbetten lassen, um Indices über die Dokumente zu erstellen. Ich scanne nämlich meistens Texte ein. Ansonsten hat man nur eine Pixelwüste. Die Open-Source OCR-Engines (http://www.claraocr.org, http://jocr.sourceforge.net/,...) stecken noch im Windelalter. Dann gab es mal ein auf einer veralteten Omnipage-Engine basierendes, total überteuertes Paket namens OCRSHOP. Seit Herbst 2003 ist die Engine von Abbyys Finereader für Linux verfügbar, welches mir neben all den Zombie-Projekten als überzeugendste Möglichkeit erscheint, OCR unter Linux zu betreiben. Aber was nützt eine Engine ohne eine zufrieden stellende Softwareumgebung? Wie eine solche Umgebung aussehen könnte, habe ich einer recht unseelig verlaufenden Diskussion zum Thema WinFS-Alternativen unter Linux anzudeuten versucht. Dokumentenverwaltung als integraler und selbstverständlicher Teil einer datenbankgestützten Dateiverwaltung. OCR-Engines, egal ob kommerziell oder experimentell sollten sich darin modular einbetten lassen. - Das Tool sollte in der Lage sein, Original-Bitmaps und OCR-Ergebnis miteinander zu verknüpfen, z.B. indem Fundstellen im Original hervorgehoben werden. - Die Anzeige sollte Antialising unterstützen, was die Lesbarkeit besonders von S/W-Dokumenten wesentlich verbessert. - Metadaten, Anmerkungen und Hervorhebungen sollten sich anbringen lassen Ich finde es bedauerlich, dass ich noch kein Tool gefunden habe, dass zumindest an die Funktionalität von Imaging (ab 1996 in Windoof) heranreicht. Ich fummele mit KFAX herum und bin "not amused".
Auf die Gefahr, an die Wand genagelt zu werden, weil ich dir eine nicht-Linux-Lösung empfehle:
Wer sollte Sie/Dich an die Wand nageln, wo es den Hammer in Form brauchbarer Alternativen nicht gibt?
Das Acrobat 4.0 Paket, welches ich für den Mac verwendet habe, enthielt ein paar Programme mehr als das aktuelle 6.0. Eines davon war eine Texterkennung mit einem besonderen Schmankerl: Es wurde beim Scannen eine PDF-Datei erstellt, die das Bild des Scans enthielt. Darüber lag unsichtbar der erkannte OCR-Text. Das heisst: Man /sieht/ das Originaldokument mit allen Fettfingern und Falzmarken, kann aber Copy&Paste machen wie bei einem normalen ASCII-Text, und per AdobeCatalog lies sich das ganze auch in einen Suchindex bringen.
Läuft Acrobat unter Wine?
Meines Wissens sind die OCR-Programme unter Linux noch nicht so dolle (ich lasse mich gern vom Gegenteil überzeugen), sonst könnte man da bestimmt das gleiche dengeln.
stimmt. Bernd OCR-Projekte (zumeist mausetot): * GORC: http://jocr.sourceforge.net/ * ocre - o.c.r. easy http://lem.eui.upm.es/ocre.html * LOCR - An Optical Character Recognition Program for Linux http://www.math.nwu.edu/~mlerma/locr/ <http://www.math.nwu.edu/%7Emlerma/locr/> * OCRchie: Modular Optical Character Recognition Software http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html * gnucr ftp://ftp.gwdg.de/pub/linux/misc/gnucr-0.0.tar.gz * Qui-ne-faut http://freshmeat.net/projects/qui-ne-faut/ http://web.mit.edu/afs/sipb.mit.edu/user/jhawk/src/quinefaut-0.5.tgz * kocr http://kocr.sourceforge.net/ * xocr (Shareware) http://documents.cfar.umd.edu/ocr/ * OCR Shop. (Comercial) http://www.vividata.com/ocrshop.html Die Abbyy-Engine http://www.abbyy.com/sdk/?param=28804
participants (4)
-
Bernhard Vornefeld
-
Ekkard Gerlach
-
Joerg Rossdeutscher
-
Thomas Grießemer