* David Haller schrieb:
On Mon, 16 Sep 2002, Ekkard Gerlach wrote:
ich will in einem 1GB großen Mailarchiv die footer abtrennen um Platz zu sparen und das Recherchieren zu beschleunigen.
Mit footer meine ich alles was in einer Mail unterhalb "--" steht , bis zur nächsten Mail. Wenn in einigen wenigen Fällen mal mehr als gewünscht weggeschnitten wird als der footer, dann macht das nichts.
Dafuer kann ich dir die relevanten Perl-Schnipsel aus dem Statistik-script[1] mailen -- inkl. Erkennung ob sig oder Footer.
Danke, her damit, bisher noch nicht eingetroffen.
Problem: nicht alle Mails beginnen brav mit "From ", ^^^^^^^^ sondern manchmal recht kunterbunt. Viele Mails kommen auch aus Newsgruppen (herauskopiert) oder aus digest-Mails.
Dann ist das kein MBox Format, und du "hast verloren"...
Denkste! Mutt kann die Mails alle trennen (andere Mail-Clients wie der von Netscape auch), also geht's grundsätzlich. Habe gerade nochmal die Mails durchgeblättert. In fast allen Fällen steht "From " an Anfang der Mail. Ich könnte mich auch damit anfreunden footer und signatur zu kappen ohne Rücksicht auf die seltenen Mails ohne diesen Anfang einfach herauszuschneiden.
(es sei denn es ist Maildir/MH oder so)...
??
Ohne eine zuverlaessige Regex wird das kaum klappen.
Die beste (einzige?) Loesung waere dann wohl die Mails nach "Kategorie" (mbox-konform, diverse andere Varianten) zu trennen und dann jew. gesondert zu behandeln... Bei 1 GB duerfte sich der Aufwand wohl sogar lohnen ;)
-dnh
PS: was packst du sowas auch in ein gemeinsames Archiv?!?! *tstst*
Nein, die Mails sind nach Kategorie in getrenntes Dateien abgelegt.
PPS: achso, wenn die jew. "Formen" in einzelnen Dateien vorliegen, dann vereinfacht sich alles weitere natuerlich betraechtlich...
thx Ekkard