Frage mich gerade, was die schnellste Methode ist, zwei Verzeichnisbäume zu vergleichen. Das übliche rekursive "diff -qr v1 v2" oder die Berechnung und anschließender Vergleich von md5-Summen der beiden Verzeichnisse? Es handelt sich um ca. 9000 Verzeichnisse mit 40000 teilweise eher kleinen Dateien. Insgesamt 2 x 10 GB. Hmm, naja, vermutlich schluckt die md5-Summen-Berechnung zu viel Ressourcen und der Byte-weise Vergleich ist damit schneller. Oder liege ich da falsch?
On Thu 31 Jul 2008, Marko Käning wrote:
Frage mich gerade, was die schnellste Methode ist, zwei Verzeichnisbäume zu vergleichen.
Das übliche rekursive "diff -qr v1 v2"
oder
die Berechnung und anschließender Vergleich von md5-Summen der beiden Verzeichnisse?
Es handelt sich um ca. 9000 Verzeichnisse mit 40000 teilweise eher kleinen Dateien. Insgesamt 2 x 10 GB.
Ich würde die übliche Version nehmen und folgendermaßen argumentieren. Für die Berechnung der md5 Summen muß eh jedes Byte gelesen werden. Du guckst Dir also in beiden Fällen alle 20 GB an. Im ersten Fall vergleichst Du dabei gleich, im zweiten rechnest Du. Vergleichen ist einfacher. Außerdem gibt es bei Checksummen immer die Möglichkeit, daß unterschiedliche Dateien als gleich angesehen werden. Torsten -- Need professional mod_perl support? Just hire me: torsten.foertsch@gmx.net -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Hi Torsten,
Für die Berechnung der md5 Summen muß eh jedes Byte gelesen werden. Du guckst Dir also in beiden Fällen alle 20 GB an. Im ersten Fall ja, das ist wohl war.
vergleichst Du dabei gleich, im zweiten rechnest Du. Vergleichen ist einfacher. Stimmt schon.
Außerdem gibt es bei Checksummen immer die Möglichkeit, daß unterschiedliche Dateien als gleich angesehen werden. Theoretisch ja.
Danke für die Verifikation. Gruß, Marko
Am 31. Juli 2008 10:10 schrieb Marko Käning <mk362@mch.osram.de>:
Frage mich gerade, was die schnellste Methode ist, zwei Verzeichnisbäume zu vergleichen.
Das übliche rekursive "diff -qr v1 v2"
oder
die Berechnung und anschließender Vergleich von md5-Summen der beiden Verzeichnisse?
Es handelt sich um ca. 9000 Verzeichnisse mit 40000 teilweise eher kleinen Dateien. Insgesamt 2 x 10 GB.
Wenn Du nur wissen willst, welche Dateien sich unterscheiden: Versuch's mal mit rsync. Gruß Martin -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Donnerstag, 31. Juli 2008 schrieb Marko Käning:
Frage mich gerade, was die schnellste Methode ist, zwei Verzeichnisbäume zu vergleichen.
Das übliche rekursive "diff -qr v1 v2"
oder
die Berechnung und anschließender Vergleich von md5-Summen der beiden Verzeichnisse?
Es handelt sich um ca. 9000 Verzeichnisse mit 40000 teilweise eher kleinen Dateien. Insgesamt 2 x 10 GB.
Hmm, naja, vermutlich schluckt die md5-Summen-Berechnung zu viel Ressourcen und der Byte-weise Vergleich ist damit schneller. Oder liege ich da falsch?
Auch nur eine Vermutung: Wenn du die Prüfsummen testen willst, müssen ja alle Dateien zu 100% gelesen werden. Falls Diff mit der Option -q beim ersten Unterschied abbrechen sollte, sollte es tendenziell weniger lesen müssen... Gruß, Michael -- ____ / / / / /__/ Michael Höhne / / / / / / mih-hoehne@web.de / ________________________________/ -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
participants (4)
-
Marko Käning
-
Martin Schröder
-
Michael Höhne
-
Torsten Foertsch