Hallo, ich muss (oder moechte) manchmal mehrere Dateien mit wget holen, bloss eine Konstruktion wie wget http://www.domain.de/mehrere*.html funktioniert nicht. In man wget habe ich auch nichts gefunden, was in diese Richtung gehen koennte. Nun muss es nicht wget sein, aber ein Kommandozeilen-Tool sollte es schon sein. Beste Gruesse, Heinz. -- Reiseberichte aus Mittel- und Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de
Am Montag, 5. Dezember 2005 13:13 schrieb Heinz W. Pahlke:
Hallo,
ich muss (oder moechte) manchmal mehrere Dateien mit wget holen, bloss eine Konstruktion wie
wget http://www.domain.de/mehrere*.html
funktioniert nicht.
das ist doch logisch! Grund: hier steht "mehrere*.html" dies wird von der Shell expandiert! und zu was expandiert das die Shell? andererseits kommt bei mir als Warnung bei diesem Aufruf: Warnung: Joker-Zeichen werden bei HTTP nicht unterstützt. Richtig wäre sowas wie: wget --recursive --mirror --no-parent --convert-links \ --relative http://www.domain.de dann erhält man alle HTML-Dateien der Domain. Will man bestimmte Verzeichnisse nicht: --exclude-directories will man nur bestimmte Verzeichnisse: --include-directories mehr dazu man wget Bye Jürgen -- Dr.rer.nat. Juergen Vollmer, Viktoriastrasse 15, D-76133 Karlsruhe Tel: +49(721) 92 04 87 1 Fax: +49(721) 92 04 87 2 Juergen.Vollmer@informatik-vollmer.de www.informatik-vollmer.de Internet-Telefonie: www.skype.com Benutzer: juergen.vollmer
Hallo, On 05-Dec-2005 Dr. Jürgen Vollmer wrote:
Am Montag, 5. Dezember 2005 13:13 schrieb Heinz W. Pahlke:
ich muss (oder moechte) manchmal mehrere Dateien mit wget holen, bloss eine Konstruktion wie
wget http://www.domain.de/mehrere*.html
funktioniert nicht.
das ist doch logisch!
Da bin ich mir nicht ganz sicher.
Grund: hier steht "mehrere*.html" dies wird von der Shell expandiert! und zu was expandiert das die Shell?
andererseits kommt bei mir als Warnung bei diesem Aufruf: Warnung: Joker-Zeichen werden bei HTTP nicht unterstützt.
Richtig: "wildcards not supported in HTTP" Das Problem liegt also nicht bei der Bash, sondern bei wget bzw. dem HTTP-Protokoll. Bloss warum sollte ich das alles schreiben? Der Punkt ist einfach, dass es so nicht geht.
Richtig wäre sowas wie: wget --recursive --mirror --no-parent --convert-links \ --relative http://www.domain.de
dann erhält man alle HTML-Dateien der Domain. Will man bestimmte Verzeichnisse nicht: --exclude-directories will man nur bestimmte Verzeichnisse: --include-directories
mehr dazu man wget
Klar, bloss wie ich schrieb, verraet man wget nicht, wie man nur bestimmte _Dateien_ downloaden kann. Aber ich muss mal schauen, ob es mit wget moeglich ist, nur die Namen der Dateien in einem Verzeichnis herunterzuladen. Da ginge es mit dem vorgeschlagenen Script noch viel einfacher. Beste Gruesse, Heinz. -- Reiseberichte aus Mittel- und Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de
Hallo Heinz, hallo Leute, Am Montag, 5. Dezember 2005 14:44 schrieb Heinz W. Pahlke:
On 05-Dec-2005 Dr. Jürgen Vollmer wrote:
Am Montag, 5. Dezember 2005 13:13 schrieb Heinz W. Pahlke: [...] Klar, bloss wie ich schrieb, verraet man wget nicht, wie man nur bestimmte _Dateien_ downloaden kann.
wget http://server/datei1 http://server/datei2
Aber ich muss mal schauen, ob es mit wget moeglich ist, nur die Namen der Dateien in einem Verzeichnis herunterzuladen. Da ginge es mit dem vorgeschlagenen Script noch viel einfacher.
Das geht nur, wenn Du vom gefragten Verzeichnis einen DirectoryIndex anfordern kannst (muss serverseitig erlaubt sein und es darf keine index.* existieren) - den bekommst Du dann mit wget http://server/verzeichnis/ - allerdings im HTML-Format. Gruß Christian Boltz --
vi wird nie mein Freund, seine zwei Modi sind einfach nicht mein Fall. Schade, wenn man sich erst einmal daran gewöhnt hat, kann man mit dem Ding fliegen. [> Helga Fischer und Bernd Brodesser in suse-linux]
Hallo Christian, On 05-Dec-2005 Christian Boltz wrote:
Hallo Heinz, hallo Leute,
Am Montag, 5. Dezember 2005 14:44 schrieb Heinz W. Pahlke:
On 05-Dec-2005 Dr. Jürgen Vollmer wrote:
Am Montag, 5. Dezember 2005 13:13 schrieb Heinz W. Pahlke: [...] Klar, bloss wie ich schrieb, verraet man wget nicht, wie man nur bestimmte _Dateien_ downloaden kann.
Klar, so geht es immer. Bloss ist es oft ein ziemlicher Aufwand, alle Dateinamen heraussuchen zu muessen. Und den versuche ich eben zu umgehen.
Aber ich muss mal schauen, ob es mit wget moeglich ist, nur die Namen der Dateien in einem Verzeichnis herunterzuladen. Da ginge es mit dem vorgeschlagenen Script noch viel einfacher.
Das geht nur, wenn Du vom gefragten Verzeichnis einen DirectoryIndex anfordern kannst (muss serverseitig erlaubt sein und es darf keine index.* existieren) - den bekommst Du dann mit
Und daran scheitert es eben meistens. Da wget aber trotzdem ganze Verzeichnisse anfordern darf, dachte ich, dass es trotzdem eine Moeglichkeit gaebe, dieses Holen auf die Dateinamen zu beschraenken. Aber nachdem ich mich auf freshmeat umgeschaut habe, scheint das wirklich kein Programm zu koennen. Beste Gruesse, Heinz. -- Reiseberichte aus Mittel- und Osteuropa: http://www.pahlke-online.de Barrierefreies Webdesign: http://www.Pahlke-KunstWebDesign.de
participants (3)
-
Christian Boltz
-
Dr. Jürgen Vollmer
-
Heinz W. Pahlke