Wget und Umlaute in Filenamen
Hallo, Ich hatte versucht, mit wget einen mirror zu erzeugen und mithilfe des outputs zu sehen, ob irgendwelche Links tot sind. Die entsprechende Site ist in sich abgeschlossen, hat also keine Links nach außen. Auf den Server habe ich nur Leserechte und auch kein Tool, das mir die Links überprüft. Ich bin kein Autor sondern stelle nur Dokumente zur Veröffentlichung dem Admin zur Verfügung. Dieser ist kein Profi sondern angelernt und kann mit Frontpage nicht wirklich umgehen. Mir sind tot Links aufgefallen und möchte meinen Bereich dahingehend überprüfen, ob alle Links auch vorhanden sind. Mein Problem ist, dass wget den Mirror zieht und auch das Logfile ist schön zu analysieren. Doch ist mir aufgefallen, dass wget keine Files mit Umlauten im Namen geholt hat. So lautet ein Name "räume,geräte.htm" oder "Prüflabor.htm" und alle diese fehlen. Ich kann jetzt alle diese Dateien per Hand mit wget holen, das funktioniert, ist aber doch mühsam. Wie krieg ich hin, dass das auch automatisch geht? Gruß Joachim
Mein Problem ist, dass wget den Mirror zieht und auch das Logfile ist schön zu analysieren. Doch ist mir aufgefallen, dass wget keine Files mit Umlauten im Namen geholt hat. So lautet ein Name "räume,geräte.htm" oder "Prüflabor.htm" und alle diese fehlen.
Wenn ich mich recht erinnere, dann sind Umlaute etc. in URL-Links generell nicht erlaubt. Wenn Du also einen Link in einer HTML-Datei verfolgst, der Umlaute drinstehen hat, dann könnte das ein Problem sein. Aber vielleicht machst Du ja etwas ganz anderes... Grüße, Thomas Mack
Hallo Thomas,
Wenn ich mich recht erinnere, dann sind Umlaute etc. in URL-Links generell nicht erlaubt. Wenn Du also einen Link in einer HTML-Datei verfolgst, der Umlaute drinstehen hat, dann könnte das ein Problem sein.
Was ist ein Problem? Was ist erlaubt? Die Seiten wurden mit Frontpage erstellt von einem Mitarbeiter, inzwischen im Ruhestand, der nicht viel am Hut hatte mit Inter- bzw. Intranet. Solange Frontpage und der Internet Explorer nicht meckern, gibt es per definitionem kein Problem. Auch wenn sich mir die Haare stellen, kann ich nix dran ändern. Ist nicht mein Aufgabengebiet. Von außen kommt keiner dran, da Firewall und Intranet. Sein Nachfolger kennt sich mit der Grenzseite auch nicht aus und weiß nicht, wie man eine solchen Linktest durchführt. Daher mach ich es fürs Prüflabor ja auch selbst. Hab' nur keine webtools zur Verfügung, daher das workaround mit wget auf meinen Spielrechner unter 10.0
Aber vielleicht machst Du ja etwas ganz anderes...
? Ja, genau. KLinkStatus macht genau das, was ich will. Es grast dieses Qualitätsmanagementhandbuch im Intranetmantel ab und zeigt an, wenn ein Link nicht verfügbar ist. Und es kommt mit Umlauten zurecht. Oder meinst du was anderes?
Grüße,
Joachim
Am Dienstag, 28. März 2006 16:02 schrieb Joachim Hussong:
Hallo Thomas,
Wenn ich mich recht erinnere, dann sind Umlaute etc. in URL-Links generell nicht erlaubt. Wenn Du also einen Link in einer HTML-Datei verfolgst, der Umlaute drinstehen hat, dann könnte das ein Problem sein.
Was ist ein Problem? Was ist erlaubt?
HTML Code, der sich nicht an die HTML Definitionen hält, wird nicht notwendigerweise von allen Tools richtig und vollständig verarbeitet. Vielleicht stört sich wget an Links im HTML, die Umlaute oder ähnliche Dinge enthalten, einfach weil sie in Links nicht erlaubt sind.
Die Seiten wurden mit Frontpage erstellt von einem Mitarbeiter, inzwischen im Ruhestand, der nicht viel am Hut hatte mit Inter- bzw. Intranet. Solange Frontpage und der Internet Explorer nicht meckern, gibt es per definitionem kein Problem. Auch wenn sich mir die Haare
Ich hatte vor einigen (6?) Jahren mal eine Firma angeschrieben, die auch Umlaute in ihren Links drin hatte. Und die bei mir dann nicht funktionierten. Nachdem sie erst meinten, bei Ihnen würde es funktionieren (== per definitionem in Ordnung), habe ich mir mal die Mühe gemacht und die RFCs rausgesucht, die eindeutig schrieben, daß es NICHT in Ordnung war. Erst daraufhin haben sie ihre Seiten geändert. Ich habe mir aber nicht mehr die Mühe gemacht, bei Ihnen trotz Ihrer weitgehend unleserlichen WWW-Seiten zu kaufen... Wenn es absolut nicht anders geht, würde ich versuchen, in den wget Sourcen das Verhalten anzupassen. Grüße, Thomas Mack
participants (2)
-
Joachim Hussong
-
Thomas Mack