Hallo Liste! Ich habe ein kleines bash-Skript gebaut, das Suchergebnisse von der www-Seite von Der Spiegel sammeln sollte. Die entsprechende URL ist: https://www.spiegel.de/suche/?suchbegriff=green+deal&seite=1 Der letzte Parameter (seite) wird in einer Schleife inkrementiert. Die Seite soll mit wget herunterladen werden (wget -O - "<URL>" >> Resultate.html). Nun aber spuckt wget nur eine ergebnislose Seite aus, d.h. die Seitenstruktur ist schon korrekt, es fehlen aber alle Links zu den Suchergebnissen. Bei genauerem Hinschauen habe ich festgestellt, dass dort steht "Keine Ergebnisse für den Suchbegriff "" " (oder so ähnlich). Also wird der Suchbegriff in der URL gar nicht übermittelt, wenn ich das richtig verstehe. Meine Frage: kann ich das mit wget machen, und falls ja, wie muss der Befehl aufgebaut werden (welche Optionen)? Ich habe mich nicht an wget festgenagelt :-) Wenn es eine bessere Methode oder bessere Tools gibt, mit denen ich mein Datensammeln erfolgreich hinkriege, bin ich offen für Vorschläge. Ich habe schon Dumping mit w3m versucht, auch das haut nicht hin... Vielen Dank schon im Voraus! Gruß, Kimmo -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am Dienstag, 2. Juni 2020, 12:18:46 CEST schrieb Kimmo Elo:
[...]
Nun aber spuckt wget nur eine ergebnislose Seite aus, d.h. die Seitenstruktur ist schon korrekt, es fehlen aber alle Links zu den Suchergebnissen. Bei genauerem Hinschauen habe ich festgestellt, dass dort steht "Keine Ergebnisse für den Suchbegriff "" " (oder so ähnlich). Also wird der Suchbegriff in der URL gar nicht übermittelt, wenn ich das richtig verstehe.
[...]
Hallo Kimmo, ich glaube, dass Problem ist eher, dass die eigentliche Suchanfrage beim Aufruf der Seite per JavaScript an joda.spiegel.de gerichtet wird. Von den dort erhaltenen XML-Daten wird dann das Suchergebnis per JS auf der Seite eingebaut. Deshalb enthält die abgerufene, reine HTML-Seite die gewünschten Daten nicht. Du kannst das Verhalten bspw. in den Entwicklerwerkzeugen des Firefox unter Netzwerkanalyse beobachten. Dort kannst du dir auch einen cURL-Aufruf generieren lassen, der dich zu den XML-Daten der Suche bringt. Hier ein Beispiel: curl 'https://joda.spiegel.de/joda/spon/search? s=green+deal&p=SPOX,SPPL,MMOX,SP,SPOXE&f=dokumenttext&page=0&max=20&from=0&to=20200602&plus=3' -H 'User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:76.0) Gecko/20100101 Firefox/76.0' -H 'Accept: */*' -H 'Accept-Language: de-DE,de;q=0.8,en- GB;q=0.6,en-US;q=0.4,en;q=0.2' --compressed -H 'Referer: https:// www.spiegel.de/suche/?suchbegriff=green+deal&seite=1' -H 'Origin: https:// www.spiegel.de' -H 'DNT: 1' -H 'Connection: keep-alive' Viele Grüße Matthias -- Das Gesetz hat zum Schneckengang verdorben, was Adlerflug geworden wäre. (Friedrich Schiller - Die Räuber) Und der Buschfunk spielt gerade mal nichts...
participants (2)
-
Kimmo Elo
-
Matthias Fehring