Hallo, ich habe jetzt eine Weile in sed reingeschaut, muss aber sagen: Ich versteh nur Bahnhof.. Am Donnerstag, 6. Oktober 2005 13:47 schrieb Markus Heidinger:
Im Prinzip müsstest Du zunächst ein Charakteristikum für die Zeile des HTML-Codes finden, die einzigartig in der HTML Datei ist, vielleicht ja sogar der String "ISBN", kenne ja die Seite nicht. Einfach mal den Quellcode in einem Texteditor analysieren.
Im zweiten Schritt dann die ISBN in der Zeile finden. Wenn ich mich recht entsinne, dann ist eine ISBN 13 stellig, 10 Ziffern und drei Bindestriche, letztere nicht am Anfang und am Ende. Die letzte "Ziffer" kann auch ein "X" sein ... Sollte so aussehen, wenn am Anfang "ISBN" gefolgt von einem Leerzeichen steht, ansonsten den entsprechenden Teil einfach weglassen oder adaptieren.
^ISBN\s(?=[-0-9xX ]{13}$)(?:[0-9]+[- ]){3}[0-9]*[xX0-9]$
Ist das denn immer so kompliziert? Ich habe das Ergebniss der ersten Seite mal untersucht. Dort steht die ISBN nicht direkt drin, sondern nur eine ProductID und zwar in der Form PRID=654548754& kann man nicht irgendwie mit PRID=.*& diese Nummer auslesen? Ich weiss die Frage ist doof, denn ich habs ja probiert, aber nicht geschafft :-) Wie geht das? Gruss Karl