hallöchen, ich möchte in einer Zeile die enthaltene URL separieren. Meistens steht da aber immer noch was davor und dahinter. Das davor ist ja kein problem, das mach ich mit sed s/^.*http:/http:/g. aber wie lösche ich ab dem ersten "ich darf nicht in einer URL enthalten sein"-Zeichen bis zum Zeilenende? danke fisch
* Andre Fischer schrieb am 18.Feb.2003:
ich möchte in einer Zeile die enthaltene URL separieren. Meistens steht da aber immer noch was davor und dahinter. Das davor ist ja kein problem, das mach ich mit sed s/^.*http:/http:/g.
Wozu das g? g heißt doch, wenn es mehrmals in einer Zeile auftritt, dann mehrmals ersetzen, aber wie kann es mehrmals auftreten?
aber wie lösche ich ab dem ersten "ich darf nicht in einer URL enthalten sein"-Zeichen bis zum Zeilenende?
s/ich\ darf\ nicht\ in\ einer\ URL\ enthalten\ sein.*$// Bernd -- Alle meine Signaturen sind rein zufällig und haben nichts mit dem Text oder dem Schreiber zu tun, dem ich antworte. Falls irgendwelche Unrichtigkeiten dabei sein sollten, so bedauere ich das. Es wäre nett, wenn Du mich benachrichtigen würdest. |Zufallssignatur 0
Am Dienstag, 18. Februar 2003 20:35 schrieb Bernd Brodesser:
* Andre Fischer schrieb am 18.Feb.2003:
ich möchte in einer Zeile die enthaltene URL separieren. Meistens steht da aber immer noch was davor und dahinter. Das davor ist ja kein problem, das mach ich mit sed s/^.*http:/http:/g.
Wozu das g? g heißt doch, wenn es mehrmals in einer Zeile auftritt, dann mehrmals ersetzen, aber wie kann es mehrmals auftreten?
ACK
aber wie lösche ich ab dem ersten "ich darf nicht in einer URL enthalten sein"-Zeichen bis zum Zeilenende?
s/ich\ darf\ nicht\ in\ einer\ URL\ enthalten\ sein.*$//
dieses Konstrukt hatte ich auch schon im Kopf, aber ich überlege ob es nicht einfacher ist alle erlaubten Zeichen darzustellen und das ganze dann zu negieren. Da müsste ich doch mit [A-z] [0-9] _ ? / alles abgedeckt haben oder?
Bernd
tschau fisch
On Die, 18 Feb 2003 at 20:54 (+0100), Andre Fischer wrote: Na, in debian-user-german habe ich Dich noch gelöscht, aber Du bist mir zu hartnäckig ;-)
Am Dienstag, 18. Februar 2003 20:35 schrieb Bernd Brodesser:
* Andre Fischer schrieb am 18.Feb.2003:
ich möchte in einer Zeile die enthaltene URL separieren. Meistens steht da aber immer noch was davor und dahinter. Das davor ist ja kein problem, das mach ich mit sed s/^.*http:/http:/g.
Wozu das g? g heißt doch, wenn es mehrmals in einer Zeile auftritt, dann mehrmals ersetzen, aber wie kann es mehrmals auftreten?
ACK
aber wie lösche ich ab dem ersten "ich darf nicht in einer URL enthalten sein"-Zeichen bis zum Zeilenende?
s/ich\ darf\ nicht\ in\ einer\ URL\ enthalten\ sein.*$//
dieses Konstrukt hatte ich auch schon im Kopf, aber ich überlege ob es nicht einfacher ist alle erlaubten Zeichen darzustellen und das ganze dann zu negieren. Da müsste ich doch mit [A-z] [0-9] _ ? / alles abgedeckt haben oder?
AFAIK müssten mindestens noch . und - rein und ausserdem auch : (wenn eine URL wie für webmin z. B. mit Port angegeben wird). Dann fallen mir noch %, = und & ein, die ja bei URLs mit Parametern auftreten können. Jan
* Am Die, 18 Feb 2003 schrieb Jan Trippler:
On Die, 18 Feb 2003 at 20:54 (+0100), Andre Fischer wrote:
Na, in debian-user-german habe ich Dich noch gelöscht, aber Du bist mir zu hartnäckig ;-)
Am Dienstag, 18. Februar 2003 20:35 schrieb Bernd Brodesser:
* Andre Fischer schrieb am 18.Feb.2003:
ich möchte in einer Zeile die enthaltene URL separieren. Meistens steht da aber immer noch was davor und dahinter. Das davor ist ja kein problem, das mach ich mit sed s/^.*http:/http:/g.
Wozu das g? g heißt doch, wenn es mehrmals in einer Zeile auftritt, dann mehrmals ersetzen, aber wie kann es mehrmals auftreten?
ACK
aber wie lösche ich ab dem ersten "ich darf nicht in einer URL enthalten sein"-Zeichen bis zum Zeilenende?
s/ich\ darf\ nicht\ in\ einer\ URL\ enthalten\ sein.*$//
dieses Konstrukt hatte ich auch schon im Kopf, aber ich überlege ob es nicht einfacher ist alle erlaubten Zeichen darzustellen und das ganze dann zu negieren. Da müsste ich doch mit [A-z] [0-9] _ ? / alles abgedeckt haben oder?
AFAIK müssten mindestens noch . und - rein und ausserdem auch : (wenn eine URL wie für webmin z. B. mit Port angegeben wird). Dann fallen mir noch %, = und & ein, die ja bei URLs mit Parametern auftreten können.
Und noch einen Haufen mehr. Meine Regexp für urlview sieht mittlerweile so aus... \ am Ende maskieren Zeilenumbruch... REGEXP ((((ht|f)tp|https|file)://(www\.)?|www\.)([-a-Z0-9.]{3,}\.)+[a-Z]{2,3}\ (/[-a-Z0-9_/~\.,?%=&@+:#]*[a-z0-9/])?)|(mailto:\ *)?([-a-Z0-9_\.=])+@\ ((([-a-Z0-9_\.])*\.)?[a-Z]*|([0-9]{1,3}\.){3}[0-9]{1,3}) Gruß Christoph -- Christoph Maurer - 52072 Aachen - Tux#194235 mailto:christoph-maurer@gmx.de - http://www.christophmaurer.de Auf der Homepage u.a.: Installation von SuSE 7.0 auf Notebook Acer Travelmate 508 T, Elektrotechnik an der RWTH Aachen
* Andre Fischer schrieb am 18.Feb.2003:
dieses Konstrukt hatte ich auch schon im Kopf, aber ich überlege ob es nicht einfacher ist alle erlaubten Zeichen darzustellen und das ganze dann zu negieren. Da müsste ich doch mit [A-z] [0-9] _ ? / alles abgedeckt haben oder?
Keine Ahnung, aber dies findet Du mit s/[^A-z0-9_?/].*$// Bist Du Dir sicher, daß Du [A-z] und nicht [A-Za-z] meinst? Ist nicht ganz das Gleiche. Bernd -- ROTFL = Rolling On The Floor, Laughing = Auf dem Boden wälzen, lachend. SCNR = Sorry, Could Not Resist = Sorry, Ich konte nicht widerstehen. AFAIK = As Far As I Know = So weit ich weis|BTW = By The Way = Nebenbei bemerkt IMHO = In My Humble Opinion = meiner bescheidenen Meinung nach |Zufallssig. 9
Andre Fischer wrote:
aber wie lösche ich ab dem ersten "ich darf nicht in einer URL enthalten sein"-Zeichen bis zum Zeilenende?
Da stellt sich dann die Frage: Was darf alles in einer URL sein? Die Frage mal bei google eingeben: http://www.google.de/search?q=URI+RFC (Ja mit Abkuerzung) aha: RFC 2368 http://www.ics.uci.edu/pub/ietf/uri/rfc2368.txt Und ein paar Zeilen drunter ein noch besserer Link: http://www.w3.org/Adressing/ ([A-Za-z0-9/?&;@=+$,._~*'()-]+|%[A-Fa-f0-9]{2})* 2.4.3 der RFC listet folgende als "Excluded" auf: [<>#%"] Das verlaesslichste Zeichen duerfte eines aus der Whitespace Klasse sein.
participants (5)
-
Andre Fischer
-
B.Brodesser@t-online.de
-
Christoph Maurer
-
Jan.Trippler@t-online.de
-
Peter Wiersig