![](https://seccdn.libravatar.org/avatar/73166db4487cc5490022833f99316e97.jpg?s=120&d=mm&r=g)
* Am Die, 18 Feb 2003 schrieb Jan Trippler:
On Die, 18 Feb 2003 at 20:54 (+0100), Andre Fischer wrote:
Na, in debian-user-german habe ich Dich noch gelöscht, aber Du bist mir zu hartnäckig ;-)
Am Dienstag, 18. Februar 2003 20:35 schrieb Bernd Brodesser:
* Andre Fischer schrieb am 18.Feb.2003:
ich möchte in einer Zeile die enthaltene URL separieren. Meistens steht da aber immer noch was davor und dahinter. Das davor ist ja kein problem, das mach ich mit sed s/^.*http:/http:/g.
Wozu das g? g heißt doch, wenn es mehrmals in einer Zeile auftritt, dann mehrmals ersetzen, aber wie kann es mehrmals auftreten?
ACK
aber wie lösche ich ab dem ersten "ich darf nicht in einer URL enthalten sein"-Zeichen bis zum Zeilenende?
s/ich\ darf\ nicht\ in\ einer\ URL\ enthalten\ sein.*$//
dieses Konstrukt hatte ich auch schon im Kopf, aber ich überlege ob es nicht einfacher ist alle erlaubten Zeichen darzustellen und das ganze dann zu negieren. Da müsste ich doch mit [A-z] [0-9] _ ? / alles abgedeckt haben oder?
AFAIK müssten mindestens noch . und - rein und ausserdem auch : (wenn eine URL wie für webmin z. B. mit Port angegeben wird). Dann fallen mir noch %, = und & ein, die ja bei URLs mit Parametern auftreten können.
Und noch einen Haufen mehr. Meine Regexp für urlview sieht mittlerweile so aus... \ am Ende maskieren Zeilenumbruch... REGEXP ((((ht|f)tp|https|file)://(www\.)?|www\.)([-a-Z0-9.]{3,}\.)+[a-Z]{2,3}\ (/[-a-Z0-9_/~\.,?%=&@+:#]*[a-z0-9/])?)|(mailto:\ *)?([-a-Z0-9_\.=])+@\ ((([-a-Z0-9_\.])*\.)?[a-Z]*|([0-9]{1,3}\.){3}[0-9]{1,3}) Gruß Christoph -- Christoph Maurer - 52072 Aachen - Tux#194235 mailto:christoph-maurer@gmx.de - http://www.christophmaurer.de Auf der Homepage u.a.: Installation von SuSE 7.0 auf Notebook Acer Travelmate 508 T, Elektrotechnik an der RWTH Aachen