Re: sed - frage

19 Feb 2003


      * Am Die, 18 Feb 2003 schrieb Jan Trippler:
...
On Die, 18 Feb 2003 at 20:54 (+0100), Andre Fischer wrote:
Na, in debian-user-german habe ich Dich noch gelöscht, aber Du bist
mir zu hartnäckig ;-)
...
Am Dienstag, 18. Februar 2003 20:35 schrieb Bernd Brodesser:
...
* Andre Fischer schrieb am 18.Feb.2003:
...
ich möchte in einer Zeile die enthaltene URL separieren. Meistens steht
da aber immer noch was davor und dahinter. Das davor ist ja kein problem,
das mach ich mit sed s/^.*http:/http:/g.
Wozu das g? g heißt doch, wenn es mehrmals in einer Zeile auftritt,
dann mehrmals ersetzen, aber wie kann es mehrmals auftreten?
ACK
...
...
aber wie lösche ich ab dem ersten "ich
darf nicht in einer URL enthalten sein"-Zeichen bis zum Zeilenende?
s/ich\ darf\ nicht\ in\ einer\ URL\ enthalten\ sein.*$//
dieses Konstrukt hatte ich auch schon im Kopf, aber ich überlege ob es nicht 
einfacher ist alle erlaubten Zeichen darzustellen und das ganze dann zu 
negieren. Da müsste ich doch mit [A-z] [0-9] _ ? / alles abgedeckt haben 
oder?
AFAIK müssten mindestens noch . und - rein und ausserdem auch :
(wenn eine URL wie für webmin z. B. mit Port angegeben wird). Dann
fallen mir noch %, = und & ein, die ja bei URLs mit Parametern 
auftreten können.
Und noch einen Haufen mehr. Meine Regexp für urlview sieht
mittlerweile so aus... \ am Ende maskieren Zeilenumbruch...


REGEXP ((((ht|f)tp|https|file)://(www\.)?|www\.)([-a-Z0-9.]{3,}\.)+[a-Z]{2,3}\
(/[-a-Z0-9_/~\.,?%=&@+:#]*[a-z0-9/])?)|(mailto:\ *)?([-a-Z0-9_\.=])+@\
((([-a-Z0-9_\.])*\.)?[a-Z]*|([0-9]{1,3}\.){3}[0-9]{1,3})


Gruß

Christoph 


-- 
Christoph Maurer - 52072 Aachen - Tux#194235
mailto:christoph-maurer@gmx.de - http://www.christophmaurer.de
Auf der Homepage u.a.: Installation von SuSE 7.0 auf Notebook Acer
Travelmate 508 T, Elektrotechnik an der RWTH Aachen