Verzeichnis greppen

Heinz W. Pahlke

1 Nov 2001 1 Nov '01

17:06

Hallo, ich sitze immer noch an dem Problem, Verzeichnisse mit txt-, html- und aw-Dateien sinnvoll greppen zu wollen. Nach dem Studium diverser manpages bin ich zwar ein gutes Stueck weiter gekommen, aber nutzbare Ergebnisse habe ich noch nicht. find . -type f -name '*.html' -exec lynx -dump {} \; | grep -H Suchwort wirft zwar alle Zeilen mit dem Suchwort aus, nennt aber (zugegebenermassen nicht ganz ueberraschend) als Quelle stdio :-( Beim folgenden Ansatz grep -ilH "<html>" * | xargs lynx -dump {} | grep -iH Suchwort bleibt gleich ein doppeltes Problem. Auch hier wird als Quelle stdio genannt, und zudem wird nur die erste (?) html-Datei aus dem Verzeichnis gegreppt, alle weiteren werden ignoriert :-(( Und als dritter Versuch: fmt -w 60 *.html | grep -iH Suchwort Aber auch hier als Quelle (natuerlich) stdio :-((( Irgendwie muss es doch aber einen Weg geben, am Schluss der Kette auch die Namen der Dateien zu erhalten, in denen das Suchwort vorkommt. Einen schoenen Abend, Heinz. -- E-Mail: Heinz W. Pahlke This message was sent by means of XFMail via SuSE Linux

Show replies by date

Matthias Kleine

1 Nov 1 Nov

18:19

"Heinz W. Pahlke" wrote:

...

ich sitze immer noch an dem Problem, Verzeichnisse mit txt-, html- und aw-Dateien sinnvoll greppen zu wollen.

Nach dem Studium diverser manpages bin ich zwar ein gutes Stueck weiter gekommen, aber nutzbare Ergebnisse habe ich noch nicht.

find . -type f -name '*.html' -exec lynx -dump {} \; | grep -H Suchwort

Uff! Entweder ich verstehe das Problem nicht, oder die Lösung lautet grep -Hr Suchwort * (minimal) grep -Hirn Suchwort * (erweitert) Letzteren auch greppen mit Hirn genannt ;-). - Matthias

Thomas Hofer

19:22

Matthias Kleine wrote (Donnerstag, 1. November 2001 19:19):

...

"Heinz W. Pahlke" wrote:

...
ich sitze immer noch an dem Problem, Verzeichnisse mit txt-, html- und aw-Dateien sinnvoll greppen zu wollen.

Nach dem Studium diverser manpages bin ich zwar ein gutes Stueck weiter gekommen, aber nutzbare Ergebnisse habe ich noch nicht.

find . -type f -name '*.html' -exec lynx -dump {} \; | grep -H Suchwort

Uff! Entweder ich verstehe das Problem nicht, oder die Lösung lautet

grep -Hr Suchwort * (minimal) grep -Hirn Suchwort * (erweitert)

tee mist.html >/dev/null <

Matthias Kleine

20:05

Am Donnerstag, 1. November 2001 20:22 schrieb Thomas Hofer:

...

Matthias Kleine wrote (Donnerstag, 1. November 2001 19:19):

...
"Heinz W. Pahlke" wrote:

...
ich sitze immer noch an dem Problem, Verzeichnisse mit txt-, html- und aw-Dateien sinnvoll greppen zu wollen.

Nach dem Studium diverser manpages bin ich zwar ein gutes Stueck weiter gekommen, aber nutzbare Ergebnisse habe ich noch nicht.

find . -type f -name '*.html' -exec lynx -dump {} \; | grep -H Suchwort

Uff! Entweder ich verstehe das Problem nicht, oder die Lösung lautet

grep -Hr Suchwort * (minimal) grep -Hirn Suchwort * (erweitert)

tee mist.html >/dev/null <

Na ich bitte Dich, wir können doch mit Regular Expressions umgehen: $ echo blöd > file1.txt $ echo bl\ö\;d > file2.txt $ egrep -Hrn '(ö)|(ö)' * file1.txt:1:blöd file2.txt:1:blöd - Matthias -- LPI Level 1 Certified http://www.selflinux.de

Thorsten Haude

20:22

Moin, * Matthias Kleine [01-11-01 21:05]:

...

Na ich bitte Dich, wir können doch mit Regular Expressions umgehen: Was ist denn das für eine Lösung? Wenn Du das weiterverfolgst, wirst Du kaum vermeiden können, 'lynx -dump' nachzuprogrammieren.

Thorsten -- They that can give up essential liberty to obtain a little temporary safety deserve neither liberty nor safety. - Benjamin Franklin

Thomas Hofer

22:22

...

* Matthias Kleine [01-11-01 21:05]:

...
Na ich bitte Dich, wir können doch mit Regular Expressions umgehen:

...

...
$ egrep -Hrn '(ö)|(ö)' *

Thorsten Haude wrote (Donnerstag, 1. November 2001 21:22):

...

Was ist denn das für eine Lösung? Wenn Du das weiterverfolgst, wirst Du kaum vermeiden können, 'lynx -dump' nachzuprogrammieren.

Ja, denn das Problem ist, daß es außer "ö" (in iso-8859-1 codierung, was man auch nicht vergessen sollte) und "ö" auch noch andere Repräsentationen für diesen Buchstaben gibt, beispielsweise "ö". Und wie ist es mit einer Suche nach "heiß und fettig"? nein! :-) Thomas.

Matthias Kleine

23:44

Am Donnerstag, 1. November 2001 21:22 schrieb Thorsten Haude:

...

* Matthias Kleine [01-11-01 21:05]:

...
Na ich bitte Dich, wir können doch mit Regular Expressions umgehen:

Was ist denn das für eine Lösung?

Eine modulare Lösung. Ich kannte Heinz' Ausgangsfragestellung nicht, da ich sein Posting vom Montag, das er erwähnt, nicht gelesen hatte. Daher war für mich die Aufgabenstellung: "Suche rekursiv (über einen Teilbaum) nach bestimmtem Ausdruck". Hierfür gibt es grep und Verwandte. Ich verstehe übringens die Aufgabenstellung auch jetzt noch nicht, nachdem ich Heinz' ursprüngliches Posting vom Montag gelesen habe. grep liefert die Ergebnisse zeilenweise. Textdateien sind unter Unix je Zeile durch Newline begrenzt, daran orientiert sich grep. Die Länge des Kontextes läßt sich mit -A einstellen. Was ist hier so anders an HTML-Dateien? Heinz hat auch nach wie vor kein Beispiel gepostet.

...

Wenn Du das weiterverfolgst, wirst Du kaum vermeiden können, 'lynx -dump' nachzuprogrammieren.

Wie sagt Larry Wall - "You can do it in more then one way." Regular Expressions führen meist zu einfacheren Lösungen, die nur komplizierter aussehen. Die ganze lynx -dump Mimik wirkt jedenfalls ziemlich verwegen, aber vielleicht funktionierts ja ;-). - Matthias -- LPI Level 1 Certified http://www.selflinux.de

Thorsten Haude

2 Nov 2 Nov

00:03

Moin, * Matthias Kleine [01-11-02 00:44]:

...

Am Donnerstag, 1. November 2001 21:22 schrieb Thorsten Haude:

...
* Matthias Kleine [01-11-01 21:05]:

...
Na ich bitte Dich, wir können doch mit Regular Expressions umgehen: Was ist denn das für eine Lösung? Eine modulare Lösung. Ein Modul pro HTML-Entity?

...

...
Wenn Du das weiterverfolgst, wirst Du kaum vermeiden können, 'lynx -dump' nachzuprogrammieren. Wie sagt Larry Wall - "You can do it in more then one way." Regular Expressions führen meist zu einfacheren Lösungen, die nur komplizierter aussehen. Die ganze lynx -dump Mimik wirkt jedenfalls ziemlich verwegen, aber vielleicht funktionierts ja ;-). Äh, danke, ich habe auch schonmal eine Regex gesehen. Hier ging es mir darum, daß man die HTML-Entities nicht alle mit Regexen suchen will, zumal sie ggf. nicht benutzt werden. Lynx macht das alles viel besser.

Thorsten -- They that can give up essential liberty to obtain a little temporary safety deserve neither liberty nor safety. - Benjamin Franklin

Matthias Kleine

10:31

Thorsten Haude wrote:

...

...
Eine modulare Lösung. Ein Modul pro HTML-Entity?

Sorry, ich dachte hier geht es um das greppen nach einem Suchwort. Wieviele Entities enthält denn das Suchwort? - Matthias

Heinz W. Pahlke

07:07

On 01-Nov-2001 Matthias Kleine wrote:

...

Ich verstehe übringens die Aufgabenstellung auch jetzt noch nicht, nachdem ich Heinz' ursprüngliches Posting vom Montag gelesen habe. grep liefert die Ergebnisse zeilenweise. Textdateien sind unter Unix je Zeile durch Newline begrenzt, daran orientiert sich grep. Die Länge des Kontextes läßt sich mit -A einstellen. Was ist hier so anders an HTML-Dateien? Heinz hat auch nach wie vor kein Beispiel gepostet.

Weil vermutlich jeder irgendwelche html-Dateien auf seinem Rechner rumliegen hat. Aber okay, ich verstosse dann eben doch mal gegen die Listen-Etikette und haenge ein Minimalbeispiel als Attachement ran. (Per Copy and Paste in den Mailbody einfuegen ist leider nicht, weil spaetestens dein MUA Zeilenumbrueche einfuegt. Da ich sonst keine derartigen Attachements verschicke, hoffe ich nur, dass ich bei der Kodierung keinen Mist gemacht habe.) Ein "grep -i Verlag versuch.html" wirft dir dann den gesamten p-tag aus :-( Wenn in dem Verzeichnis aber mehrere html-Dateien und womoeglich noch grosse Dateien mit haeufigerem Auftreten des Suchbegriffs liegen, ist das Ergebnis dadurch ausgesprochen unuebersichtlich. Mit den vorgeschlagenen sub-bash-Loesungen sieht es dann eben sehr viel besser aus. Beste Gruesse, Heinz. -- E-Mail: Heinz W. Pahlke This message was sent by means of XFMail via SuSE Linux

Ralf Corsepius

08:05

Am Fre, 2001-11-02 um 08.07 schrieb Heinz W. Pahlke:

...

On 01-Nov-2001 Matthias Kleine wrote:

...
Ich verstehe übringens die Aufgabenstellung auch jetzt noch nicht, nachdem ich Heinz' ursprüngliches Posting vom Montag gelesen habe. grep liefert die Ergebnisse zeilenweise. Textdateien sind unter Unix je Zeile durch Newline begrenzt, daran orientiert sich grep. Die Länge des Kontextes läßt sich mit -A einstellen. Was ist hier so anders an HTML-Dateien? Heinz hat auch nach wie vor kein Beispiel gepostet.

Weil vermutlich jeder irgendwelche html-Dateien auf seinem Rechner rumliegen hat.

Aber okay, ich verstosse dann eben doch mal gegen die Listen-Etikette und haenge ein Minimalbeispiel als Attachement ran. (Per Copy and Paste in den Mailbody einfuegen ist leider nicht, weil spaetestens dein MUA Zeilenumbrueche einfuegt. Da ich sonst keine derartigen Attachements verschicke, hoffe ich nur, dass ich bei der Kodierung keinen Mist gemacht habe.)

Ein "grep -i Verlag versuch.html" wirft dir dann den gesamten p-tag aus

Nein, es wirft Dir die gesamte Zeile aus! Aus man grep: grep, egrep, fgrep - print lines matching a pattern Dein .*Verlag.* ist eine einzige Zeile, Dein grep -i Ergebnis ist also lediglich eine Folge der Formatierung der HTML-Datei und hat weder mit HTML an sich noch mit Verzeichnissen etwas zu tun. D.h. je nach Standpunkt ist entweder grep für Dein Ziel nicht das richtige Werkzeug, oder aber deine Daten (*html) sind nicht geeignet formatiert. Ralf

Heinz W. Pahlke

08:20

On 02-Nov-2001 Ralf Corsepius wrote:

...

Am Fre, 2001-11-02 um 08.07 schrieb Heinz W. Pahlke:

...
Ein "grep -i Verlag versuch.html" wirft dir dann den gesamten p-tag aus Nein, es wirft Dir die gesamte Zeile aus!

Und die umnfasst dunmnerweise den ganzen p-tag.

...

Dein .*Verlag.* ist eine einzige Zeile, Dein grep -i Ergebnis ist also lediglich eine Folge der Formatierung der HTML-Datei und hat weder mit HTML an sich noch mit Verzeichnissen etwas zu tun.

Wo habe ich das behauptet?

...

D.h. je nach Standpunkt ist entweder grep für Dein Ziel nicht das richtige Werkzeug, oder aber deine Daten (*html) sind nicht geeignet formatiert.

Nur, es gibt nichts anderes als grep. Und die zu greppenden Dateien liegen nun einmal im html-Format vor. Da sie zum Teil auch "echte" Tabellen enthalten, kann ich sie dummerweise nicht einfach alle unbesehen in txt-Dateien umwandeln. Dann gaebe es das Problem natuerlich nicht. Aber mit dem Umweg ueber die Bash bringt ja grep auch eine Ausgabe, wie ich sie mir vorstelle. Nur auf die Bash-Idee muss man erst einmal kommen. Einen schoenen Tag, Heinz. -- E-Mail: Heinz W. Pahlke This message was sent by means of XFMail via SuSE Linux