Hola, Estoy buscando un script (perl, php) para utilizar en Apache (con hosting virtual) que permita realizar búsquedas en los directorios seleccionados por el usuario. He visto que SuSE tiene los paquetes compilados de Htdig y Namazu, pero no he probado ninguno de estos dos antes, por lo que no sé cuál sería más conveniente. Las páginas a indexar están en su mayoría en inglés y español, y utilizan codificación iso-8859-1 y utf-8. La idea es que el buscador esté disponible en todos los dominios de Apache2 y que cada usuario lo pueda personalizar a su gusto con base de datos independientes. ¿Alguna experiencia con estos dos buscadores o con algún otro que se me haya escapado? Saludos, -- Camaleón
Camaleón escribió:
Hola,
Estoy buscando un script (perl, php) para utilizar en Apache (con hosting virtual) que permita realizar búsquedas en los directorios seleccionados por el usuario.
He visto que SuSE tiene los paquetes compilados de Htdig y Namazu, pero no he probado ninguno de estos dos antes, por lo que no sé cuál sería más conveniente.
Las páginas a indexar están en su mayoría en inglés y español, y utilizan codificación iso-8859-1 y utf-8. La idea es que el buscador esté disponible en todos los dominios de Apache2 y que cada usuario lo pueda personalizar a su gusto con base de datos independientes.
¿Alguna experiencia con estos dos buscadores o con algún otro que se me haya escapado?
Saludos,
En tiempos utilizé htdig y me pareció bastante bueno. Además, como lo usa suse por defecto ... pues te da ciertas garantías. Sin embargo, para ciertas cosas, y porque lo descubrí antes, utilizo swish-e. Además hay mucha contribución española en el proyecto. Me gusta porque puedes indicar qué quieres indexar, y así puedes tener distintos índices en una misma web o en distintos dominios virtuales. Es fácil de instalar configurar y utilizar. Lo tienes en http://swish-e.org/
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2006-10-03 a las 10:29 +0200, Camaleón escribió:
He visto que SuSE tiene los paquetes compilados de Htdig y Namazu, pero no he probado ninguno de estos dos antes, por lo que no sé cuál sería más conveniente.
¿Y porqué va a ser OT? Es un programa de linux usado en SuSE. Antiguamente (SuSE 5, 6, 7, 8) había un paquete llamado susehelp que duplicaba la funcionalidad del que hallabas en la web de SuSE: y tan duplicado, porque ambos usaban htdig para indexar. Tocando un par de parámetros en el suseconfig, te generaba una página web local que indexaba todos los manuales que le decías, y sobre todo, la base de datos de soporte (la famosa SDB), que podías descargarte en paquetes actualizados todas las semanas. ¿Y ahora? La SDB no te la puedes bajar. El indexado no funciona. La página web no se carga: Access forbidden! You don't have permission to access the requested object. It is either read-protected or not readable by the server. If you think this is a server error, please contact the webmaster. (http://nimrodel.valinor/susehelp/index.html.en). De hecho, se ha perdido hasta mi página local y en su lugar veo otra: It works! (http://nimrodel.valinor/) Bueno, menos mal que a la ayuda puedo llegar por otro sitio, está también en "http://localhost/susehelp/" que si funciona - bueno, a medias, porque si le doy a buscar "suse" no encuentra absolutamente nada. De toda la documentación que existe en mi ordenador proporcionada por SuSE, solo me ofrece buscar en las páginas man y las info, y ni siquiera encuentra la palabra "man" - y nada de los manuales de gnome, kde, howtos, el manual de administración/usuario, los libros extra... nada de nada. Control de calidad se llama esto. Si señor, SuSE va pa'tras. No, no lo voy a reportar: ya lo reporté hace años y no me hicieron caso, no les debe interesar. :-/ Si entendiera como funciona el htdig podría arreglarlo, quizás. - -- Saludos Carlos E. R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.2 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFFIjpdtTMYHG2NR9URAtA2AJwMIMUTPZpFAABSjbdG8lZkJXGCrwCghppi /oFe8fHXcKyM5uAbtBWw+jE= =o1qX -----END PGP SIGNATURE-----
El 3/10/06, Carlos E. R. escribió:
¿Y porqué va a ser OT? Es un programa de linux usado en SuSE.
Bueno, pues porque se trata de una aplicación muy específica... dejémoslo en semi-ot.
Antiguamente (SuSE 5, 6, 7, 8) había un paquete llamado susehelp que duplicaba la funcionalidad del que hallabas en la web de SuSE: y tan duplicado, porque ambos usaban htdig para indexar. Tocando un par de parámetros en el suseconfig, te generaba una página web local que indexaba todos los manuales que le decías, y sobre todo, la base de datos de soporte (la famosa SDB), que podías descargarte en paquetes actualizados todas las semanas.
Hum, parece que has puesto "verbose mode = on" X-), pero en esencia entiendo que quieres decir que htdig es muy potente... Al final le daré una oportunidad a htdig, más que nada por la gestión de las actualizaciones o parches de seguridad que puedan sacar, si está integrado en SuSE al menos sé que lo aguantarán dos años. De todas formas, si veo que se me queda corto en funciones como segunda opción tengo "swish-e", recomendación de Luís, que queda guardado en los marcadores como futuras opciones. Saludos y gracias a ambos, -- Camaleón
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2006-10-03 a las 19:51 +0200, Camaleón escribió:
Antiguamente (SuSE 5, 6, 7, 8) había un paquete llamado susehelp que duplicaba la funcionalidad del que hallabas en la web de SuSE: y tan duplicado, porque ambos usaban htdig para indexar. Tocando un par de parámetros en el suseconfig, te generaba una página web local que indexaba todos los manuales que le decías, y sobre todo, la base de datos de soporte (la famosa SDB), que podías descargarte en paquetes actualizados todas las semanas.
Hum, parece que has puesto "verbose mode = on" X-), pero en esencia entiendo que quieres decir que htdig es muy potente...
Y que no se como funciona. X-)
Al final le daré una oportunidad a htdig, más que nada por la gestión de las actualizaciones o parches de seguridad que puedan sacar, si está integrado en SuSE al menos sé que lo aguantarán dos años.
Bastante más... viene incluido desde que conozco la suse allá por el 5.2. Claro, que pueden cambiar de idea, pero en fin. - -- Saludos Carlos E. R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.2 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFFIq6xtTMYHG2NR9URAh+5AJ4ji8xf+zntgyDLnNSXRKsIjGeSOgCfRm4J dnobgqvi/Tm0CF/Oefg7F0o= =cnuZ -----END PGP SIGNATURE-----
2006/10/3, Camaleón
Hola,
Estoy buscando un script (perl, php) para utilizar en Apache (con hosting virtual) que permita realizar búsquedas en los directorios seleccionados por el usuario.
He visto que SuSE tiene los paquetes compilados de Htdig y Namazu, pero no he probado ninguno de estos dos antes, por lo que no sé cuál sería más conveniente.
Las páginas a indexar están en su mayoría en inglés y español, y utilizan codificación iso-8859-1 y utf-8. La idea es que el buscador esté disponible en todos los dominios de Apache2 y que cada usuario lo pueda personalizar a su gusto con base de datos independientes.
¿Alguna experiencia con estos dos buscadores o con algún otro que se me haya escapado?
mmm... te puedo mencionar que en una época no muy lejana ( 2 anos atras ??? ) estuve trabajando con swich+e (o algo por el estilo) y era bastante mas rápido que htdig y otros indexadores que probé en la época (no me recuerdo, exactamente cuales eran ahora)... mmmm.. pero la diferencia era bastante notoria en favor de swich+e !!! por ejemplo.. la idea era scannear todos los documentos de la empresa y procesarlos con gocr y guardalos para que despues fueran indexados.. se no me equivoco, llegamos a tener ~ 25.000 documentos procesados y hacendo pruebas con swich y htdig los resultados de indexacion entre ambas ambas herramientas llegaba a ser de hasta 8 minutos !!!! mmm.. en todo, caso la diferencia principal entre uno y otro (IMHO) es solamente el tema de la velocidad !!! ambos hacen básicamente el mismo !!!! suerte -- -- Victor Hugo dos Santos Linux Counter #224399
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2006-10-03 a las 18:38 -0400, Victor Hugo dos Santos escribió:
por ejemplo.. la idea era scannear todos los documentos de la empresa y procesarlos con gocr y guardalos para que despues fueran indexados.. se no me equivoco, llegamos a tener ~ 25.000 documentos procesados y hacendo pruebas con swich y htdig los resultados de indexacion entre ambas ambas herramientas llegaba a ser de hasta 8 minutos !!!!
EL htdig es lento indexando, pero la cuestión realmente importante, es la velocidad de búsqueda posterior, una vez generados los indices. - -- Saludos Carlos E. R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.2 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFFIu6CtTMYHG2NR9URAjrCAJ0WaCqBkSnD8/WRkJdJ7FdLgzkkrwCfQ/8Q NaSccZvyuOhnqYY45kwLpkM= =/UrG -----END PGP SIGNATURE-----
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2006-10-04 a las 01:13 +0200, escribí:
EL htdig es lento indexando, pero la cuestión realmente importante, es la velocidad de búsqueda posterior, una vez generados los indices.
Lo he puesto a indexar mi máquina, y ha tardado más de tres horas - no de cpu, sino de espera al disco: nimrodel:~ # time nice susehelpindex --verbose --force DOCUMENT: Creating index files... Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/release-notes/SUSE_Linux/RELEASE-NOTES.en.html --identifier release-notes Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/manual/suselinux-manual_en/manual/index.html --identifier apparmor-admin-guideen Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/manual/suselinux-manual_en/manual/book.slprof.print.html --identifier startupen Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/manual/suselinux-manual_en/manual/book.apparmor.admin.html --identifier apparmor-admin-guideen Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/manual/suselinux-manual_en/manual/book.slprof.appl.html --identifier applicationen Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/manual/suselinux-manual_en/manual/book.slprof.online.html --identifier referenceen Execute: /opt/kde3/bin/khc_docbookdig.pl --indexdir /var/cache/susehelp --docpath dummy --identifier kde_application_manuals Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/Books/lkmpg-1.1.0-1.pdf --identifier books-lkmpg Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/Books/lkmpg-1.1.0-2.pdf --identifier books-lkmpg2 Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/KDE3-API/index.html --identifier kdelibs3 Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/packages/qt3/html/index.html --identifier qt3 Created index for 11 documents. real 201m42.313s user 61m44.956s sys 4m30.125s Y son 220 megas de indices - aunque hay un par que son obsoletos, los generó una versión anterior y no se han borrado. - -- Saludos Carlos E. R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.2 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFFKW+GtTMYHG2NR9URAqEQAKCJFRQs32BHWAeIcUp4iU9Na8ulEwCeNo49 EHrSkRTprdrD8SPQEE8vyGw= =ixxR -----END PGP SIGNATURE-----
Carlos E. R. escribió:
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1
El 2006-10-04 a las 01:13 +0200, escribí:
EL htdig es lento indexando, pero la cuestión realmente importante, es la velocidad de búsqueda posterior, una vez generados los indices.
Lo he puesto a indexar mi máquina, y ha tardado más de tres horas - no de cpu, sino de espera al disco:
nimrodel:~ # time nice susehelpindex --verbose --force DOCUMENT: Creating index files... Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/release-notes/SUSE_Linux/RELEASE-NOTES.en.html --identifier release-notes Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/manual/suselinux-manual_en/manual/index.html --identifier apparmor-admin-guideen Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/manual/suselinux-manual_en/manual/book.slprof.print.html --identifier startupen Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/manual/suselinux-manual_en/manual/book.apparmor.admin.html --identifier apparmor-admin-guideen Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/manual/suselinux-manual_en/manual/book.slprof.appl.html --identifier applicationen Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/manual/suselinux-manual_en/manual/book.slprof.online.html --identifier referenceen Execute: /opt/kde3/bin/khc_docbookdig.pl --indexdir /var/cache/susehelp --docpath dummy --identifier kde_application_manuals Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/Books/lkmpg-1.1.0-1.pdf --identifier books-lkmpg Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/Books/lkmpg-1.1.0-2.pdf --identifier books-lkmpg2 Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/KDE3-API/index.html --identifier kdelibs3 Execute: /opt/kde3/bin/khc_htdig.pl --indexdir /var/cache/susehelp --docpath /usr/share/doc/packages/qt3/html/index.html --identifier qt3
Created index for 11 documents.
real 201m42.313s user 61m44.956s sys 4m30.125s
Y son 220 megas de indices - aunque hay un par que son obsoletos, los generó una versión anterior y no se han borrado.
- -- Saludos Carlos E. R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.2 (GNU/Linux) Comment: Made with pgp4pine 1.76
iD8DBQFFKW+GtTMYHG2NR9URAqEQAKCJFRQs32BHWAeIcUp4iU9Na8ulEwCeNo49 EHrSkRTprdrD8SPQEE8vyGw= =ixxR -----END PGP SIGNATURE-----
creo recordar que los creadores de swish-e decía que su sistema de indexado erá bastante rápido y eficiente, entre otras cosas, porque estaba programado en C. Normalmente algo compilado siempre se ejecuta más rápido que algo interpretado (al menos, esa idea se me quedó de "mis años mozos" ;) cuando aprendía a programar...)
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2006-10-09 a las 11:07 +0200, Luis O. escribió:
real 201m42.313s user 61m44.956s sys 4m30.125s
creo recordar que los creadores de swish-e decía que su sistema de indexado erá bastante rápido y eficiente, entre otras cosas, porque estaba programado en C. Normalmente algo compilado siempre se ejecuta más rápido que algo interpretado (al menos, esa idea se me quedó de "mis años mozos" ;) cuando aprendía a programar...)
Sin duda. Pero, por un lado, observa que el tiempo de proceso arriba es de una hora. El resto hasta completar las tres horas veinte es tiempo de espera, de espera al disco. Por otro lado, el htdig en sí es un binario. - -- Saludos Carlos E. R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.2 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFFKhuctTMYHG2NR9URArJCAJ4mRtZQQGJnjHU3og/qNzCk4FFtzgCfQteZ i6Zc60QDeS3iZePB79rE6pc= =Wxre -----END PGP SIGNATURE-----
participants (4)
-
Camaleón
-
Carlos E. R.
-
Luis O.
-
Victor Hugo dos Santos