[opensuse-es] OT: SATA RAID 1 ¿Es tan mala como parece?
Tengo varias instalaciones con raid 1 sata y me preocupa que últimamente el indice de error es elevado, es más el problema está en que cuando un disco se está deteriorando no se comporta como las RAID 1 de toda la vida (SCSI), tarda en marcar como erroneo un disco el tiempo suficiente para que la información del filesystem se corrompa. No me ha pasado una vez, ni con un hardware concreto y no me ha pasado solo con linux (lo he visto en un W2003)... ¿Soy gafe? o ¿Hay un problema de diseño intrinseco a los SATA y sus controladoras? No en todas las ocasiones ha ocurrido como sigue, pero sospechosamente en 2 instalaciones diferentes me ocurrió tal y como lo cuento (una máquina IBM y un SuerperMicro): 1.- Bloqueo del servidor sin causa aparente (se reinicia y funciona bien) 2.- Nuevos bloqueos con menos tiempo cada vez (no indica errores pero se queda "frito" de vez en cuando) 3.- Bloqueo seguido de corrupción de filesystem 4.- Chequeo y puesta en marcha (sin errores hard aparentes) 5.- Chequeos independientes de cada disco (exaustivos) y ENTONCES aparece que uno de ellos efectívamente tiene fallos....(De echo los fallos son tan graves que entonces si que lo marca como "chungo") Puestos a "jugar" lo marque como bueno y el tio seguia tan pancho con bloqueos y todo... Gracias por vuestro tiempo..... Un saludo --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El 20/04/07, Pablo Zuñiga escribió:
Tengo varias instalaciones con raid 1 sata
¿Raid por software o con controladora?
y me preocupa que últimamente el indice de error es elevado, es más el problema está en que cuando un disco se está deteriorando no se comporta como las RAID 1 de toda la vida (SCSI), tarda en marcar como erroneo un disco el tiempo suficiente para que la información del filesystem se corrompa. No me ha pasado una vez, ni con un hardware concreto y no me ha pasado solo con linux (lo he visto en un W2003)... ¿Soy gafe? o ¿Hay un problema de diseño intrinseco a los SATA y sus controladoras?
Dependerá en gran medida del tipo de controladora que utilices y del driver.
1.- Bloqueo del servidor sin causa aparente (se reinicia y funciona bien) 2.- Nuevos bloqueos con menos tiempo cada vez (no indica errores pero se queda "frito" de vez en cuando) 3.- Bloqueo seguido de corrupción de filesystem
Puede ser por el sistema de archivos (ReiserFS), me pasó lo mismo en un servidor supermicro con controladora raid adaptec.
4.- Chequeo y puesta en marcha (sin errores hard aparentes) 5.- Chequeos independientes de cada disco (exaustivos) y ENTONCES aparece que uno de ellos efectívamente tiene fallos....(De echo los fallos son tan graves que entonces si que lo marca como "chungo")
No entiendo. ¿Quién verifica, reiserfsck, el driver o la controladora?
Puestos a "jugar" lo marque como bueno y el tio seguia tan pancho con bloqueos y todo...
Si usas md no sé a qué puede ser debido. Si usas raid 1 con controladora puede ser que el driver utilizado no gestione bien las operaciones de disco o que con carga elevada "caiga" o cause errores, varía mucho según la tarjeta utilizada. Los cables y las conexiones también pueden afectan, algunas controladoras son más sensibles. De vez en cuando se me cae una array en "raid 6", siempre un disco en concreto, ante lo cual sólo puedo reconstruirla y volver a iniciar el sistema. Saludos, -- Camaleón --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
Camaleón escribió:
El 20/04/07, Pablo Zuñiga escribió:
Tengo varias instalaciones con raid 1 sata
¿Raid por software o con controladora?
Siempre Hard
y me preocupa que últimamente el indice de error es elevado, es más el problema está en que cuando un disco se está deteriorando no se comporta como las RAID 1 de toda la vida (SCSI), tarda en marcar como erroneo un disco el tiempo suficiente para que la información del filesystem se corrompa. No me ha pasado una vez, ni con un hardware concreto y no me ha pasado solo con linux (lo he visto en un W2003)... ¿Soy gafe? o ¿Hay un problema de diseño intrinseco a los SATA y sus controladoras?
Dependerá en gran medida del tipo de controladora que utilices y del driver.
Suse 9, SLES 8, SLES 9 LSI, Adaptec, Intel...
1.- Bloqueo del servidor sin causa aparente (se reinicia y funciona bien) 2.- Nuevos bloqueos con menos tiempo cada vez (no indica errores pero se queda "frito" de vez en cuando) 3.- Bloqueo seguido de corrupción de filesystem
Puede ser por el sistema de archivos (ReiserFS), me pasó lo mismo en un servidor supermicro con controladora raid adaptec.
Es posible...Pero con SCSI núnca he tenido este tipo de "putadas"
4.- Chequeo y puesta en marcha (sin errores hard aparentes) 5.- Chequeos independientes de cada disco (exaustivos) y ENTONCES aparece que uno de ellos efectívamente tiene fallos....(De echo los fallos son tan graves que entonces si que lo marca como "chungo")
No entiendo. ¿Quién verifica, reiserfsck, el driver o la controladora?
fsck.reiserfs se ralentizaba con uno de los discos por la gran cantidad de errores (a pesar de ser evidentemente un fallo hard) pero tardaba una eternidad en darse cuenta que el fallo no era de arbol si no de sectores erroneos. (En uno de los casos lo tenía que parar a mano por que no había manera de que la controladora se diera cuenta que el disco FALLABA)
Puestos a "jugar" lo marque como bueno y el tio seguia tan pancho con bloqueos y todo...
Si usas md no sé a qué puede ser debido.
Si usas raid 1 con controladora puede ser que el driver utilizado no gestione bien las operaciones de disco o que con carga elevada "caiga" o cause errores, varía mucho según la tarjeta utilizada.
En todos los casos ha sido un error finalmente de Hard, a pesar de sospechar de drivers (el chequeo de la RAID decia que todo era cosa de mi imaginación).
Los cables y las conexiones también pueden afectan, algunas controladoras son más sensibles. De vez en cuando se me cae una array en "raid 6", siempre un disco en concreto, ante lo cual sólo puedo reconstruirla y volver a iniciar el sistema.
Saludos,
Gracias, en una ocasión cambié todos los cables (tenía un mosqueo de narices) pero sospecho que tanto cable fallando es mucha casualidad. De todas maneras el número de discos SATA de menos de 2 años de funcionamiento que tengo que cambiar parece un número más elevado que otras tecnologías (IDE, SCSI).. No sé. --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El 20/04/07, Pablo Zuñiga escribió:
Suse 9, SLES 8, SLES 9 LSI, Adaptec, Intel...
¿Utilizas los controladores del kernel o instalas los del fabricante?
Es posible...Pero con SCSI núnca he tenido este tipo de "putadas"
Es un desarrollo más maduro. Con scsi no he trabajado en raid, pero es cierto que para entornos críticos tienen un comportamiento excelente. Todavía tengo algunos equipos con discos scsi de ibm del año 2.001, algún problemilla me ha dado la controladora y el tema de los cables, los id y las terminaciones resulta un poco pesado, pero los discos duros suelen ser muy fiables.
fsck.reiserfs se ralentizaba con uno de los discos por la gran cantidad de errores (a pesar de ser evidentemente un fallo hard) pero tardaba una eternidad en darse cuenta que el fallo no era de arbol si no de sectores erroneos. (En uno de los casos lo tenía que parar a mano por que no había manera de que la controladora se diera cuenta que el disco FALLABA)
¿Cómo se entera reiserfs de que tienes un disco en raid caído? ¿Qué controlador usas? Yo no me doy cuenta si no es por el pitido de la tarjeta, el controlador "aacraid" no se entera de nada.
En todos los casos ha sido un error finalmente de Hard, a pesar de sospechar de drivers (el chequeo de la RAID decia que todo era cosa de mi imaginación).
Vaya. Si la propia controladora te dice que todo está bien y el disco tiene problemas, más bien parece un anti-raid. Causa más problemas de los que intenta resolver.
Gracias, en una ocasión cambié todos los cables (tenía un mosqueo de narices) pero sospecho que tanto cable fallando es mucha casualidad.
De todas maneras el número de discos SATA de menos de 2 años de funcionamiento que tengo que cambiar parece un número más elevado que otras tecnologías (IDE, SCSI).. No sé.
De momento no me ha tocado cambiar ningún disco sata (seagate) ni en los servidores ni en los equipos, pero sí es cierto que no está tan maduro como scsi o ide, al menos para raid, lo cual resulta hasta cierto punto "normal", dada su novedad. Saludos, -- Camaleón --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-04-20 a las 17:47 +0200, Camaleón escribió:
Suse 9, SLES 8, SLES 9 LSI, Adaptec, Intel...
¿Utilizas los controladores del kernel o instalas los del fabricante?
...
¿Cómo se entera reiserfs de que tienes un disco en raid caído? ¿Qué controlador usas? Yo no me doy cuenta si no es por el pitido de la tarjeta, el controlador "aacraid" no se entera de nada.
En todos los casos ha sido un error finalmente de Hard, a pesar de sospechar de drivers (el chequeo de la RAID decia que todo era cosa de mi imaginación).
Vaya. Si la propia controladora te dice que todo está bien y el disco tiene problemas, más bien parece un anti-raid. Causa más problemas de los que intenta resolver.
Pues pasaros a software-raid. Ocupará más cpu, pero también es más fiable y versátil. En los sata, el smartd también ha tardado en funcionar, por cierto. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFGKOentTMYHG2NR9URAmwxAJ9echCcVniVEuTZPfHC5BKMryGZJQCbBCq0 JlaB/v1YUZZPtDi1JAqZoMo= =cNG/ -----END PGP SIGNATURE-----
El 20/04/07, Carlos E. R. escribió:
Pues pasaros a software-raid. Ocupará más cpu, pero también es más fiable y versátil.
La verdad es que no estoy del todo contenta con el raid, pensaba que sería una ventaja antes que un inconveniente pero no es tan sencillo como parece. Supongo que habré metido la pata con la elección de la controladora, pero en el próximo servidor que tenga que montar me lo pensaré dos veces antes de elegir raid (ya sea con controladora o por software), no me termina de convencer el sistema, creo que no le he cogido el truco.
En los sata, el smartd también ha tardado en funcionar, por cierto.
También están apareciendo nuevos controladores para sata que trabajan con los chipsets más modernos que permiten la extracción en caliente de los discos o NCQ y PM. Algunas novedades relacionadas con los dispositivos sata y los controladores se pueden consultar aquí: http://linux-ata.org/ Todos los cambios llevan su tiempo. Saludos, -- Camaleón --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
Camaleón escribió:
El 20/04/07, Carlos E. R. escribió:
Pues pasaros a software-raid. Ocupará más cpu, pero también es más fiable y versátil.
La verdad es que no estoy del todo contenta con el raid, pensaba que sería una ventaja antes que un inconveniente pero no es tan sencillo como parece.
Supongo que habré metido la pata con la elección de la controladora, pero en el próximo servidor que tenga que montar me lo pensaré dos veces antes de elegir raid (ya sea con controladora o por software), no me termina de convencer el sistema, creo que no le he cogido el truco.
La controladora RAID hard es una configuración sencilla y si no es SATA fiable. A nivel de rendimiento puede ser espectacular si la controladora es buena y tiene un buen tamaño de cache...
En los sata, el smartd también ha tardado en funcionar, por cierto.
También están apareciendo nuevos controladores para sata que trabajan con los chipsets más modernos que permiten la extracción en caliente de los discos o NCQ y PM.
Algunas novedades relacionadas con los dispositivos sata y los controladores se pueden consultar aquí:
Todos los cambios llevan su tiempo.
Saludos,
Espero que sea así con las sata, pero a la hora de poner un servidor he decidido descartar el sata por el momento.... El problema siempre está en el costo que en discos SAS o SCSI sube de una manera importante a la hora de necesitar mucho giga. Saludos --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
Hola :) El Viernes, 20 de Abril de 2007 18:52, Pablo Zuñiga escribió:
Camaleón escribió:
El 20/04/07, Carlos E. R. escribió:
Pues pasaros a software-raid. Ocupará más cpu, pero también es más fiable y versátil.
La verdad es que no estoy del todo contenta con el raid, pensaba que sería una ventaja antes que un inconveniente pero no es tan sencillo como parece.
Supongo que habré metido la pata con la elección de la controladora, pero en el próximo servidor que tenga que montar me lo pensaré dos veces antes de elegir raid (ya sea con controladora o por software), no me termina de convencer el sistema, creo que no le he cogido el truco.
La controladora RAID hard es una configuración sencilla y si no es SATA fiable. A nivel de rendimiento puede ser espectacular si la controladora es buena y tiene un buen tamaño de cache...
En los sata, el smartd también ha tardado en funcionar, por cierto.
También están apareciendo nuevos controladores para sata que trabajan con los chipsets más modernos que permiten la extracción en caliente de los discos o NCQ y PM.
Algunas novedades relacionadas con los dispositivos sata y los controladores se pueden consultar aquí:
Todos los cambios llevan su tiempo.
Saludos,
Espero que sea así con las sata, pero a la hora de poner un servidor he decidido descartar el sata por el momento.... El problema siempre está en el costo que en discos SAS o SCSI sube de una manera importante a la hora de necesitar mucho giga.
Hay veces que cosas como temperaturas, fuentes de alimentación, RAM defectuosa, ... afecten otras partes del sistema. Si los drivers, la tarjeta, ... parecen estar bien, comprueba lo demás.: - RAM: echa un vistazo al memcheck - comprueba que la máquina no se recalienta, sobre todo los discos: mira a ver si los ventiladores giran bien, si tienes sensores de temperatura para los discos -> compruebalos, ... - comprueba que la fuente de alimentación puede abastecer de energía a todos los dispositivos, desactiva o saca físicamente los que no necesites (si se puede), ... - comprueba también si la carga es muy alta (utiliza sar, por ejemplo, déjalo correr un rato y luego analizas el resultado). A lo mejor el sistema I/O está demasiado cargado, los buses, la CPU, la RAM, ... - comprueba el tipo de disco que es. Hay algunos fabricantes que te venden discos de menor MTBF que lo que ponen sus hojas publicitarias. Esto se puede ver a veces en el propio disco, pero no siempre. - comprueba que el ruido de los servidores sea el "correcto". Hay veces que el disco puede sonar mal -> disco defectuoso, ... - ten un buen sistema de backup ;) HTH Rafa --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-04-21 a las 11:25 +0200, Rafa Grimán escribió:
- comprueba que la máquina no se recalienta, sobre todo los discos: mira a ver si los ventiladores giran bien, si tienes sensores de temperatura para los discos -> compruebalos, ...
Los discos modernos llevan sensor interno, que se puede leer: nimrodel:~ # smartctl -A /dev/hda === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE ... 190 Temperature_Celsius 0x0022 069 055 045 Old_age Always - 521404447 194 Temperature_Celsius 0x0022 031 045 000 Old_age Always - 31 (Lifetime Min/Max 0/18)
- ten un buen sistema de backup ;)
for n:=1 to 100000000 writeln ('ten un buen sistema de backup') - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFGKepxtTMYHG2NR9URAn4PAJ9ctbFXo+jq+ZTFTjhhEczOAvrCHgCdG28k U9JbPeR0Expr1TUJHr8psQI= =P5k/ -----END PGP SIGNATURE-----
participants (4)
-
Camaleón
-
Carlos E. R.
-
Pablo Zuñiga
-
Rafa Grimán