Hi zusammen, habe 5 (rel. neue) Samsung HDDs in einem LVM2. Seit gestern habe ich ein Problem beim Schreiben auf dieses LVM: Nach einigen GB hängt sich der Schreibprozess auf, IO steht auf Waiting und eine Platte scheint regelmäßig zu klackern. An und für sich ein simples Problem: Platte kaputt. Jetzt habe ich folgendes festgestellt: -es scheint nicht immer dieselbe Platte Geräusche zu machen -SMART meldet überhaupt keine Fehler, auch der short test und der long test mit analyse aller sektoren laufen problemlos Das kann eigentlich dann nur ein mechanisches Problem sein und ggf mehr als eine Platte betreffen. Da die Platten alle übereinander eingebaut sind, ist genaues horchen mehr oder weniger unmöglich. Hat jemand eine Idee, wie ich die fehlerhafte(n) Platten sicher herausfinden kann? Da es ein LVM ist kann ich logischer weise auch nicht alle Platten einzeln mounten und durchprobieren... Könnte es darüber hinaus noch an etwas anderem liegen? Außer Updates (OS 12.1) eingespielt ist nichts passiert. Ich habe testweise mal ein aktuelles Knoppix gebootet, selbes Problem. Danke! Grüße SK -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo Stefan, Am 03.01.2012 17:40, schrieb Stefan König:
Das kann eigentlich dann nur ein mechanisches Problem sein und ggf mehr als eine Platte betreffen. Da die Platten alle übereinander eingebaut sind, ist genaues horchen mehr oder weniger unmöglich.
Nimm einfach einen nichtmagnetischen Metallstab und halte diesen während des Phänomens direkt an die Platte und das andere Ende direkt an Dein Ohr. Damit kannst Du mit ein klein wenig Übung hören, welche Platte dann die Geräusche macht. Für den Rest habe ich derzeit noch keine Idee -- Gruß Axel ------------------------------ -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hi, Axel Birndt schrieb:
Hallo Stefan,
Am 03.01.2012 17:40, schrieb Stefan König:
Das kann eigentlich dann nur ein mechanisches Problem sein und ggf mehr als eine Platte betreffen. Da die Platten alle übereinander eingebaut sind, ist genaues horchen mehr oder weniger unmöglich.
Nimm einfach einen nichtmagnetischen Metallstab und halte diesen während des Phänomens direkt an die Platte und das andere Ende direkt an Dein Ohr. Damit kannst Du mit ein klein wenig Übung hören, welche Platte dann die Geräusche macht.
Für den Rest habe ich derzeit noch keine Idee
Ich habs jetzt mal mit dd ein nullfile von 100gb schreiben lassen und mit nem Bleistift gehorcht... Es ist definitiv nicht immer dieselbe Platte die Geräusche macht. Die Geräusche unterscheiden sich auch. Manchmal klopft es, manchmal zirpt es eher :) ABer beides ganz leise. Nicht wie das typische Kopf-Klackern. Irgendwann beim Schreiben des Nullfiles hing er mit 80%wa und hat dann nach ein-zwei Minuten aber wieder weitergemacht.... Logfiles schweigen sich komplett aus zu dem Thema. Ergänzend sollte ich noch erwähnen, das unter dem LVM noch eine luks Verschlüsselung liegt. Wenn er auf IOs wartet haben auch die kworker Prozesse rel. viel CPU Last... grüße SK -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo Stefan, kann es sein das die Platten nach Zeit rekalibrieren? Wenn das alle machen und nur ganz kurz zeitversetzt (da gleichzeitig eingeschaltet) dann könnte der Controller timeout bekommen(?) o. ä. Nur so'n Gedanke Johannes Am 03.01.2012 18:30, schrieb Stefan König:
Hi,
Axel Birndt schrieb:
Hallo Stefan,
Am 03.01.2012 17:40, schrieb Stefan König:
Das kann eigentlich dann nur ein mechanisches Problem sein und ggf mehr als eine Platte betreffen. Da die Platten alle übereinander eingebaut sind, ist genaues horchen mehr oder weniger unmöglich.
Nimm einfach einen nichtmagnetischen Metallstab und halte diesen während des Phänomens direkt an die Platte und das andere Ende direkt an Dein Ohr. Damit kannst Du mit ein klein wenig Übung hören, welche Platte dann die Geräusche macht.
Für den Rest habe ich derzeit noch keine Idee
Ich habs jetzt mal mit dd ein nullfile von 100gb schreiben lassen und mit nem Bleistift gehorcht... Es ist definitiv nicht immer dieselbe Platte die Geräusche macht. Die Geräusche unterscheiden sich auch. Manchmal klopft es, manchmal zirpt es eher :) ABer beides ganz leise. Nicht wie das typische Kopf-Klackern.
Irgendwann beim Schreiben des Nullfiles hing er mit 80%wa und hat dann nach ein-zwei Minuten aber wieder weitergemacht.... Logfiles schweigen sich komplett aus zu dem Thema. Ergänzend sollte ich noch erwähnen, das unter dem LVM noch eine luks Verschlüsselung liegt. Wenn er auf IOs wartet haben auch die kworker Prozesse rel. viel CPU Last...
grüße SK -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Johannes Kapune schrieb:
Hallo Stefan, kann es sein das die Platten nach Zeit rekalibrieren? Wenn das alle machen und nur ganz kurz zeitversetzt (da gleichzeitig eingeschaltet) dann könnte der Controller timeout bekommen(?) o. ä.
Nur so'n Gedanke
Johannes
Tja gute Frage! Timeouts o.ä. sollte ich ja aber dann in /var/log/messages sehen, oder? Ich kann immer ein paar MB/GB Daten schreiben (500MB-4GB zB) und dann hängt alles und eine platte macht Geräusche. Dann gehts nach ein-zwei-drei Minuten weiter (wieder nur ein paar hundert MB oder auch ein paar GB) und dann macht eine andere Platte die Probleme. Ist wie gesagt plötzlich aufgetaucht.... Das Lesen von den Platten funktioniert übrigens ohne Probleme.... Grüße SK -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Stefan König schrieb:
Johannes Kapune schrieb:
Hallo Stefan, kann es sein das die Platten nach Zeit rekalibrieren? Wenn das alle machen und nur ganz kurz zeitversetzt (da gleichzeitig eingeschaltet) dann könnte der Controller timeout bekommen(?) o. ä.
Nur so'n Gedanke
Johannes
Tja gute Frage! Timeouts o.ä. sollte ich ja aber dann in /var/log/messages sehen, oder? Ich kann immer ein paar MB/GB Daten schreiben (500MB-4GB zB) und dann hängt alles und eine platte macht Geräusche. Dann gehts nach ein-zwei-drei Minuten weiter (wieder nur ein paar hundert MB oder auch ein paar GB) und dann macht eine andere Platte die Probleme. Ist wie gesagt plötzlich aufgetaucht.... Das Lesen von den Platten funktioniert übrigens ohne Probleme....
Könnte das Netzteil der Übeltäter sein? Noch etwas, ich hatte vor etlichen Jahren mal ein Problem mit mehreren Platten, die direkt übereinander montiert waren. Die hatten sich nachweislich gegenseitig gestört, dürfte zwar nicht sein war aber so. Was ich damit sagen möchte, du wirst wohl nicht umhin kommen die Platten mal auszubauen und lose zu betreiben Manfred -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo Stefan, On Tuesday, 03.January.2012 17:40:27 Stefan König wrote:
Hat jemand eine Idee, wie ich die fehlerhafte(n) Platten sicher herausfinden kann? Da es ein LVM ist kann ich logischer weise auch nicht alle Platten einzeln mounten und durchprobieren...
Tritt das Problem nur beim Schreiben auf, oder hast du auch Lesefehler bzw. das Klackern auch beim Lesen? Im ersten Fall koenntest du , natuerlich nach einem Backup des LVM oder nur der einen Platte (mit dd, und wenn genug Nullen drin sind auch noch gzip/bzip2) einen non destructive badblocks der Platte durchfuehren. Im zweiten Fall kannst du die Platte einfach per dd auslesen.
Könnte es darüber hinaus noch an etwas anderem liegen? Außer Updates (OS 12.1) eingespielt ist nichts passiert. Ich habe testweise mal ein aktuelles Knoppix gebootet, selbes Problem.
Fuenf Platten. Stromversorgung? SATA-Controller? Treiber? Mainboard? Das kann Vieles sein. Mal die Platten einzeln testen. Evt. mal die SATA-Ports tauschen, oder auch nur die Kabel. Roman -- Roman Fietze Telemotive AG Buero Muehlhausen Breitwiesen 73347 Muehlhausen Tel.: +49(0)7335/18493-45 http://www.telemotive.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hi, Roman Fietze schrieb:
Hallo Stefan,
On Tuesday, 03.January.2012 17:40:27 Stefan König wrote:
Hat jemand eine Idee, wie ich die fehlerhafte(n) Platten sicher herausfinden kann? Da es ein LVM ist kann ich logischer weise auch nicht alle Platten einzeln mounten und durchprobieren...
Tritt das Problem nur beim Schreiben auf, oder hast du auch Lesefehler bzw. das Klackern auch beim Lesen?
Im ersten Fall koenntest du , natuerlich nach einem Backup des LVM oder nur der einen Platte (mit dd, und wenn genug Nullen drin sind auch noch gzip/bzip2) einen non destructive badblocks der Platte durchfuehren.
Nur beim Schreiben. Lesen der gesamten Platte/aller Sektoren funktioniert einwandfrei laut SMART longtest. Badblocks lasse ich heute mal drüber laufen, danke für den Tip.
Im zweiten Fall kannst du die Platte einfach per dd auslesen.
Könnte es darüber hinaus noch an etwas anderem liegen? Außer Updates (OS 12.1) eingespielt ist nichts passiert. Ich habe testweise mal ein aktuelles Knoppix gebootet, selbes Problem.
Fuenf Platten. Stromversorgung? SATA-Controller? Treiber? Mainboard?
Das kann Vieles sein. Mal die Platten einzeln testen. Evt. mal die SATA-Ports tauschen, oder auch nur die Kabel.
Roman
Die Platten stecken jeweils in einem externen Gehäuse mit jeweils eigener Stromversorgung. Daher würde ich ein Stromproblem schonmal ausschließen. Sata Ports kann ich leider nicht tauschen, die sind alle schon belegt :( Ich könnte höchstens untereinander wechseln und dann mal schauen was passiert. Kabel muss ich besorgen, ist aber auch noch ne idee... thx grüße SK -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hi nochmal,
Im ersten Fall koenntest du , natuerlich nach einem Backup des LVM oder nur der einen Platte (mit dd, und wenn genug Nullen drin sind auch noch gzip/bzip2) einen non destructive badblocks der Platte durchfuehren.
ich habe keine Reserveplatte fürs Backup mehr da, wie "sicher" ist denn der non-destructive RW test von badblocks? Hat da jemand Erfahrungswerte? Ich habe das Gefühl ohne Backup ist das ein Tanz auf dem Vulkan, denn wenn ich das richtig gelesen habe macht er wohl folgendes: orig. Daten lesen test daten schreiben test daten lesen orig. Daten schreiben grüße SK -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo Stefan, On Wednesday, 04.January.2012 10:02:37 Stefan König wrote:
ich habe keine Reserveplatte fürs Backup mehr da ...
Auch keine USB-Platte um nur die eine Platte wegzusichern?
wie "sicher" ist denn der non-destructive RW test von badblocks?
Bei mir ist noch nie etwas passiert, aber sicher ist etwas Anderes.
Hat da jemand Erfahrungswerte?
Hast du ein Backup, wirst du es nicht brauchen, hast du keines ...
Ich habe das Gefühl ohne Backup ist das ein Tanz auf dem Vulkan, ...
Definitiv.
orig. Daten lesen test daten schreiben test daten lesen orig. Daten schreiben
Exakt. Da darf weder die Platte den von dir beschriebenen Aussetzer haben noch der Strom ausfallen, ist ja gerade wieder ein Sturmtief angesagt. Roman -- Roman Fietze Telemotive AG Buero Muehlhausen Breitwiesen 73347 Muehlhausen Tel.: +49(0)7335/18493-45 http://www.telemotive.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hi, Roman Fietze schrieb:
Hallo Stefan,
On Wednesday, 04.January.2012 10:02:37 Stefan König wrote:
ich habe keine Reserveplatte fürs Backup mehr da ...
Auch keine USB-Platte um nur die eine Platte wegzusichern?
wie "sicher" ist denn der non-destructive RW test von badblocks?
Bei mir ist noch nie etwas passiert, aber sicher ist etwas Anderes.
Hat da jemand Erfahrungswerte?
Hast du ein Backup, wirst du es nicht brauchen, hast du keines ...
Ich habe das Gefühl ohne Backup ist das ein Tanz auf dem Vulkan, ...
Definitiv.
orig. Daten lesen test daten schreiben test daten lesen orig. Daten schreiben
Exakt. Da darf weder die Platte den von dir beschriebenen Aussetzer haben noch der Strom ausfallen, ist ja gerade wieder ein Sturmtief angesagt.
Roman
Ich schaue mal ob ich ein NAS ausgeliehen bekomme um die Daten zu sichern, dann lasse ich mal ein fsck mit "-c -c" drüberlaufen, das wäre ja quasi all-in-one. Wenn das dann zwar wieder hängt aber am Ende _keine_ Fehler meldet, kann es eigentlich nur ein elektromechanischer Fehler mehrerer Platten sein... Googeln führte mich zu http://kb.acronis.com/content/9102 Und siehe da, bei den betroffenen Samsung HDDs ist THROUGHPUT_PERFORMANCE >0. Und diverse andere Samsung 2TB HDDs von mir haben da alle 0 stehen... Grüße SK -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Stefan König schrieb:
Hi,
Roman Fietze schrieb:
Hallo Stefan,
On Wednesday, 04.January.2012 10:02:37 Stefan König wrote:
ich habe keine Reserveplatte fürs Backup mehr da ...
[...]
Ich schaue mal ob ich ein NAS ausgeliehen bekomme um die Daten zu sichern, dann lasse ich mal ein fsck mit "-c -c" drüberlaufen, das wäre ja quasi all-in-one. Wenn das dann zwar wieder hängt aber am Ende _keine_ Fehler meldet, kann es eigentlich nur ein elektromechanischer Fehler mehrerer Platten sein... Googeln führte mich zu http://kb.acronis.com/content/9102 Und siehe da, bei den betroffenen Samsung HDDs ist THROUGHPUT_PERFORMANCE >0. Und diverse andere Samsung 2TB HDDs von mir haben da alle 0 stehen...
Ich möchte hier jetzt keine Diskussion über Sinn und Unsinn von LVMs über mehrere Platten lostreten aber interessieren würde es mich schon, was dich dazu bewogen hat, ein LVM über 5 Platten anzulegen. Du weißt ja sicher auch: eine Platte hops - alles hops. Bei einer solchen Konstellation hätte ich absolut keine Ruhe. Was machst du eigentlich um den Smart Parameter 2 zu Gesicht zu bekommen. Bei all meinen Platten (Samsung und WD, 750G - 1.5T) hab ich den noch nie gesehen. Gruß Manfred -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am 4. Januar 2012 17:00 schrieb Manfred Kreisl
Ich möchte hier jetzt keine Diskussion über Sinn und Unsinn von LVMs über mehrere Platten lostreten aber interessieren würde es mich schon, was dich dazu bewogen hat, ein LVM über 5 Platten anzulegen. Du weißt ja sicher auch:
ACK. Bei 5 Platten macht man LVM auf RAID5. Gruß Martin -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hi,
Ich schaue mal ob ich ein NAS ausgeliehen bekomme um die Daten zu sichern, dann lasse ich mal ein fsck mit "-c -c" drüberlaufen, das wäre ja quasi all-in-one. Wenn das dann zwar wieder hängt aber am Ende _keine_ Fehler meldet, kann es eigentlich nur ein elektromechanischer Fehler mehrerer Platten sein... Googeln führte mich zu http://kb.acronis.com/content/9102 Und siehe da, bei den betroffenen Samsung HDDs ist THROUGHPUT_PERFORMANCE >0. Und diverse andere Samsung 2TB HDDs von mir haben da alle 0 stehen...
Ich möchte hier jetzt keine Diskussion über Sinn und Unsinn von LVMs über mehrere Platten lostreten aber interessieren würde es mich schon, was dich dazu bewogen hat, ein LVM über 5 Platten anzulegen. Du weißt ja sicher auch: eine Platte hops - alles hops. Bei einer solchen Konstellation hätte ich absolut keine Ruhe.
Was machst du eigentlich um den Smart Parameter 2 zu Gesicht zu bekommen. Bei all meinen Platten (Samsung und WD, 750G - 1.5T) hab ich den noch nie gesehen.
Das ganze hat historische Wurzeln. Es begann mit zwei Platten und ist dann angewachsen. Mehr werden es aber nicht werden. Ich denke auch daran, das mittelfristig auf ein RAID5 mit ordentlichem Controller umzustellen. Momentan sind mir aber die Platten zu teuer :D Aktuell wird der gesamte Datenbestand des Nachts auch nochmal gespiegelt. Insofern also kein problem wenn hier mal eine Platte wegbricht. Ist mir schonmal passiert und ich konnte dann noch auf einiges zugreifen.... Ich bekomme den Parameter ganz normal bei einem "smartctl -a" angezeigt, habe aber gelesen, dass das Herstellerspezifisch sein soll....meine 1.5TB Samsung hat diese ID allerdings auch nicht! Grüße SK -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hi,
Ich schaue mal ob ich ein NAS ausgeliehen bekomme um die Daten zu sichern, dann lasse ich mal ein fsck mit "-c -c" drüberlaufen, das wäre ja quasi all-in-one. Wenn das dann zwar wieder hängt aber am Ende _keine_ Fehler meldet, kann es eigentlich nur ein elektromechanischer Fehler mehrerer Platten sein... Googeln führte mich zu http://kb.acronis.com/content/9102 Und siehe da, bei den betroffenen Samsung HDDs ist THROUGHPUT_PERFORMANCE >0. Und diverse andere Samsung 2TB HDDs von mir haben da alle 0 stehen...
für die Akten: Ein fsck mit "-c -c" ist nicht durchgelaufen, da scheint es einen Bug zu geben bei badblocks. Hängt evtl mit der volumegröße zusammen.... surfer:~ # fsck.ext4 -C0 -c -c /dev/mapper/vgroup-lvolume e2fsck 1.41.14 (22-Dec-2010) badblocks: invalid option -- '1' Usage: badblocks [-b block_size] [-i input_file] [-o output_file] [-svwnf] [-c blocks_at_once] [-d delay_factor_between_reads] [-e max_bad_blocks] [-p num_passes] [-t test_pattern [-t test_pattern [...]]] device [last_block [first_block]] /dev/mapper/vgroup-lvolume: Updating bad block inode. Pass 1: Checking inodes, blocks, and sizes [...] -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
participants (6)
-
Axel Birndt
-
Johannes Kapune
-
Manfred Kreisl
-
Martin Schröder
-
Roman Fietze
-
Stefan König