kernel: [Hardware Error]: Machine check events logged

Все знают, что любопытство наказуемо. Особенно наказуемо оно по выходным. А регулярное слежение за логами — это вообще … В общем, доследился:

kernel: [Hardware Error]: Machine check events logged

обрадовавшись как тому, что сервер жив, так и возможности узнать что-то новое — не преминул воспользоваться этим:

# mcelog 
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
MCE 0
CPU 1 BANK 3 
ADDR 44df6f580 
TIME 1360434736 Sun Feb 10 00:32:16 2013
MCG status:
MCi status:
Error enabled
MCi_ADDR register valid
Threshold based error status: green
MCA: Generic CACHE Level-2 Generic Error
STATUS 942000440001010a MCGSTATUS 0
MCGCAP 806 APICID 2 SOCKETID 0 
CPUID Vendor Intel Family 6 Model 15

Поглядел температурный режим процессоров — все стабильно, количество копоти не превышает норму, дымность тоже в пределах допустимого, аптечка и огнетушитель на месте. В общем, ситуация выглядит вполне внезапной, как ей и положено.

Любопытно другое — есть ли повод к замене процессора? (лень эффективно убеждает, что повода нет) И вообще, стоит ли что-то предпринимать, коль скоро это не повторится в, хм, разумные сроки :D?
Возможно коллективный разум уже сталкивался и ему есть чем поделиться?

PS Почему-то mcelog мне не указало бесплатный круглосуточный номер саппорта вендора (Please contact your hardware vendor) — так и должно быть? :D

Память

с 90% вероятностью проблема с ОЗУ

Цитата: с 90% вероятностью

Цитата:
с 90% вероятностью проблема с ОЗУ

хм.. MCA: Generic CACHE Level-2 Generic Error указывает я так понимаю на L2 кэш процессора, нет? Хотя что означает BANK 3 в данном случае — загадка.

sys-apps/memtest86+

есть повод провериться standalone memtest: либо покажет проблему более детально, либо - нет

мне так кажется, что к памяти

мне так кажется, что к памяти (RAM) ошибка не имеет отношения ;)
ошибка памяти выглядит иначе: http://serverfault.com/questions/447912/how-do-i-interpret-mce-messages

или же есть какая-то предметная уверенность в проблеме именно с памятью?

Beelzebubbie написал(а): или

Beelzebubbie написал(а):
или же есть какая-то предметная уверенность в проблеме именно с памятью?

нет. просто memtest - это самое быстрое, что можно сделать и получить результат

Я бы сначала проверил, что

Я бы сначала помониторил бы, что все напряжения в моменты сбоев в пределах нормы по техусловиям именно этого чипа и именно вашей памяти (надеюсь, что все планки одинаковы или хотя бы с одинаковыми параметрами и, конечно же, из списка совместимого железа от изготовителя.
Далее, проверил, что BIOS/firmware обновлен до последней стабильной версии...

P.S. А ядро, также как и сам чип процессора, ничего не знают даже об изготовителе вашей платы, не говоря уж о номере телефона! :)

BIOS, BMC и прочее были

BIOS, BMC и прочее были обновлены около года назад, примерно тогда же и памятью было укомплектовано. Конечно, речь про списки совместимого железа речь не шла, однако по характеристикам все было в порядке. Мониторинг, как я говорил, ничего не показал выходящего за рамки, и, вообще, выходящего за привычные значения.

Все тут дружно советуют проверить память, но почему? Что именно в mce логе указывает на память? Или какое отношение имеет сбой L2 кэша к памяти? Или просто потму, что память это единственное, что можно относительно нетрудно проверить?

>ничего не знают
жирный минус им за это :)

Вы несколько не о том

Вы несколько не о том говорите:

1. у вас речь шла о температурах, а я говорю о напряжениях и более того - о динамических их значениях, т.е. в конкретные моменты (а именно тогда, когда фиксировался сбой! и чуть раньше, разумеется).
2. мало ли что было год назад... или подразумевается, что НИКАКИХ изменений в системе не было? ;) Как минимум, у вас электролиты подсохли, а как результат - выбросы по питанию! ни проц, ни память такого не любят. Ткнитесь осциллографом в шины питания на плате возле проца и памяти - может прояснится картина.
3. "привычные значения" - это вообще нонсенс! как средняя температура по больнице... поскольку даже у одной модели проца разных модификаций может быть разница в питающих напряжениях... а здесь порой 0.1В имеет существенное значение. Про нестабильность питающих напряжений проца я даже не говорю! Кстати, похожая картина и с памятью...
4. Насколько хороший у вас источник? есть ли запас по токам? возможно он "проседает", когда диск(и) дергает... опять же - электролиты могли постареть - с теми же последствиями...

>а я говорю о напряжениях и

>а я говорю о напряжениях и более того - о динамических их значениях
к сожалению, мне неизвестен способ real-time, или хотя бы с разрешением в секунду, получать по IPMI значения сенсоров; текущая же картина, с перодичностью в десятки секунд не показала особых отклонений от средних значений в сравнении с данными за месяц, что, конечно, репрезентативно только в отношении проблемы, имеющей постоянный характер. Что поделать, если кроме средней температуры по палате — данных нет?

>Ткнитесь осциллографом в шины питания на плате возле проца и памяти - может прояснится картина.
Совет конечно, хорош, вот только сервер находится в 1К км от меня. Проще организовать отправку и замену процессора или БП, нежели чем раскладывать дистанционно осциллографы и прочую фаллометрию.

Прекрасно понимаю, что информации для диагностики слишком мало, но тут ничего не поделаешь; изначальный вопрос, собственно, был в определенной степени «выстрелом наугад», рассчитанным на то, что это, возможно, хорошо известный в узких кругах симптом.

Beelzebubbie написал(а):>а я

Beelzebubbie написал(а):
>а я говорю о напряжениях и более того - о динамических их значениях
к сожалению, мне неизвестен способ real-time, или хотя бы с разрешением в секунду, получать по IPMI значения сенсоров...

Ну хотя бы

while true ; do sensors >> /var/log/sensors.log; done

:)

Цитата: Ну хотя бы на

Цитата:
Ну хотя бы

на десктопах — да, прокатит; на серверных платформах как правило сенсоры доступны через IPMI, где так быстро (по моему опыту) не получится, а lm_sensors в лучшем случае покажут температуру процессора, памяти и все.

use Ipmitool; use

use Ipmitool;
  use Data::Dumper;
  $i = Ipmitool->new(-ipaddress => "10.8.151.179", -username => "root", -password => "changeme");
  $i->print();
  %FRU = $i->fru();
  print Dumper($i);
  $i->bmc("info");

http://search.cpan.org/~manjunath/Ipmitool-0.02/lib/Ipmitool.pm

для себя давно уже

https://collectd.org/wiki/index.php/Plugin:IPMI

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

за наводку на collectd —

за наводку на collectd — благодарю

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".