kernel: [Hardware Error]: Machine check events logged
Все знают, что любопытство наказуемо. Особенно наказуемо оно по выходным. А регулярное слежение за логами — это вообще … В общем, доследился:
kernel: [Hardware Error]: Machine check events logged
обрадовавшись как тому, что сервер жив, так и возможности узнать что-то новое — не преминул воспользоваться этим:
# mcelog HARDWARE ERROR. This is *NOT* a software problem! Please contact your hardware vendor MCE 0 CPU 1 BANK 3 ADDR 44df6f580 TIME 1360434736 Sun Feb 10 00:32:16 2013 MCG status: MCi status: Error enabled MCi_ADDR register valid Threshold based error status: green MCA: Generic CACHE Level-2 Generic Error STATUS 942000440001010a MCGSTATUS 0 MCGCAP 806 APICID 2 SOCKETID 0 CPUID Vendor Intel Family 6 Model 15
Поглядел температурный режим процессоров — все стабильно, количество копоти не превышает норму, дымность тоже в пределах допустимого, аптечка и огнетушитель на месте. В общем, ситуация выглядит вполне внезапной, как ей и положено.
Любопытно другое — есть ли повод к замене процессора? (лень эффективно убеждает, что повода нет) И вообще, стоит ли что-то предпринимать, коль скоро это не повторится в, хм, разумные сроки :D?
Возможно коллективный разум уже сталкивался и ему есть чем поделиться?
PS Почему-то mcelog мне не указало бесплатный круглосуточный номер саппорта вендора (Please contact your hardware vendor) — так и должно быть? :D
- Для комментирования войдите или зарегистрируйтесь
Память
с 90% вероятностью проблема с ОЗУ
Цитата: с 90% вероятностью
хм..
MCA: Generic CACHE Level-2 Generic Error
указывает я так понимаю на L2 кэш процессора, нет? Хотя что означает BANK 3 в данном случае — загадка.sys-apps/memtest86+
есть повод провериться standalone memtest: либо покажет проблему более детально, либо - нет
мне так кажется, что к памяти
мне так кажется, что к памяти (RAM) ошибка не имеет отношения ;)
ошибка памяти выглядит иначе: http://serverfault.com/questions/447912/how-do-i-interpret-mce-messages
или же есть какая-то предметная уверенность в проблеме именно с памятью?
Beelzebubbie написал(а): или
нет. просто memtest - это самое быстрое, что можно сделать и получить результат
Я бы сначала проверил, что
Я бы сначала помониторил бы, что все напряжения в моменты сбоев в пределах нормы по техусловиям именно этого чипа и именно вашей памяти (надеюсь, что все планки одинаковы или хотя бы с одинаковыми параметрами и, конечно же, из списка совместимого железа от изготовителя.
Далее, проверил, что BIOS/firmware обновлен до последней стабильной версии...
P.S. А ядро, также как и сам чип процессора, ничего не знают даже об изготовителе вашей платы, не говоря уж о номере телефона! :)
BIOS, BMC и прочее были
BIOS, BMC и прочее были обновлены около года назад, примерно тогда же и памятью было укомплектовано. Конечно, речь про списки совместимого железа речь не шла, однако по характеристикам все было в порядке. Мониторинг, как я говорил, ничего не показал выходящего за рамки, и, вообще, выходящего за привычные значения.
Все тут дружно советуют проверить память, но почему? Что именно в mce логе указывает на память? Или какое отношение имеет сбой L2 кэша к памяти? Или просто потму, что память это единственное, что можно относительно нетрудно проверить?
>ничего не знают
жирный минус им за это :)
Вы несколько не о том
Вы несколько не о том говорите:
1. у вас речь шла о температурах, а я говорю о напряжениях и более того - о динамических их значениях, т.е. в конкретные моменты (а именно тогда, когда фиксировался сбой! и чуть раньше, разумеется).
2. мало ли что было год назад... или подразумевается, что НИКАКИХ изменений в системе не было? ;) Как минимум, у вас электролиты подсохли, а как результат - выбросы по питанию! ни проц, ни память такого не любят. Ткнитесь осциллографом в шины питания на плате возле проца и памяти - может прояснится картина.
3. "привычные значения" - это вообще нонсенс! как средняя температура по больнице... поскольку даже у одной модели проца разных модификаций может быть разница в питающих напряжениях... а здесь порой 0.1В имеет существенное значение. Про нестабильность питающих напряжений проца я даже не говорю! Кстати, похожая картина и с памятью...
4. Насколько хороший у вас источник? есть ли запас по токам? возможно он "проседает", когда диск(и) дергает... опять же - электролиты могли постареть - с теми же последствиями...
>а я говорю о напряжениях и
>а я говорю о напряжениях и более того - о динамических их значениях
к сожалению, мне неизвестен способ real-time, или хотя бы с разрешением в секунду, получать по IPMI значения сенсоров; текущая же картина, с перодичностью в десятки секунд не показала особых отклонений от средних значений в сравнении с данными за месяц, что, конечно, репрезентативно только в отношении проблемы, имеющей постоянный характер. Что поделать, если кроме средней температуры по палате — данных нет?
>Ткнитесь осциллографом в шины питания на плате возле проца и памяти - может прояснится картина.
Совет конечно, хорош, вот только сервер находится в 1К км от меня. Проще организовать отправку и замену процессора или БП, нежели чем раскладывать дистанционно осциллографы и прочую фаллометрию.
Прекрасно понимаю, что информации для диагностики слишком мало, но тут ничего не поделаешь; изначальный вопрос, собственно, был в определенной степени «выстрелом наугад», рассчитанным на то, что это, возможно, хорошо известный в узких кругах симптом.
Beelzebubbie написал(а):>а я
Ну хотя бы
:)
Цитата: Ну хотя бы на
на десктопах — да, прокатит; на серверных платформах как правило сенсоры доступны через IPMI, где так быстро (по моему опыту) не получится, а lm_sensors в лучшем случае покажут температуру процессора, памяти и все.
use Ipmitool; use
http://search.cpan.org/~manjunath/Ipmitool-0.02/lib/Ipmitool.pm
для себя давно уже
https://collectd.org/wiki/index.php/Plugin:IPMI
Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)
за наводку на collectd —
за наводку на collectd — благодарю