Gentoo подвисает - HELP!
Здравствуйте товарищи! В общем возникла пару месяцев назад такая проблема. Отследить ее не представляется возможным. Сервер на Gentoo через 10-15 дней нормальной работы начинает подвисать. Перестает DHCP раздавать, перестает пускать по ssh. При этом NAT работает. Непосредственно с консоли доступ есть. В логах на момент глюка ничего нет. При попытке рестартнуть его или вырубить - просто виснет. Приходится ресетить вручную. Как отловить этот глюк? Раньше работал по полгода аптайм - никаких проблем. Началось примерно в апреле - возможно после очередного обновления.
Помогите отловить глюк. На сервере установлены minidlna, POP3/SMTP, bind, mysql, samba, transmission + пару мелочей. Какую информацию предоставить?
Linux games 3.12.13-gentoo #3 SMP Fri May 23 22:04:23 EEST 2014 i686 Intel(R) Atom(TM) CPU D525 @ 1.80GHz GenuineIntel GNU/Linux
- Для комментирования войдите или зарегистрируйтесь
информацию по мониторингу :)
информацию по мониторингу :) загрузка (в т.ч. i/o), температуры, вольтажи, память, ipmi, smart … вам там виднее чего производитель вашего конкретного сервера понавтыкал.
upd: качаете торренты/стримите видео? вычислительная нагрузка невелика, а вот i/o может быть узким местом.
upd+: трансмиссия – не лучший выбор, хотя в контексте вопроса это не имеет особого значения
Мониторинг
Смарт винта идеальный:
Загрузка проца - смотрел через top минимальная 5-6% была. Торенты качаем мало, раздаем еще меньше. Стримить ниче не стримим.
Я все-таки склоняюсь к тому, что проблема софтовая. Но вот как ее отловить - ума не приложу.
Не ругается ни на что.
we who are not as others...
это все, что у Вас есть по
это все, что у Вас есть по мониторингу?
Присоединяясь к вопросу о
Присоединяясь к вопросу о параметрах мониторинга, скажу что самрт не идельный, хотя с виду ничего серьёзного. Запускать тестирование не пробовал?
Ну и да, с форматированием текст по симпатичнее выглядит, правда?
Beelzebubbie написал(а): это
--------------------- lm_sensors output Begin ------------------------
coretemp-isa-0000
Adapter: ISA adapter
Core 0: +38.0 C (crit = +100.0 C)
Core 1: +42.0 C (crit = +100.0 C)
it8718-isa-0290
Adapter: ISA adapter
in0: +1.07 V (min = +3.57 V, max = +0.50 V) ALARM
in1: +2.96 V (min = +3.57 V, max = +1.52 V) ALARM
in2: +3.31 V (min = +3.57 V, max = +4.06 V) ALARM
+5V: +2.96 V (min = +2.90 V, max = +3.38 V)
in4: +1.50 V (min = +3.82 V, max = +1.52 V) ALARM
in5: +2.16 V (min = +2.54 V, max = +4.06 V) ALARM
in6: +2.16 V (min = +3.54 V, max = +3.54 V) ALARM
5VSB: +2.91 V (min = +2.53 V, max = +3.06 V)
Vbat: +3.28 V
fan1: 1634 RPM (min = 13 RPM)
fan2: 0 RPM (min = 41 RPM) ALARM
fan3: 0 RPM (min = 10 RPM) ALARM
temp1: +47.0 C (low = -1.0 C, high = +117.0 C) sensor = thermal diode
temp2: -128.0 C (low = +125.0 C, high = -101.0 C) sensor = disabled
temp3: +40.0 C (low = -70.0 C, high = -2.0 C) ALARM sensor = thermistor
cpu0_vid: +0.000 V
intrusion0: ALARM
---------------------- lm_sensors output End -------------------------
Тестирование чего? поверхности винта? или тест смарта?
we who are not as others...
hats
smartctl -t long например.
а на Вашей платформе кроме
а на Вашей платформе кроме it8718 ничего «мониторингующего» нет? Смарт на мой взгляд в порядке, хотя через тыщ 10 часов я бы профилактически заменил диск даже несмотря на отсутствие ошибок. Тем не менее, проблема явно не из-за диска.
простой домашний сервачок без
простой домашний сервачок без особых запросов.
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 29137 -
# 2 Short offline Completed without error 00% 25773 -
Aug 18 03:58:02 games smartd[4044]: Device: /dev/sda [SAT], self-test in progress, 40% remaining
Aug 18 04:28:02 games smartd[4044]: Device: /dev/sda [SAT], self-test in progress, 30% remaining
Aug 18 04:58:02 games smartd[4044]: Device: /dev/sda [SAT], self-test in progress, 20% remaining
Aug 18 05:58:02 games smartd[4044]: Device: /dev/sda [SAT], SMART Usage Attribute: 2 Throughput_Performance changed from 252 to 55
Aug 18 05:58:02 games smartd[4044]: Device: /dev/sda [SAT], previous self-test completed without error
Да мысли поменять винт посещают - но как вы правильно подметили проблема явно не в нем.
we who are not as others...
>> Перестает DHCP раздавать,
>> Перестает DHCP раздавать, перестает пускать по ssh. При этом NAT работает. Непосредственно с консоли доступ есть.
Хотите сказать, что отваливается userspace, а ядро еще пыхтит? dnsmasq (или что там у Вас вместо) и sshd процессы живы? их перезапуск помогает? проблемы с памятью исключены на 100%? Пальцами (сухими/чистыми) потрогать компоненты не побрезговали? :)
P.S. sysrq тоже не помогает? логирование по сети пробовали настроить (возможно ошибки таки есть, но просто в файл не записываются)?
И последнее – место дисковое не кончилось? :)
Beelzebubbie написал(а):>>
мне пока сложно сформировать свое видение того что происходит ))
процессы все живы - но перезапуск не помогает ровно как и halt и reboot - просто зависает в какой-то момент. в следующий раз более детально изучу что отваливается, а что нет.
Если бы сбоила RAM - сомневаюсь, что он бы 10-15 дней работал.
Как я уже писал - по SSH не пускает удаленно. Но при этом ssh клиент работает - спокойно могу с него подключиться на любой другой сервер. Дождусь уже следующего зависона и буду смотреть. Какую информацию собрать? на что обратить внимание?
Местно на диске с запасом:
NAT - правило MASQUERADE в iptables.
sysrq - не пробовал. попробуем.
PS. даже если клавиатура USB не подключена - после подключения работает:
we who are not as others...
Все же больше _похоже_ на
Все же больше _похоже_ на проблему аппаратного характера (я бы сначала исключил проблемы с памятью). В данном случае помочь трудно, ибо никаких подсказок видимо нет? Можно попробовать подробнее отследить, что именно происходит при проблеме на уровне демонов ssh и dhcp (узнать хотя бы, доходят ли запросы). Также трассировку пакетов на интерфейсе можно сделать.
запущу сегодня на ночь
запущу сегодня на ночь memtest - посмотрим что покажет.
we who are not as others...
Та же самая проблема.
Друзья, чем все кончилось?
У меня та же проблема, виснет через 5-7 дней, в логах ничего подозрительного нет. Крутится httpd, mysql, apache, transmission, uwsgi, minidlna, pop3/smtp. Зависает точно так же, перестают реагировать какие либо демоны (разные каждый раз), залогинится с консоли не получается, но на мейджик кей реагирует.
Единственное отличие у меня hardened gentoo стоит.
Уважаемые гуру, подскажите советом, что выложить?
Да, винт отпахал 5,7 лет без остановки, но непохоже что он.
Не знаю, кто как, а я D525-ю
Не знаю, кто как, а я D525-ю шелезяку снял и заменил на виртуалку и миктоштык.
Имхо, ей пора пришла, тем более оно не серверно-супермайкровское, а дешманское интелево-форкоммовское.
Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)
slepnoga написал(а): Не знаю,
Эм. Сильно, но немного непонятно :(. Это точно мне?