Gentoo подвисает - HELP!

Здравствуйте товарищи! В общем возникла пару месяцев назад такая проблема. Отследить ее не представляется возможным. Сервер на Gentoo через 10-15 дней нормальной работы начинает подвисать. Перестает DHCP раздавать, перестает пускать по ssh. При этом NAT работает. Непосредственно с консоли доступ есть. В логах на момент глюка ничего нет. При попытке рестартнуть его или вырубить - просто виснет. Приходится ресетить вручную. Как отловить этот глюк? Раньше работал по полгода аптайм - никаких проблем. Началось примерно в апреле - возможно после очередного обновления.

Помогите отловить глюк. На сервере установлены minidlna, POP3/SMTP, bind, mysql, samba, transmission + пару мелочей. Какую информацию предоставить?

Linux games 3.12.13-gentoo #3 SMP Fri May 23 22:04:23 EEST 2014 i686 Intel(R) Atom(TM) CPU D525 @ 1.80GHz GenuineIntel GNU/Linux

информацию по мониторингу :)

информацию по мониторингу :) загрузка (в т.ч. i/o), температуры, вольтажи, память, ipmi, smart … вам там виднее чего производитель вашего конкретного сервера понавтыкал.

upd: качаете торренты/стримите видео? вычислительная нагрузка невелика, а вот i/o может быть узким местом.
upd+: трансмиссия – не лучший выбор, хотя в контексте вопроса это не имеет особого значения

Мониторинг

Смарт винта идеальный:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   051    Pre-fail  Always       -       9
  2 Throughput_Performance  0x0026   252   252   000    Old_age   Always       -       0
  3 Spin_Up_Time            0x0023   084   067   025    Pre-fail  Always       -       4900
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       88
  5 Reallocated_Sector_Ct   0x0033   252   252   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   252   252   051    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0024   252   252   015    Old_age   Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       29108
 10 Spin_Retry_Count        0x0032   252   252   051    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   252   252   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       89
181 Program_Fail_Cnt_Total  0x0022   098   098   000    Old_age   Always       -       62242783
191 G-Sense_Error_Rate      0x0022   100   100   000    Old_age   Always       -       17
192 Power-Off_Retract_Count 0x0022   252   252   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0002   059   053   000    Old_age   Always       -       41 (Min/Max 15/47)
195 Hardware_ECC_Recovered  0x003a   100   100   000    Old_age   Always       -       0
196 Reallocated_Event_Count 0x0032   252   252   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   252   252   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   252   252   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0036   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x002a   100   100   000    Old_age   Always       -       32
223 Load_Retry_Count        0x0032   252   252   000    Old_age   Always       -       0
225 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       89

Загрузка проца - смотрел через top минимальная 5-6% была. Торенты качаем мало, раздаем еще меньше. Стримить ниче не стримим.

Я все-таки склоняюсь к тому, что проблема софтовая. Но вот как ее отловить - ума не приложу.

Не ругается ни на что.

we who are not as others...

это все, что у Вас есть по

это все, что у Вас есть по мониторингу?

Присоединяясь к вопросу о

Присоединяясь к вопросу о параметрах мониторинга, скажу что самрт не идельный, хотя с виду ничего серьёзного. Запускать тестирование не пробовал?

Ну и да, с форматированием текст по симпатичнее выглядит, правда?

Beelzebubbie написал(а): это

Beelzebubbie написал(а):
это все, что у Вас есть по мониторингу?

--------------------- lm_sensors output Begin ------------------------

coretemp-isa-0000
Adapter: ISA adapter
Core 0: +38.0 C (crit = +100.0 C)
Core 1: +42.0 C (crit = +100.0 C)

it8718-isa-0290
Adapter: ISA adapter
in0: +1.07 V (min = +3.57 V, max = +0.50 V) ALARM
in1: +2.96 V (min = +3.57 V, max = +1.52 V) ALARM
in2: +3.31 V (min = +3.57 V, max = +4.06 V) ALARM
+5V: +2.96 V (min = +2.90 V, max = +3.38 V)
in4: +1.50 V (min = +3.82 V, max = +1.52 V) ALARM
in5: +2.16 V (min = +2.54 V, max = +4.06 V) ALARM
in6: +2.16 V (min = +3.54 V, max = +3.54 V) ALARM
5VSB: +2.91 V (min = +2.53 V, max = +3.06 V)
Vbat: +3.28 V
fan1: 1634 RPM (min = 13 RPM)
fan2: 0 RPM (min = 41 RPM) ALARM
fan3: 0 RPM (min = 10 RPM) ALARM
temp1: +47.0 C (low = -1.0 C, high = +117.0 C) sensor = thermal diode
temp2: -128.0 C (low = +125.0 C, high = -101.0 C) sensor = disabled
temp3: +40.0 C (low = -70.0 C, high = -2.0 C) ALARM sensor = thermistor
cpu0_vid: +0.000 V
intrusion0: ALARM

---------------------- lm_sensors output End -------------------------

evadim написал(а):
Присоединяясь к вопросу о параметрах мониторинга, скажу что самрт не идельный, хотя с виду ничего серьёзного. Запускать тестирование не пробовал?

Ну и да, с форматированием текст по симпатичнее выглядит, правда?

Тестирование чего? поверхности винта? или тест смарта?

we who are not as others...

hats

hats написал(а):
Тестирование чего? поверхности винта? или тест смарта?

smartctl -t long например.

а на Вашей платформе кроме

а на Вашей платформе кроме it8718 ничего «мониторингующего» нет? Смарт на мой взгляд в порядке, хотя через тыщ 10 часов я бы профилактически заменил диск даже несмотря на отсутствие ошибок. Тем не менее, проблема явно не из-за диска.

простой домашний сервачок без

простой домашний сервачок без особых запросов.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   051    Pre-fail  Always       -       9
  2 Throughput_Performance  0x0026   055   055   000    Old_age   Always       -       19092
  3 Spin_Up_Time            0x0023   084   067   025    Pre-fail  Always       -       4900
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       88
  5 Reallocated_Sector_Ct   0x0033   252   252   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   252   252   051    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0024   252   252   015    Old_age   Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       29149
 10 Spin_Retry_Count        0x0032   252   252   051    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   252   252   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       89
181 Program_Fail_Cnt_Total  0x0022   098   098   000    Old_age   Always       -       62634612
191 G-Sense_Error_Rate      0x0022   100   100   000    Old_age   Always       -       17
192 Power-Off_Retract_Count 0x0022   252   252   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0002   059   053   000    Old_age   Always       -       41 (Min/Max 15/47)
195 Hardware_ECC_Recovered  0x003a   100   100   000    Old_age   Always       -       0
196 Reallocated_Event_Count 0x0032   252   252   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   252   252   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   252   252   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0036   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x002a   100   100   000    Old_age   Always       -       32
223 Load_Retry_Count        0x0032   252   252   000    Old_age   Always       -       0
225 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       89

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 29137 -
# 2 Short offline Completed without error 00% 25773 -

Aug 18 03:58:02 games smartd[4044]: Device: /dev/sda [SAT], self-test in progress, 40% remaining
Aug 18 04:28:02 games smartd[4044]: Device: /dev/sda [SAT], self-test in progress, 30% remaining
Aug 18 04:58:02 games smartd[4044]: Device: /dev/sda [SAT], self-test in progress, 20% remaining
Aug 18 05:58:02 games smartd[4044]: Device: /dev/sda [SAT], SMART Usage Attribute: 2 Throughput_Performance changed from 252 to 55
Aug 18 05:58:02 games smartd[4044]: Device: /dev/sda [SAT], previous self-test completed without error

Да мысли поменять винт посещают - но как вы правильно подметили проблема явно не в нем.

we who are not as others...

>> Перестает DHCP раздавать,

>> Перестает DHCP раздавать, перестает пускать по ssh. При этом NAT работает. Непосредственно с консоли доступ есть.

Хотите сказать, что отваливается userspace, а ядро еще пыхтит? dnsmasq (или что там у Вас вместо) и sshd процессы живы? их перезапуск помогает? проблемы с памятью исключены на 100%? Пальцами (сухими/чистыми) потрогать компоненты не побрезговали? :)

P.S. sysrq тоже не помогает? логирование по сети пробовали настроить (возможно ошибки таки есть, но просто в файл не записываются)?
И последнее – место дисковое не кончилось? :)

Beelzebubbie написал(а):>>

Beelzebubbie написал(а):
>> Перестает DHCP раздавать, перестает пускать по ssh. При этом NAT работает. Непосредственно с консоли доступ есть.

Хотите сказать, что отваливается userspace, а ядро еще пыхтит? dnsmasq (или что там у Вас вместо) и sshd процессы живы? их перезапуск помогает? проблемы с памятью исключены на 100%? Пальцами (сухими/чистыми) потрогать компоненты не побрезговали? :)

мне пока сложно сформировать свое видение того что происходит ))

процессы все живы - но перезапуск не помогает ровно как и halt и reboot - просто зависает в какой-то момент. в следующий раз более детально изучу что отваливается, а что нет.
Если бы сбоила RAM - сомневаюсь, что он бы 10-15 дней работал.

Как я уже писал - по SSH не пускает удаленно. Но при этом ssh клиент работает - спокойно могу с него подключиться на любой другой сервер. Дождусь уже следующего зависона и буду смотреть. Какую информацию собрать? на что обратить внимание?

Местно на диске с запасом:

Filesystem      1K-blocks       Used Available Use% Mounted on
/dev/sda3        14396192   10973688   2689540  81% /
devtmpfs           508660          0    508660   0% /dev
tmpfs              101796        488    101308   1% /run
none               508968          0    508968   0% /dev/shm
cgroup_root         10240          0     10240   0% /sys/fs/cgroup
/dev/sda1           69972      46680     19679  71% /boot
/dev/sda4      1908073484 1677669528 134998644  93% /share/storage

NAT - правило MASQUERADE в iptables.

sysrq - не пробовал. попробуем.

PS. даже если клавиатура USB не подключена - после подключения работает:

Aug 16 20:28:22 games kernel: [1179485.162073] hub 2-0:1.0: debounce: port 2: total 100ms stable 100ms status 0x301
Aug 16 20:28:22 games kernel: [1179485.213088] hub 2-0:1.0: port_wait_reset: err = -16
Aug 16 20:28:22 games kernel: [1179485.213096] hub 2-0:1.0: port 2 not enabled, trying reset again...
Aug 16 20:28:22 games kernel: [1179485.414095] hub 2-0:1.0: port_wait_reset: err = -16
Aug 16 20:28:22 games kernel: [1179485.414104] hub 2-0:1.0: port 2 not enabled, trying reset again...
Aug 16 20:28:22 games kernel: [1179485.666062] usb 2-2: new low-speed USB device number 3 using uhci_hcd
Aug 16 20:28:22 games kernel: [1179485.812085] usb 2-2: skipped 1 descriptor after interface
Aug 16 20:28:22 games kernel: [1179485.812094] usb 2-2: skipped 1 descriptor after interface
Aug 16 20:28:22 games kernel: [1179485.817084] usb 2-2: default language 0x0409
Aug 16 20:28:22 games kernel: [1179485.833077] usb 2-2: udev 3, busnum 2, minor = 130
Aug 16 20:28:22 games kernel: [1179485.833087] usb 2-2: New USB device found, idVendor=045e, idProduct=0750
Aug 16 20:28:22 games kernel: [1179485.833093] usb 2-2: New USB device strings: Mfr=1, Product=2, SerialNumber=0
Aug 16 20:28:22 games kernel: [1179485.833099] usb 2-2: Product: Wired Keyboard 600
Aug 16 20:28:22 games kernel: [1179485.833104] usb 2-2: Manufacturer: Microsoft
Aug 16 20:28:22 games kernel: [1179485.833288] usb 2-2: usb_probe_device
Aug 16 20:28:22 games kernel: [1179485.833298] usb 2-2: configuration #1 chosen from 1 choice
Aug 16 20:28:22 games kernel: [1179485.836106] usb 2-2: adding 2-2:1.0 (config #1, interface 0)
Aug 16 20:28:22 games kernel: [1179485.836194] usbhid 2-2:1.0: usb_probe_interface
Aug 16 20:28:22 games kernel: [1179485.836202] usbhid 2-2:1.0: usb_probe_interface - got id
Aug 16 20:28:22 games kernel: [1179485.852753] input: Microsoft Wired Keyboard 600 as /devices/pci0000:00/0000:00:1d.0/usb2/2-2/2-2:1.0/input/input7
Aug 16 20:28:22 games kernel: [1179485.852776] uhci_hcd 0000:00:1d.0: reserve dev 3 ep81-INT, period 8, phase 4, 118 us
Aug 16 20:28:22 games kernel: [1179485.852982] hid-generic 0003:045E:0750.0003: input,hidraw0: USB HID v1.11 Keyboard [Microsoft Wired Keyboard 600] on usb-0000:00:1d.0-2/input0
Aug 16 20:28:22 games kernel: [1179485.853056] usb 2-2: adding 2-2:1.1 (config #1, interface 1)
Aug 16 20:28:22 games kernel: [1179485.853133] usbhid 2-2:1.1: usb_probe_interface
Aug 16 20:28:22 games kernel: [1179485.853142] usbhid 2-2:1.1: usb_probe_interface - got id
Aug 16 20:28:22 games kernel: [1179485.885370] input: Microsoft Wired Keyboard 600 as /devices/pci0000:00/0000:00:1d.0/usb2/2-2/2-2:1.1/input/input8
Aug 16 20:28:22 games kernel: [1179485.885394] uhci_hcd 0000:00:1d.0: reserve dev 3 ep82-INT, period 8, phase 4, 118 us
Aug 16 20:28:22 games kernel: [1179485.885590] hid-generic 0003:045E:0750.0004: input,hidraw1: USB HID v1.11 Device [Microsoft Wired Keyboard 600] on usb-0000:00:1d.0-2/input1

we who are not as others...

Все же больше _похоже_ на

Все же больше _похоже_ на проблему аппаратного характера (я бы сначала исключил проблемы с памятью). В данном случае помочь трудно, ибо никаких подсказок видимо нет? Можно попробовать подробнее отследить, что именно происходит при проблеме на уровне демонов ssh и dhcp (узнать хотя бы, доходят ли запросы). Также трассировку пакетов на интерфейсе можно сделать.

запущу сегодня на ночь

запущу сегодня на ночь memtest - посмотрим что покажет.

we who are not as others...

Та же самая проблема.

Друзья, чем все кончилось?

У меня та же проблема, виснет через 5-7 дней, в логах ничего подозрительного нет. Крутится httpd, mysql, apache, transmission, uwsgi, minidlna, pop3/smtp. Зависает точно так же, перестают реагировать какие либо демоны (разные каждый раз), залогинится с консоли не получается, но на мейджик кей реагирует.

Единственное отличие у меня hardened gentoo стоит.

Уважаемые гуру, подскажите советом, что выложить?

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   114   077   006    Pre-fail  Always       -       64138065
  3 Spin_Up_Time            0x0003   094   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       144
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       546079303
  9 Power_On_Hours          0x0032   043   043   000    Old_age   Always       -       50539
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       144
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   057   049   045    Old_age   Always       -       43 (Min/Max 33/46)
194 Temperature_Celsius     0x0022   043   051   000    Old_age   Always       -       43 (0 20 0 0 0)
195 Hardware_ECC_Recovered  0x001a   065   051   000    Old_age   Always       -       74329764
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 Data_Address_Mark_Errs  0x0032   100   253   000    Old_age   Always       -       0

Да, винт отпахал 5,7 лет без остановки, но непохоже что он.

Не знаю, кто как, а я D525-ю

Не знаю, кто как, а я D525-ю шелезяку снял и заменил на виртуалку и миктоштык.
Имхо, ей пора пришла, тем более оно не серверно-супермайкровское, а дешманское интелево-форкоммовское.

Compute:
Bosch M2.8.1 -> custom Bosch M2.8.3 clone from Russia.
Speed about 260 km,Ram 2 pers.,HDD - 70 kg,210 FLOPS ;)

slepnoga написал(а): Не знаю,

slepnoga написал(а):
Не знаю, кто как, а я D525-ю шелезяку снял и заменил на виртуалку и миктоштык.
Имхо, ей пора пришла, тем более оно не серверно-супермайкровское, а дешманское интелево-форкоммовское.

Эм. Сильно, но немного непонятно :(. Это точно мне?

Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Сохранить установки".