Тема: Не отвечает сервер c Wialon Pro
Сервер перестаёт отвечать по непонятным причинам, раньше такого не было, помогает перезапуск службы, в день бывает вылетает по раз 20...если у кого была такая проблемка отпишитесь!
Вы не вошли. Пожалуйста, войдите или зарегистрируйтесь.
Сервер перестаёт отвечать по непонятным причинам, раньше такого не было, помогает перезапуск службы, в день бывает вылетает по раз 20...если у кого была такая проблемка отпишитесь!
есть 2 варианта поиска проблемы:
1) Скучный - предоставить логи как минимум (лучше всего сразу в GHS)
2) Веселый и интересный - погадать на картах.
alexx1950xt
1. Слишком много потоков
2. Где-то создано задание или уведомление, которое охватывает большое количество ресурсов и озадачивает сервер.
Дмитрий категорически прав, нужны логи
Если еще актуально...
попробуйте остановить сервис и очистить папку tmp.
У меня был похожий случай, были какие-то нарушения в кеше ГИС-сервера.
Сегодня перестал отвечать сервер. Выдает ошибку 101 ERR_CONNECTION_RESET.
Перезапуск не помогает, очистка tmp не помогла.
Куда копать?
Аналогичная ситуация, несколько раз за последние сутки виалон зависал. Приходилось перезагружать. При этом логи чисты как слеза, на предмет ошибок.
trace.log
2013/07/08 13:59:04:001: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 13:59:05:001: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 13:59:14:660: storage_messages_env::bg_job: trickling db: 69% clean pages left, total pages: 1271
2013/07/08 13:59:26:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 13:59:31:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 13:59:32:001: adf_net_open_tcp_conn('79.122.167.50', 6500)
2013/07/08 13:59:38:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 13:59:39:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 13:59:44:916: storage_service::bg_jobs_thread: last minute read 35 messages in 35 request with average 1 messages per request
2013/07/08 13:59:55:048: storage_messages_cache::msgs_thread('547b503ef487b62eb022698da118ef0d'): previous minute intensivity was 1062 messages
2013/07/08 14:00:13:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:01:13:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:07:40:813: storage_messages_env::bg_job: removing unused log files...
2013/07/08 14:09:13:553: storage_service::bg_jobs_thread: last minute read 36 messages in 36 request with average 1 messages per request
2013/07/08 14:09:13:554: storage_messages_env::bg_job: trickling db: 69% clean pages left, total pages: 1271
2013/07/08 14:13:02:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:13:07:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:13:08:000: adf_net_open_tcp_conn('79.122.167.50', 6500)
2013/07/08 14:13:14:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:13:15:001: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:13:30:119: storage_service::bg_jobs_thread: last minute read 20 messages in 20 request with average 1 messages per request
2013/07/08 14:13:36:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:13:41:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:13:42:005: adf_net_open_tcp_conn('79.122.167.50', 6500)
2013/07/08 14:13:48:001: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:13:49:001: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:13:55:012: storage_messages_cache::msgs_thread('547b503ef487b62eb022698da118ef0d'): previous minute intensivity was 1325 messages
2013/07/08 14:17:13:001: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 14:18:13:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 16:00:54:413: Loading ADF plugin: 'avl_billing'...
2013/07/08 16:00:54:413: core::load_library(adf_avl_billing)
2013/07/08 16:05:13:273: storage_service::bg_jobs_thread: last minute read 236 messages in 236 request with average 1 messages per request
2013/07/08 16:11:04:180: User 'de****' requested history over unit 'Интеграция_01' from '13:00:00' to '23:59:59' with 129 messages in 0.0 s
2013/07/08 16:11:13:001: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 16:13:04:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 16:13:05:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 16:13:07:026: storage_messages_cache::msgs_thread('547b503ef487b62eb022698da118ef0d'): previous minute intensivity was 2014 messages
2013/07/08 16:13:12:001: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 16:13:13:001: adf_net_open_tcp_conn('79.122.167.50', 6500)
2013/07/08 16:13:29:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 16:13:38:000: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 16:13:39:001: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 16:13:41:620: Wialon login - user: 'v***'; host: '86.102.2.189'; service: 'наше доменное имя';
2013/07/08 16:13:41:621: storage_user::store_user_history('v***' => 'login', 112, 1373260421)
2013/07/08 16:13:46:001: adf_net_open_tcp_conn('193.193.165.165', 20163)
2013/07/08 16:13:46:862: storage_service::bg_jobs_thread: last minute read 47 messages in 47 request with average 1 messages per request
Как видите в 14:18 виалон встал и в 16:00 мы его перезапустили
в service.log ничего кроме того, что те или иные пользователи залогинились нет. errors.log вообще пуст.
Не знаю на что грешить и куда копать. Кстати по части ресурсов то их за глаза.
solveMe, у Вас логи сильно порезаны, конечно по ним ничего не видно. Причин может быть много - начиная от проблем физического сервера, сработки системных лимитов Linux по файлам, ОЗУ и заканчивая новой, до сих пор никем не диагностируемой ошибкой ПО. Вообщем см. пост 2.
Так в том-то все и дело, что по ним ничего не видно. Встречались мне и ошибки связанные с системными лимитами, были и с аппаратурой (жесткий диск сыпаться начал), но тогда виалон об этом рапортовал в логи, а сейчас он не говорит ничего. Ладно посмотрим, что дальше будет.
Ко мне как производителю вчера-позавчера и сегодня насыпалось штук 30 жалоб, некоторые даже с угрозами официальных претензий, что данные пропадают, устройства переконнектятся и т п.
Это очевидно вина сервера.
Прошу тпрояснить публилчно в чем дело, па то не очень то приятно отвечать за косяки "того парня".
Alex2051, так Вы "публично" дайте возможность понять в чем дело, доступ к к серверу хотя бы. Мы же не волшебники.
Или я чего то не понимаю?
Сервера то ваши, от сервисов orange как минимум, и люди мне пишут про wialon, видимо wialon hosting имеется в виду (в этом я плохо понимаю).
Время сбоя - примерно с 22:35 на примерно 45 минут объекты не могли передать координаты на сервер. Время Московское. Посмотрите любой объект BM8009 - у всех в это время будет провал по данным.
И в целом последние дни то так то эдак все "барахлит".
21:00 - начало DDOS атаки
21:20 - атака nullrouted специалистами
Что было в 22:35 увы не знаю.
Добавлено спустя 1 минуту 25 секунд:
Alex2051, и у Вас офтопик. Пишите в соотв ветке(теме), эта - про совершенно иные проблемы и ПО.
Я полагал по узости знаний, что это связанные проблемы. Буду отдельно писать, ок.
Периодически зависает сервер
2013/08/15 10:21:39:382: 'voyager_2-tcp_packet.tcl'[576]: unknown script error
2013/08/15 10:31:04:109: script error in '/var/lib/wialonb3/plugins/avl_base_setup/diskspace_checker.tcl': couldn't create output pipe for command: too many open files
2013/08/15 10:31:04:109: 'diskchecker'[373] line 1 error: couldn't create output pipe for command: too many open files
2013/08/15 10:31:05:596: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:06:593: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:20:227: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:29:023: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:29:621: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:30:221: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:30:421: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:30:621: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:30:821: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:31:222: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:32:624: 'std7-tcp_packet.tcl'[492]: unknown script error
2013/08/15 10:31:32:824: 'std7-tcp_packet.tcl'[492]: unknown script error
2013/08/15 10:31:34:025: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:34:425: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:37:033: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:37:228: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:38:228: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:38:228: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:39:029: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:40:030: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:40:030: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:40:430: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:41:030: script_engine::init: error initializing TCL interpreter.
2013/08/15 10:31:42:833: adf_storage_db_error_call: archive: BDB2520 /var/lib/wialonb3/storage/pl/log.0000000009: log file unreadable: Too many open files
2013/08/15 10:31:43:281: adf_storage_db_error_call: archive: BDB0061 PANIC: Too many open files
2013/08/15 10:31:43:281: adf_storage_db_error_call: archive: BDB2583 Log file 9 not found, check log directory configuration
2013/08/15 10:31:43:281: adf_storage_db_error_call: archive: BDB0061 PANIC: BDB0087 DB_RUNRECOVERY: Fatal error, run database recovery
2013/08/15 10:31:43:281: storage_service::bg_jobs_thread: error enumerating logs: BDB0087 DB_RUNRECOVERY: Fatal error, run database recovery
2013/08/15 10:31:43:281: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:43:319: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:43:419: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:43:419: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:43:544: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:43:611: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:43:649: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:43:849: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:43:849: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:43:850: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:43:851: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:44:050: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:44:051: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:44:448: 'voyager_2-tcp_packet.tcl'[576]: unknown script error
2013/08/15 10:31:44:849: 'signal-tcp_packet.tcl'[521]: unknown script error
2013/08/15 10:31:45:249: 'signal-tcp_packet.tcl'[521]: unknown script error
2013/08/15 10:31:45:450: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:45:450: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:46:250: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:46:250: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:46:251: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:46:851: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:46:851: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:47:050: 'signal-tcp_packet.tcl'[521]: unknown script error
2013/08/15 10:31:47:050: 'signal-tcp_packet.tcl'[521]: unknown script error
2013/08/15 10:31:47:451: 'signal-tcp_packet.tcl'[521]: unknown script error
2013/08/15 10:31:47:451: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:47:452: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:47:452: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:47:651: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:47:851: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
AlexE
2013/08/15 10:31:04:109: script error in '/var/lib/wialonb3/plugins/avl_base_setup/diskspace_checker.tcl': couldn't create output pipe for command: too many open files 2013/08/15 10:31:04:109: 'diskchecker'[373] line 1 error: couldn't create output pipe for command: too many open files
Данная ошибка говорит, что нет возможности создать новый файл, так как исчерпан установленный по умолчанию лимит по открытым файлам на процесс( обычно он 1024 файла).
Когда системе не хватает ресурсов (например, при растущем количестве сообщений от объектов), можно сделать следующее:
- для увеличения допустимого числа дескрипторов открытых файлов, в файле ./custom/system_env.sh пропишите ulimit -n 20000;
- для увеличения разрешенного числа потоков, в конфигурационном файле ./custom/config.txt пропишите переменную ADF_MAX_THREADS_COUNT = 100.
http://docs.gurtam.com/ru/pro/1301/admi … rt#resursy
Сервер не на виртауалке случаем крутиться?
AlexE
2013/08/15 10:31:04:109: script error in '/var/lib/wialonb3/plugins/avl_base_setup/diskspace_checker.tcl': couldn't create output pipe for command: too many open files 2013/08/15 10:31:04:109: 'diskchecker'[373] line 1 error: couldn't create output pipe for command: too many open files
Данная ошибка говорит, что нет возможности создать новый файл, так как исчерпан установленный по умолчанию лимит по открытым файлам на процесс( обычно он 1024 файла).
Когда системе не хватает ресурсов (например, при растущем количестве сообщений от объектов), можно сделать следующее:
- для увеличения допустимого числа дескрипторов открытых файлов, в файле ./custom/system_env.sh пропишите ulimit -n 20000;
- для увеличения разрешенного числа потоков, в конфигурационном файле ./custom/config.txt пропишите переменную ADF_MAX_THREADS_COUNT = 100.
http://docs.gurtam.com/ru/pro/1301/admi … rt#resursyСервер не на виртауалке случаем крутиться?
Спасибо, настройки поменяли.
Нет, не на виртуалке крутится
gaev пишет:AlexE
2013/08/15 10:31:04:109: script error in '/var/lib/wialonb3/plugins/avl_base_setup/diskspace_checker.tcl': couldn't create output pipe for command: too many open files 2013/08/15 10:31:04:109: 'diskchecker'[373] line 1 error: couldn't create output pipe for command: too many open files
Данная ошибка говорит, что нет возможности создать новый файл, так как исчерпан установленный по умолчанию лимит по открытым файлам на процесс( обычно он 1024 файла).
Когда системе не хватает ресурсов (например, при растущем количестве сообщений от объектов), можно сделать следующее:
- для увеличения допустимого числа дескрипторов открытых файлов, в файле ./custom/system_env.sh пропишите ulimit -n 20000;
- для увеличения разрешенного числа потоков, в конфигурационном файле ./custom/config.txt пропишите переменную ADF_MAX_THREADS_COUNT = 100.
http://docs.gurtam.com/ru/pro/1301/admi … rt#resursyСервер не на виртауалке случаем крутиться?
Спасибо, настройки поменяли.
Нет, не на виртуалке крутится
Это всей проблемы не решает. Нужно комплексно. В первую очередь перенастроить ядро, потом настроить файервол, nginx и только после этого начинать мучить "Виалон".
Это всей проблемы не решает. Нужно комплексно. В первую очередь перенастроить ядро, потом настроить файервол, nginx и только после этого начинать мучить "Виалон".
Именно.
Кратенько об этом как раз и сказано в Конфигурация системного ПО
Подскажите, а что означает такая ошибка???
2013/08/15 10:31:47:451: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:47:452: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
2013/08/15 10:31:47:452: adf_storage_db_error_call: archive: BDB0060 PANIC: fatal region error detected; run recovery
и как с ней бороться???
Ksingh
Ошибка говорит о проблемах с базой данных.
Что бы с ней бороться нужно узнать причину появления.
К примеру,из-за удаления storage во время работы wialon pro эта ошибка обязательно появится.
Нужно смотреть начало лога файла ошибок и сопоставлять с тем, что пишется в trace.log.
Ksingh
К примеру,из-за удаления storage во время работы wialon pro эта ошибка обязательно появится.
Это как надо постараться) во время работы сервака "удалять" рабочую базу)
Вот и я не пойму, данная ошибка появляется, ребутаем сервер и какое-то время все нормально, потом опять эта ошибка сыпатся начинает...
Нужно смотреть начало лога файла ошибок и сопоставлять с тем, что пишется в trace.log.
KsinghЧто в начале лога пишется?
gaev пишет:Нужно смотреть начало лога файла ошибок и сопоставлять с тем, что пишется в trace.log.
KsinghЧто в начале лога пишется?
Вот куски логов service и trace на момент начала генерации ошибки, ошибка пропадает на какое-то время после ребута сервера.
Ksingh
Ошибка
adf_storage_db_error_call: archive: PANIC: Too many open files
говорит сама за себя.
Варианты решения данной проблемы описаны в постах выше.
Что из предложенного сделано у вас?