Новини та повідомлення

24.10.2013
Отчет о проблеме на кластерном хостинге 21 октября

Уважаемые пользователи, публикуем краткий отчет о технической проблеме, возникшей на кластерном хостинге 21 октября в 23:40 по киевскому времени.

После предоставления индивидуального IP одному из клиентов виртуального хостинга, панель ISPmanager перезапустила конфигурацию веб-сервера Apache2 на одном из серверов кластера. Ввиду программной ошибки ISPmanager, запросивший IP пользователь имел пустой конфигурационный файл, из-за чего Apache2 автоматически не возобновил свою работу и, как следствие, все сайты виртуального хостинга стали недоступными. Ручной запуск Apache2 не увенчался успехом из-за зависших дочерних процессов, вследствие чего, дежурным администратором было принято решение перезагрузить сервер.

Как выяснилось впоследствии перезагрузки, на сервере был некорректно настроено монтирование NFS (Network File System) рабочего каталога клиентских данных с главного хранилища.

Конфигурация монтирования не была корректно настроена на версию NFS4, которая предполагает размещения всех сообщаемых нод в один домен. В результате этого трансляция прав на содержимое монтируемого каталога рабочей среды устанавливалась на анонимные nouser:nogroup и запуск сервисов был невозможен. Ввиду того, что настройку сервера для работы по NFS производил не по инструкции администратор, в настоящее время уже не работающий в дата-центре, данный параграф можно отнести исключительно к человеческому фактору.

Далее, дежурный администратор произвел конфигурирование сетевого доступа согласно официальной документации по настройке NFS. Были отредактированы следующие конфигурационные файлы:

  • /etc/hostname (корректно указаны имена хостов);
  • /etc/hosts (добавлены описания всех хостов в кластере);
  • /etc/resolv.conf (указаны домен, в котором состоит кластер);
  • /etc/idmapd.conf (указан домен, к которому принадлежат пользователи и группы, которым были назначены права).

Переустановлен rpcbind, очищены конфликтирующие упоминания о portmap. Службы nfs-kernel-server nfs-common были перезапущены и только после этого права на файлы и каталоги восстановились. Аналогичные проблемы на других нодах исправляли тем же способом. Выявленные проблемы с запуском Apache2 имели причину того, что по умолчанию Apache2 запускался вне chroot рабочего каталога.

Полная работа кластерной системы была восстановлена в 21:00. Время простоя составило 21 час 40 минут.

Большая часть времени была затрачена именно на трассировку неисправностей нежели на их исправление.

Старший администратор ЦОД Виктор Савченко, на смене которого произошла проблема, считает, что пустой конфигурационный файл клиента, из-за которого все и началось, возник в результате сбоя работы системы ISPManager Cluster, а также неустойчивой конфигурации самого кластерного хостинга, что и привело к неработоспособности всех сервисов после рестарта одного из серверов. Проблема требует дополнительного изучения и ручной очистки упоминаний об отсутствующем в панели виртуального пользователя из всех конфигурационных файлов связки Nginx, Apache2 и ISPManager.

В дополнение, сообщаем о завершении реконструкции независимой системы бэкапирования на кластерном хостинге. Перечень доступных архивов бэкапов клиенты уже могут увидеть в панели управления в разделе резервных копий. Подробнее об устройстве независимой системы бэкапирования будет указано позднее.

Администрация дата-центра приносит извинения своим клиентам, ресурсы которых оказались недоступны в момент аварии. Напоминаем о целесообразности переноса чувствительных к простоям важных корпоративных и бизнес-ресурсов на выделенные серверы, что обеспечит индивидуальный серверный ресурс, большую производительность, а также гарантию бесперебойности и автономности работы ресурсов.

В качестве компенсации за простой сервера, администрация дата-центра предоставит 1 месяц бесплатного пользования сервисом согласно действующего тарифного плана и 5 часов администрирования ресурсов единоразово каждому клиенту, активированному на момент аварии.

Для получения возмещения необходимо обратиться в службу абонентской поддержки дата-центра ЮНИТ-ИС через тикетную систему с соответствующим запросом по компенсации в период с 24 по 31 октября 2013 года, по получению бесплатного администрирования с 1 ноября по 30 ноября 2013 года.