Лекция: Команда интернет‑магазина находилась в лесу, когда 1 700 000 клиентов OZON.ru получили рекламную рассылку

 

Главная проблема заключалась в том, что в IT‑отделе практически никого не было, кроме одного человека из начальства, который не поехал на празднование по семейным обстоятельствам, и одного специалиста, имевшего отношение к веб‑витрине, который не поехал за город по болезни. Впрочем, спокойно поболеть ему не удалось – после обвала сигналов с витрины ему пришлось удаленным доступом заходить на серверы и пытаться в спешном порядке что‑то делать, отключать какие‑то сервисы, чтобы остановить этот снежный ком. Остальные специалисты в волнении бегали по лесу и пытались давать рекомендации по мобильной связи.

Для OZON.ru это была, конечно, не самая приятная история – с 2002 года не было такого, чтобы все желающие не могли сделать заказы в течение нескольких часов. Ближе к вечеру основной поток удалось разгрести, и заказы стали оформляться с обычной скоростью.

Понятно, что здесь сработало сочетание целого ряда различных случайных совпадений, но выводы из подобной нештатной ситуации надо было срочно делать – и они были сделаны следующим образом.

Первое. IT‑отдел не может уезжать в полном составе – всегда должны оставаться какие‑то люди, которые могут принимать решения в сложной ситуации.

Второе. Для подобных ситуаций должен существовать некий Disaster Recovery Plan (план восстановления в случае катастрофы), в котором прописаны действия сотрудников в случае тех или иных проблем: кто и где дежурит, что делать в первую очередь и так далее. Такой план в отделе существовал, но он был существенно расширен и дополнен по итогам данного происшествия.

Третье. После этого случая была введена система отслеживания и анализа так называемых «инцидентов менеджеров». Сначала сформулировали критерии того, что считать инцидентом: например, более двадцати секунд простоя сайта – это уже проблема и повод для разбирательства. По результатам разбирательства выясняется причина инцидента и создается рекомендация по поводу того, что нужно сделать, чтобы инцидент не повторился. Причем инцидент не обязательно должен относиться к сайту. Инцидент – это перерыв любого критически важного бизнес‑сервиса: финансовой системы, бэк‑офиса, канала связи и так далее.

Четвертое. Были значительно ускорены работы по изменению архитектуры веб‑витрины. Главными целями изменений было повышение производительности и надежности. Новая архитектура была успешно внедрена в полном объеме к сентябрю 2007 года.

 

По существующей практике сейчас в OZON.ru фиксируется примерно один инцидент среднего уровня сложности в месяц‑полтора.

 

 

еще рефераты
Еще работы по информатике