Постмортем инцидента
Анализ инцидента и извлечённые уроки
Продвинутый0 копирований58 просмотров
Заполните переменные
Значения автоматически подставляются в текст промпта
Промпт
Проведи постмортем инцидента:
**Инцидент:** [инцидент]
**Дата/время:** [дата]
**Длительность:** [длительность]
**Влияние:** [влияние]
Структура постмортема:
1. **Краткое описание**
- Что случилось (1-2 предложения)
- Масштаб влияния
- Статус: resolved
2. **Timeline**
| Время | Событие | Кто |
|-------|---------|-----|
3. **Root Cause Analysis**
- 5 Whys
- Причина инцидента
- Contributing factors
4. **Влияние**
- Пользователи
- Бизнес
- Репутация
5. **Что сработало хорошо**
6. **Что можно улучшить**
7. **Action Items**
| Action | Priority | Owner | Deadline |
|--------|----------|-------|----------|
8. **Lessons Learned**
Принципы: blameless, факты, системные улучшения.
Пример результата
## Постмортем: Недоступность сайта
### Summary
15 января 2026 с 14:00 до 16:00 МСК сайт был полностью недоступен. 100% пользователей не могли оформить заказ. Потенциальные потери: ~500 заказов (~2.5M ₽).
**Статус:** Resolved
**Severity:** Critical (P1)
### Timeline
| Время | Событие | Кто |
|-------|---------|-----|
| 14:00 | Деплой новой версии | DevOps |
| 14:02 | Алерт: 5xx errors > threshold | Monitoring |
| 14:05 | Начало расследования | On-call |
| 14:20 | Идентифицирована проблема: OOM | Backend |
| 14:35 | Rollback инициирован | DevOps |
| 14:50 | Rollback завершён | DevOps |
| 15:00 | Сервис восстановлен | — |
| 16:00 | Подтверждена стабильность | On-call |
### Root Cause: 5 Whys
1. **Почему сайт упал?** — Pods уходили в OOM
2. **Почему OOM?** — Memory leak в новом коде
3. **Почему не заметили на staging?** — Тестовые данные меньше
4. **Почему нет лимитов памяти?** — Не были настроены
5. **Почему не были настроены?** — Нет чеклиста для prod-ready
**Root Cause:** Отсутствие memory limits + недостаточное нагрузочное тестирование...
Примеры применения
- •постмортем
- •инциденты
- •RCA
