reymer.ai

Постмортем инцидента

Анализ инцидента и извлечённые уроки

Продвинутый0 копирований58 просмотров

Заполните переменные

Значения автоматически подставляются в текст промпта

Промпт

Проведи постмортем инцидента: **Инцидент:** [инцидент] **Дата/время:** [дата] **Длительность:** [длительность] **Влияние:** [влияние] Структура постмортема: 1. **Краткое описание** - Что случилось (1-2 предложения) - Масштаб влияния - Статус: resolved 2. **Timeline** | Время | Событие | Кто | |-------|---------|-----| 3. **Root Cause Analysis** - 5 Whys - Причина инцидента - Contributing factors 4. **Влияние** - Пользователи - Бизнес - Репутация 5. **Что сработало хорошо** 6. **Что можно улучшить** 7. **Action Items** | Action | Priority | Owner | Deadline | |--------|----------|-------|----------| 8. **Lessons Learned** Принципы: blameless, факты, системные улучшения.

Пример результата

## Постмортем: Недоступность сайта ### Summary 15 января 2026 с 14:00 до 16:00 МСК сайт был полностью недоступен. 100% пользователей не могли оформить заказ. Потенциальные потери: ~500 заказов (~2.5M ₽). **Статус:** Resolved **Severity:** Critical (P1) ### Timeline | Время | Событие | Кто | |-------|---------|-----| | 14:00 | Деплой новой версии | DevOps | | 14:02 | Алерт: 5xx errors > threshold | Monitoring | | 14:05 | Начало расследования | On-call | | 14:20 | Идентифицирована проблема: OOM | Backend | | 14:35 | Rollback инициирован | DevOps | | 14:50 | Rollback завершён | DevOps | | 15:00 | Сервис восстановлен | — | | 16:00 | Подтверждена стабильность | On-call | ### Root Cause: 5 Whys 1. **Почему сайт упал?** — Pods уходили в OOM 2. **Почему OOM?** — Memory leak в новом коде 3. **Почему не заметили на staging?** — Тестовые данные меньше 4. **Почему нет лимитов памяти?** — Не были настроены 5. **Почему не были настроены?** — Нет чеклиста для prod-ready **Root Cause:** Отсутствие memory limits + недостаточное нагрузочное тестирование...

Примеры применения

  • постмортем
  • инциденты
  • RCA