чёрная книга ошибок

Incident log

Как фиксировать сбои так, чтобы через неделю было понятно: что случилось, кого затронуло, как исправили и что больше не повторять.

Цель: превратить хаос запуска в обучающий журнал, а не в стопку сообщений в телефоне.

что спросить сначала

Дата и время.
Затронутый путь: payment, reading, email, account, mobile, AI, admin.
Severity: low, medium, high, stop-launch.
Сколько пользователей затронуто.

Записать факт

Пишите не догадку, а наблюдаемое: 'webhook failed 12 times', а не 'Stripe сломался'.

  • Timestamp.
  • Scope.
  • Evidence link.

Оценить вред

Главный вопрос: были ли деньги, приватные данные, потерянный доступ или массовая блокировка пользователя.

  • Money impact.
  • Privacy impact.
  • User-facing impact.

Закрыть и предотвратить

Каждый серьёзный инцидент должен закончиться исправлением, owner note и prevention item.

  • Fix deployed.
  • Affected users contacted if needed.
  • Regression test added or checklist updated.

шаблоны ответов

Внутренняя запись

Любой повторяемый сбой.

[Incident] path / severity / date

Что случилось: ... Кого затронуло: ... Причина: неизвестна/подтверждена ... Действие: ... Клиентам написали: да/нет ... Prevention: ...

Клиентское признание сбоя

Сбой затронул клиента и уже проверен.

Мы нашли проблему с доступом

Мы нашли техническую проблему, которая могла помешать открыть ваш свиток. Мы уже работаем над восстановлением доступа. Вам не нужно оплачивать повторно. Напишем, когда путь будет восстановлен.

красные флаги

  • Money + no access affects more than one user.
  • Private reading visible to wrong person.
  • After deploy, checkout or account breaks.

закрыто, когда

  • Incident entry includes cause, action, owner and prevention.
  • Affected users contacted when needed.
  • Checklist updated so the same error is harder to repeat.

связанные двери