SOP:
Çalışma prosedürlerinin standardizasyonu
1) Neden ihtiyacınız var
SOP, şirketin "işletim sistemi'dir. Standardizasyon, kaosu ve" bireysel stilleri "ortadan kaldırır, MTTR'yi azaltır, gürültü ve olay risklerini uyarır, hızlandırır ve sonuçları tekrarlanabilir hale getirir.
Hedefler:- Olaylardaki ve rutinlerdeki eylemlerin değişkenliğini azaltın.
- Eğitimi hızlandırın ve devir işlemlerinin kalitesini artırın.
- Süreçleri denetlenebilir hale getirin: denetim, metrikler, veri iyileştirmeleri.
- Yasal ve dahili gerekliliklere uygunluğun sağlanması.
2) Standardizasyon ilkeleri
1. Tek tip format ve terminoloji. Bir gösterim, bir tanım (SLO, ETA, Owner).
2. Uygulanabilir, ansiklopedi değil. Sadece doğrulanabilir adımlar, başarı kriterleri ve geri dönüş.
3. Minimum dallanma. Freewheeling yerine if/then çözümlerini temizleyin.
4. Sürüm ve mülkiyet. Her SÇP'nin bir sahibi, sürümü ve revizyon tarihi vardır.
5. Aletlerle entegrasyon. Panolara, biletlere, ficheflags'a, CLI komutlarına bağlantılar.
6. Çağrı üzerine kullanılabilirlik. Hızlı ara, oku, tek bir bağlantıyla çalıştır.
7. Sürekli gelişim. Post-mortems - SOP güncelleme görevleri.
3) SOP çerçevesi (şablon)
4) SOP classification
Incident: P1/P2 (critical), P3 (important).
Operational routines: releases, feature flags, database migrations, provider failover.
DR/BCP: disabling the region, restoring from backup, working offline.
Quality control/audit: revisions, readiness questionnaires, access.
Security/compliance: KYC/AML checks, log storage, privacy.
5) RACI: Ownership and Responsibility
Process R (performer) A (responsible) C (consultant) I (notify)
------------------------ --------------- ----------------- --------------- -------------
Create/Update SOP Domain Owner Head of Ops SRE/Compliance Teams
SLA Revision Ops Enablement Head of Ops Domain leads All
Use in an incident On-call Incident Manager Domain Owner Stakeholders
6) SOP lifecycle
1. Initiation: need from post-mortem/incident/audit.
2. Draft: by template, with specific artifacts and commands.
3. Review: Domain Owner + Head of Ops + specialized consultants.
4. Publishing: to portal/repository; annotations on dashboards.
5. Training: short training/screencast, knowledge test.
6. Application: recorded in ticket/incident.
7. Audit: by SLA revision or after a significant event.
8. Archiving: mark 'deprecated', indicate replacement.
7) Documentation as code (minimum standard)
We store SOP in Git (Markdown + YAML metadata), PR review, CI-lint.
Required fields are 'owner', 'version', 'last _ review', 'sla _ review'.
Link checker and structure validator in CI; auto-release portal after merge.
Significant changes - through changelog and notifications in the # ops channel.
8) SOP integrations
Incident Manager: Open SOP button when creating/escalating an incident.
Grafana/Observability: references from panels to relevant SOPs; release annotations.
Feature Flags/Release: canary step templates, SLO gates, rollback.
AI assistant: RAG search by SOP, TL; DR and proposals for action.
BCP/DR: DR-playbook automatically loaded by trigger.
9) SOP quality check (KPI and review)
KPI:
Coverage ≥ 90% of critical scenarios are closed by SOP.
Review SLA ≤ 180 days (share of overdue - 0).
Usage Rate ≥ 70% of overt SOP incidents.
DoD Pass Rate ≥ 90% of steps are closed with success criteria.
Broken Links = 0 (по CI).
Weekly monitoring:
Top 5 used and top 5 obsolete SOPs.
SOP communication ↔ postmortems: whether Preventive Actions have been performed.
Noisy SOPs (frequent rollback returns) are candidates for recycling.
10) Containment standards
Steps → specifics: commands/queries/parameters + expected effect in metric.
Time requirements: ETA for updates/next steps.
Escalation: clear matrix, contacts, backup channels.
Security: warnings, restrictions, PII/secrets - via vault/links.
Localization: in the on-call language (critical for distributed commands).
11) SOP examples (fragments)
SOP: Canary pause in SLO degradation
Tetikleyiciler: error_budget_burn> 4x 10m, api_p99> 1. 3 × taban çizgisi 10m
Adımlar:- 1) Kanaryayı serbest bırakma aracında duraklat
- 2) "Güvenliği Değiştir've" API p99 "panellerini kontrol edin
- 3) Bilet REG-
oluşturun, taban çizgisini/pencereyi belirtin - DoD: p99 ≤ 1. 1 × taban çizgisi 15m,
- Geri alma: bayrağı tamamen devre dışı bırak, ölümden sonra ≤72ch
SOP: PSP Provider Feilover
Tetikleyiciler: quota_usage>0. 9 VEYA outbound_error_rate>2×baseline 5m
Adımlar:- 1) PSP-Y yönlendirmesini etkinleştir (yapılandırma/düğme)
- 2) Para yatırma dönüşümünü ve p95 PSP-Y'yi kontrol edin
- 3) Grafiklerle ilgili açıklamalar, # incident-channel'da güncelleme
- DoD: success_rate ≥ 99. %5, p95 ≤ 300ms 10m
- Geri dönüş: PSP-X stabilizasyonunda %20 kısmi trafik geri dönüşü
12) Kontrol listeleri
SOP hazırlık kontrol listesi:
[] Amaç ve tetikleyiciler açık ve ölçülebilir.
[] Komutlar/bağlantılar için adımlar vardır.
[] DoD/Rollback formüle edilmiştir.
[] Tırmanmalar ve temaslar önemlidir.
[] Meta veriler doldurulur (sahip, sürüm, last_review).
[] Bağlantı denetleyicisi ve CI doğrulayıcı geçişi.
SOP uygulama kontrol listesi (olay halinde):
[] SOP, Olay Yöneticisi/panel bağlantısından açıldı.
[] Adımlar tamamlanır ve sonuçlar kaydedilir.
[] DoD'ye Ulaşıldı/Ulaşılmadı - Kontrol Edildi.
[] Eylemler/tutarsızlıklar bilete kaydedilir.
[] SOP, görevler tarafından oluşturulan güncelleştirmeleri/geliştirmeleri (gerekirse).
13) Eğitim ve onboarding
Anahtar SOP'larla ilgili mini kurslar (Ödemeler/Bahisler/Oyunlar/KYC).
Eğitimde SOP'un zorunlu kullanımı ile gölge görev.
Haftalık "SOP klinikleri": 30 dakikalık analiz/iyileştirme.
Simülasyonlar (oyun günleri): DR ve olay SOP'larının geliştirilmesi.
14) SOP Değişim Yönetimi
PR aracılığıyla RFC, 'minör/majör/kırma' etiketleri.
Değişiklikler - zorunlu eğitim ve duyuru ile.
Etki alanı sahiplerine ve çağrı üzerine otomatik bildirimler.
Her haftanın sonunda ayrı "SOP-Sürüm Notları".
15) Anti-desenler
Serbest form "ortaya çıktığı gibi've komut ile farklı desenler.
Sahibi/revizyonu/revizyon tarihi olmayan SOP.
Adım adım eylemler yerine "ansiklopedik" metinler.
Rollback/DoD yok - başarıyı kontrol etmek için hiçbir şey yok.
Kırık bağlantılar, "sohbetten el kitabı" komutları, özel "gizli" adımlar.
Görünmez SOP kayıt veya eğitim olmadan değişir.
16) 30/60/90 - uygulama planı
30 gün:
SOP şablonunu ve minimum standartları onaylayın.
Bir depo oluştur 'ops-sop/' (docs-as-code), CI linters'ı etkinleştir.
10-15 kritik SOP'u dijitalleştirin (olaylar/sürümler/sağlayıcılar).
Olay Yöneticisi ve görünürlük panellerini SOP bağlantılarına bağlayın.
60 gün:
Kapsama Alanına Ulaşın ≥ Kritik senaryolar için %70.
Haftalık "SOP klinikleri've nöbetçi eğitimleri başlatın.
SOP ve TL ile AI arama (RAG) ekleyin; DR kartları.
İnceleme SLA'sını (180 gün) girin ve son SOP'ları bildirin.
90 gün:
Kapsam ≥ %90, Kullanım Oranı ≥ olayların %70'i.
DoD/Rollback'i tüm SOP'lara gömün, kırık bağları kapatın (0).
OKR (MTTR, Hata Oranını Değiştir) komutuna SOP KPI bağlayın.
Retro ve gelecek çeyrekteki gelişmeleri kaydedin.
17) SSS
S: SOP'un runbook'tan farkı nedir?
A: SOP - standartlaştırılmış prosedür (düzenleme "nasıl yapılır"). Runbook - belirli bir durum/hizmet için ayrıntılı talimatlar. Genellikle, SOP bir veya daha fazla runbook'u ifade eder.
S: SOP'ta kaç ayrıntı olmalıdır?
C: Operatörün sohbete "kazmadan" eylemler gerçekleştirmesi için yeterli. Eylemi etkilemeyen her şey ayrı referans materyallerindedir.
S: Uygunluk nasıl korunur?
A: SLA revizyonları (≤180 gün), otomatik hatırlatıcılar, CI çizgileri ve Kullanım/DoD metrikleri. Herhangi bir sapma olayı - SOP güncelleme görevi.