Standart çalışma prosedürleri
1) SOP nedir ve neden gereklidir?
SOP (Standart Çalışma Prosedürü), anlaşılır giriş/çıkışlar, roller ve kalite kriterleri ile tekrarlanabilir işlemler için resmi, doğrulanmış bir adım dizisidir.
SP'nin hedefleri şunlardır:- Yürütme değişkenliğini ve risklerini azaltın.
- Kullanıma hazır işlemlerle MTTA/MTTR'yi azaltın.
- Uygunluk ve denetim: tekrarlanabilirlik, izlenebilirlik.
- Onboarding: Öğrenmeyi ve gölgeyi hızlandırmak - yalnız.
SOP ≠ playbook: playbook - çatallı karar ağacı, SOP - belirli bir senaryo (veya playbook dalı) için doğrusal kurallar.
2) İyi SOP ilkeleri
Sonuç Odaklı: Sadece adımlara değil, sonuca (SLO/iş kriterleri) odaklanın.
Belirsizlik: komutlar, parametreler, beklenen efektler ve kontrol noktaları.
Varsayılan olarak güvenlik: kapılar, sınırlar, geri alma/geri alma kaydedilir.
Minimum bağlam: kısa notlar + ayrıntılı çalışma kitaplarına/tanılamalara bağlantılar.
Alaka: inceleme tarihi, sahibi, sürümü, son kullanma tarihi.
Yürütülebilirlik: JIT/JEA erişimleri, ön koşul kontrolleri, eser şablonları.
3) SOP standart yapısı (iskelet)
ID/Version/Review Date
Name and short purpose (what and why)
Scope (Services/Regions/Tenants, SEV/Risk)
Roles and Responsibilities (RACI: R/A/C/I)
Preconditions (accesses, windows, stage, reserve, artifacts)
Materials/tools (dashboards, feature flags, repos, keys)
Quality gates (SLO-gardrails, quorum of probes, alerts)
Step-by-step instruction (step → command → expected result → verification)
Branches (if X - perform Y) [minimum]
Backout/Rollback (start conditions, steps, verification)
Communications (who, when, where; message templates)
Evidence (what to save: screenshots, logs, chexums, links)
Completion (success criteria, watching who closes the ticket)
Change History (What, By Whom, and Why)
4) SOP dizini ve sahipliği
Etiketli tek depo (Docs-as-Code): 'domain/ops', 'service/checkout', 'risk/high', 'provider/psp-a'.
Sahip kartı: takım, görev kişileri, yedek sahibi.
SLA alaka düzeyi (örn. Her ≤90 günde bir veya olay/sürümden sonra gözden geçirin).
Linter/SOP doğrulayıcı (CI): Yapının, bağlantıların, sahiplerin, inceleme süresinin doğrulanması.
5) SOP yaşam döngüsü
1. Başlatma (olay/matkap/yeni işlemden sonra).
2. Taslak (yazar = hizmet/süreç sahibi).
3. İnceleme (SRE/Güvenlik/Yasal/İletişim - etki alanına göre).
4. Pilot (masa üstü/oyun günü): zamanı ölçün, bulur - düzenlemeler.
5. Yayın (sürüm, tarih, numara, CMDB/hizmet kataloğundaki şablonlar).
6. Operasyonel uygulama (biletlerde/sohbetlerde ek açıklamalar, kanıt toplama).
7. Güncelleme (RCA/CAPA tarafından, inceleme son tarihine göre, mimari değişikliklerine göre).
8. Arşivleme/tükenme (yeni bir SOP/oyun kitabı ile değiştirildi).
6) Komşu eserlerle bağlantılar
Oyun Kitapları: SOP - oyun kitabının içindeki "doğrusal dal"; adımlardan referans.
Runbook've: teknik detaylar/komut dosyaları runbook'a yerleştirilir, SOP ifade eder.
Politikalar (Kod Olarak Politika): erişim kapıları, izinler, RBAC - zorunlu bağlantılar.
SLO/SLI: Başarı kriterleri ve garde-rails.
Eskalasyon matrisi: SOP çalıştırması başarısız olduğunda roller/zamanlamalar.
Bakım pencereleri: Yüksek riskli SOP için yuva/virgül gereksinimleri.
7) SOP performans metrikleri
Yürütme Süresi (medyan/p95) - prosedürün ne kadar sürdüğü.
Başarı Oranı - tırmanma/geri alma olmadan başarı oranı.
Kanıt Bütünlüğü - eserlerin dolgunluğu.
SLO Etkisi - adım sırasında/sonrasında herhangi bir bozulma var mı (yanma dakikaları).
Kusur Yoğunluğu - 10 SOP'da İnceleme/Egzersiz Notları.
Tazelik, ≤90 günlük bir gözden geçirme ile SOP'ların oranıdır.
Benimseme - SOP'a gerçekte kaç uyarı/pencere bağlı.
8) SOP Yazar Kontrol Listesi
- Amaç ve uygulama sınırları tanımlanmıştır.
- Roller, erişimler ve pencereler - açıklanmıştır.
- Kalite kapıları ve SLO ölçülebilir, sinyal kaynakları var.
- Çalıştırılabilir adımlar: komutlar/komut dosyaları, beklenen sonuçlar, doğrulama.
- Geri alma/geri alma ve başlatma kriterleri - açık.
- İletişim şablonları eklenmiştir.
- Kanıt listesi yapılandırılmıştır.
- Sürüm/tarih/sahip/inceleme belirtilmiştir.
9) SOP kontrol listesi
- JIT/JEA ön koşulları ve erişimleri onaylandı.
- Bilet/savaş odası açık ve ek açıklamalar dahildir.
- Gözlemlenebilirlik: Gerekli panolar/uyarılar açıktır.
- Adımları sırayla takip ediyorum; Her birinden sonra - doğrulama.
- Gardrails ihlali durumunda - derhal geri tepme ve tırmanma.
- Kanıtlar dolu; Son SLO/iş SLI kontrolü.
- Bilet kapandı, durum sayfası/iletişim güncellendi.
10) SOP örnekleri (fragmanlar)
10. 1 SOP: Kanarya serbest bırakma geri dönüşü (REL-ROLLBACK-01)
The goal: to return the stable version when the burn-rate is exceeded or the p99 grows.
Scope: checkout-api service (prod, EU).
Roles: Release (R), IC (A in SEV-1), P1 (R), Comms (I).
Preconditions: feature flags are ready; JEA accesses; release-annotations included.
Gates: slo. payment_success, http_p99; quorum synthetic EU/US + RUM.
Steps:
1) Freeze unrelated depleys.
2) rollback to tag v2. 3. 7 (command...) → waiting 5 minutes.
I expect: p99↓, error_rate↓, burn-rate <threshold.
3) Business SLI check (payment success, conversion) 10 min.
4) Remove the suppression of alerts; update release annotation.
Backout: if rollback does not help - escalate to IC, enable degrade-UX, consider failover.
Comms: "Rolled back; metrics stabilize; next update in 15 minutes."
Evidence: before/after screenshots, link to dashboards, command and output.
Completion: 30 min green SLOs; close the ticket; assign an RCA (if SEV-1).
Version: 1. 6 (2025-10-28)
10. 2 SOP: Zamanlanmış DB yükseltmesi (MW-DB-UPGRADE-02)
Purpose: update PostgreSQL minor without data loss.
Area: payments-db (prod EU), 02: 00-04: 00 Europe/Kyiv.
Roles: DB Lead (R), SRE (C), Service Owner (A), Comms (R clients).
Preconditions: OK backups; replica in sync; Test upgrade passed.
Gates: lag≤30s, error_rate<0. 5%, p99 <400ms, SLO green 30m.
Steps:
1) Transfer traffic to canary replica 1%→5%→25%; SLI monitoring.
2) Consistently upgrade secondary nodes → switch over → upgrade of the former primary.
3) Restore replication, check consistency.
Backout: promote stable replica; return writer; rolling back packets.
Comms: T-7/-2 days and T-60/-15 min alert; updates q = 30m during the window.
Evidence: migration logs, checksums, p95/p99 graphs.
Completion: observation 60m without burn; MW report with evidence.
Version: 2. 1 (2025-09-12)
10. 3 SOP: PSP Sağlayıcı Anahtarlama (PROV-PSP-SWITCH-01)
Objective: to maintain payment success_ratio in case of PSP-A degradation.
Trigger: PSP-A red/partial status + success_ratio% ≥2 drop.
Steps:
1) Install weights: PSP-A 30%, PSP-B 70%.
2) Turn on the degrade_payments_ux; enhance retrays (within SLA).
3) Monitor fraud_rate/chargeback-risk 30m.
Backout: Regain weights at green SLI 60m.
Comms: status page (first ≤15m, cadence 30m).
10. 4 SOP: Yedekleme kurtarma kontrolü (DATA-BACKUP-RESTORE-CHECK-03)
Objective: weekly verification of recoverability.
Steps: lift from backup in isolation → hash control → consistency requests → report.
Success criterion: time-to-restore ≤ 45 min; 100% integrity.
11) SOP'lar etrafında otomasyon
SOP şablonu: RACI/gates/virgül bloğu ile iskelet üretimi.
Bot sanatçısı: onay kutuları, zamanlayıcılar, kadans hatırlatıcıları, kanıt otomatik toplama ile adımlar.
CMDB/Katalog ile Entegrasyon - Servis, ilgili SOP'lerin bir listesine sahiptir.
Telemetri ek açıklamaları: "SOP-RUN: <ID> step N" - hızlı ayrıştırma.
Kabul politikaları: Dağıtım/pencere sadece yeşil SOP kapıları ile başlar.
12) Anti-desenler
Sahibi/tarih incelemesi olmayan SOP - "ölü" belge.
Başarı kriterleri ve geri dönüş olmadan şişirilmiş talimatlar.
Tutarsız komutlar/anahtarlar - hata ve sızıntı riski.
Wiki'deki ve depodaki farklı sürümler, gerçeğin kaynaklarının farklılığıdır.
Kanıt yok - kaliteyi/uygunluğu doğrulayacak hiçbir şey yok.
"Tüm durumlar için bir SOP" - yürütülebilirlik kaybolur.
13) Uygulama Yol Haritası (4-6 hafta)
1. Ned. 1: SOP şablonunu, linter ve kataloğu onaylayın; En iyi 10 senaryoyu seçin.
2. Ned. 2: bültenleri/geri dönüş/sağlayıcı/yedeklemeler için SOP yazın; masa üstü pilotları.
3. Ned. 3: ChatOps botunu ve telemetri ek açıklamalarını bağlayın; Uyarıları SOP'larla ilişkilendirin.
4. Ned. 4: üç aylık inceleme programı; Tazelik/Başarı Oranı metriklerini girin.
5. Ned. 5-6: Kritik operasyonların %90'ını kapsar; DR/Güvenlik-SOP; Kanıt toplamayı otomatikleştirin.
14) Alt satır
SOP işlemleri öngörülebilir ve doğrulanabilir hale getirir: tekdüze kalite kapıları, ayrıntılı adımlar, açık roller ve tersine çevrilebilirlik. Oyun kitapları, politikacılar, SLO ve otomasyon ile birlikte bu, operasyonu güvenilir bir üretim hattına dönüştürür - hızlı tepkiler, minimum risk ve anlaşılabilir sorumluluk.