Ödemelerdeki olayların oyun kitabı
TL; DR
Bir ödeme olayı kontrollü bir işlemdir: hızlı bir şekilde sınıflandırın - UX'i (feiler/bozulma) stabilize edin - paradan tasarruf edin (idempotency/blok kuralları) - şeffaf bir şekilde iletişim kurun - geri yükleyin - RCA'yı düzeltin. Ana SLO'lar: MTTA, MTTR, TtW/TtR, AR, Webhook p95, çift ücret/geri ödeme için sıfır tolerans.
1) Önem ve Darbe Matrisi
Tetikleyiciler: SLA/Hazine/uzlaşma uyarıları, destek zirveleri, AR/gecikme/webhooks izleme.
2) Roller ve iletişim kanalı
Olay Komutanı (IC) zaman çizelgesinin ve çözümlerinin sahibidir.
Payments Tech Lead - yönlendirme, idempotence, özellik bayrakları.
Hazine Kurşun - likidite, prefunding, stres rezervleri.
Risk/AML - yaptırımlar, blok kuralları, SoF/SoW.
İletişim Yöneticisi - destek/iş ortakları için şablonlar, durum güncellemeleri.
Keşif/Finans - uzlaşma, ters/dergiler, kayıp tahminleri.
Genel Merkez: # payments-incident-warroom (chat), Zoom-bridge + live timeline document (UTC).
3) Evrensel döngü (herhangi bir olay için)
1. Detect & Triage - metrikleri/kapsamı onaylayın, Sev'i atayın.
2. UX'i stabilize edin - yönlendirme feileri, özellik bozulması, tehlikeli otomatik eylemlerin dondurulması.
3. Para Güvenliği - idempotence/blokları (geri ödeme/ödeme), düzeltme günlükleri etkinleştirin.
4. İletişim - dahili güncelleme (15/30/60 dk), harici mesajlar (durum/ETA/geçici çözümler).
5. Recover - artımlı geri alma/açma, SLO'yu doğrulama.
6. Uzlaştırın - defter/PSP/bankayı karşılaştırın, finansal etkiyi hesaplayın.
7. RCA (≤5 iş birimleri) - kök, eylemler, önleyiciler, görevler.
4) Tipik senaryolar ve Runbook've
4. 1 Auth Bırakma/Gecikme Spike (Cards/A2A)
Semptomlar: AR↓, yumuşak declines↑, p95 auth> 1-2 s.
Eylemler:- Akıllı yönlendirme: PSP_A→PSP_B, savunmasız BIN'ler üzerindeki 3DS-challenge artırın.
- Retrays (backoff + jitter) sınırlayın, idempotency 'auth _ key' koruyun.
- Segment-geçiş: "Sıkı" komut dosyasına yüksek riskli; yüksek bilet limitlerini azaltın.
- İletişim: "bozulma notu", alternatif bir yöntem önerir.
- Kurtarma: trafik payının aşamalı geri dönüşü, BIN × GEO bağlamında AR kontrolü.
4. 2 Webhooks Gecikme/Çoğaltma
Semptomlar: p95> 3-5 c, boşluklar yakalama/geri ödeme/ödeme, kopyalar.
Eylemler:- Yoklamaya geçmek; TTL idempotency geliştirin.
- Otomatik refandları ve riskli otomatik ödemeleri dondurun.
- Anti-double: store-once by 'idempotency _ key/provider _ txid'.
- Yakalama işlemini gerçekleştirin; PSP kayıtları ile uzlaşma.
- Kurtarma: webhook'ları etkinleştirin, raporlarla tutarlılığı karşılaştırın.
4. 3 Ödeme Hatası/TtW Bozulması
Belirtiler: Success%↓, TtW p95↑, dönüşler/zaman aşımları.
Eylemler:- Bekleme rayına geçiş (RTP/SEPA/diğer PSP).
- Hazine: Ön ödemeli ödeme havuzu, StressRes aktivasyonu.
- Yüksek riskli, VIP önceliklendirme için ödeme kilidi.
- İletişim: ETA ve alternatifler, kişisel hesaptaki durumların şeffaflığı.
4. 4 İade Hataları/Çift İade Riski
Belirtiler: Geri ödeme hatası rate↑, tartışmalı/yinelenen iadeler.
Eylemler:- Otomatik rotada global geri ödeme dondurma, yalnızca haklarla manuel.
- Zor idempotency 'payment _ id + amount + reason'; Dengede sıra kilidi.
- PSP raporuna göre yeniden kalibrasyon; Defterdeki kopyaların ters çevrilmesi, DLQ'daki vakalar.
- Kartlar için Kommunikatsii:模板 (T + 1-T + 5 bp), anında - 60 sn'ye kadar.
4. 5 Yerleşim Gecikmesi/PSP Toplu Uyumsuzluğu
Belirtiler: D + N kayıtlı değil, miktar/ücret olarak diff.
Eylemler:- Hazine: StressRes'i açın, anında ödemeleri sınırlayın.
- Recon: "SUSPENSE" grubunu işaretleyin, PSP biletini yükseltin, bir açıklama isteyin.
- FX/Ücretler: Geçici "gerçeği" (politika) kabul edin veya düzeltmeyi bekleyin.
- İletişim: Destek için soru-cevap (fonların güvenliği, yerleşim zamanlaması).
4. 6 Kripto Açık/Kapalı-Rampa Bozulması
Semptomlar: TtH↑, slippage↑, sitenin likidite eksikliği.
Eylemler:- SOR - alternativnyy CEX/OTC, lot boyutunu küçült (TWAP).
- Stabil/fiat, depeg maruz kalma sınırına girenlerin transferi.
- Oracle diverjans> bps sınırı varsa Kill-switch.
4. 7 Kupon/Cüzdan Anormallikleri
Semptomlar: Geçersiz PIN spike, hız, geo-bowl.
Eylemler:- Limitler/bekleme süresi, cihaza bağlanma, ödeme kilidi + devir.
- İstek kontrolleri/SoF, blok listelerinin doldurulması (e-posta/cihaz/ASN/perakendeci).
5) Eylem kontrol listeleri
5. 1 İlk beş dakika (P0/P1)
- IC, açık savaş odası atayın.
- Kayıt Sev, kapsama, zaman çizelgesi başlangıcı (UTC).
- Güvenli özellik bayraklarını etkinleştirin (idempotency, gerekli otomatik işlemlerin dondurulması).
- Başlat Özellik Yük Devretme/Bozma.
- İlk dahili güncelleme (bağlam, önlemler, bir sonraki ETA).
5. 2 Olayı kapatmadan önce
- SLO geri yüklendi (AR/latency/webhooks/TtW/TtR).
- Uzlaşma (internal↔PSP↔bank), kara delik yok.
- Finansal etki değerlendi, geri dönüşler/dergiler yayınlandı.
- Harici güncelleme/durum kanalı yayını.
- RCA'nın sahibi ve önleme görevi atanır.
6) İzleme, uyarılar ve gösterge panoları
Önemli uyarılar:- 'AR_gross↓> 3 pp (p7 medyan)' - kapsama alanında P1/P0.
- 'Auth p95> 1. 5 s/Webhook p95> 5 s/Yakalama Başarısı <%98 '- P1.
- 'Ödeme TtW p95> SLO' или 'Başarı % <%99' - P1.
- 'Geri Ödeme Hatası> 0. 3 % 'или' Çift İade> 0 '- P0.
- 'Zamanında çözüm <%99'/' Rapor Teslim SLA ihlali' - P1.
1. Fanel Girişimi - Auth - Yakalama (temel çizgiyle karşılaştırma).
2. Isı haritası AR по BIN × GEO × PSP.
3. Webhook p50/p95, kopyalar, sıçrama.
4. Ödeme/Geri Ödeme Sağlık (Başarı %, TtW/TtR).
5. Hazine: L0 dengesi, prefund, StressRes.
6. Keşif: Uyumsuzluk Oranı, Yaşlanma DLQ.
7) İletişim (şablonlar)
Dahili (15 dk):- "Şu anda bazı kullanıcılar için ödemeleri ve para çekme işlemlerini onaylamada gecikmeler var. Ödemeler güvenli tutulur. Alternatif yöntem X'i öneriyoruz. 30 dakika içinde güncelleyin"
8) Uzlaşma ve para (stabilizasyondan sonra)
Otomatik uzlaştırmayı çalıştır: provider_txid/idem_key/amount/time-bucket.
DLQ'yu seçin: orphan/duplicate/amount mismatch/fee drift.
Defterde bir ters/düzeltme yapın, Maliyet/GGR ve Dolandırıcılık Kaybını yeniden hesaplayın.
Hazine: geçici önlemleri kapatın (StressRes, ödeme kilidi), yeniden dengeleme havuzları.
9) RCA (Kök Neden Analizi) şablonu
Bağlam: Tarih/Saat (UTC), Sev, Kapsam, Metrikler.
Belirtiler: gördükleriniz (grafikler/ekran görüntüleri).
Sebep: kök (bu/süreçler/karşı taraf).
Ne çalıştı/işe yaramadı: feilover, özellik bayrakları, iletişim.
Finansal etki: silme/ödememe/komisyonlar/SLA kredileri.
- Bunlar: sınırlar, idempotency, geri çekilmeler, testler.
- İşlemler: güncelleme oyun kitabı, PSP ile QBR, SLA değişiklikleri.
- Son tarihler ve görev sahipleri.
10) Otomasyon ve entegrasyon
Feature-flag platform: Ülkeye/BIN/yöntemine göre anlık yönlendirme/bozulma.
Runbook-bot:'/failover PSP_A→B','/freeze returns ','/enable polling' komutları.
Anomali dedektörü: Mevsimsellik bilgisi ile AR/gecikmenin istatistiksel sapması.
Olay sonrası makrolar: RCA şablonunun otomatik olarak açılması, günlüklerin/grafiklerin toplanması, mutabakat kontrol listesi.
11) Matkap takvimi ve UAT
Aylık: "Auth drop" tatbikatı (detecta'dan feilover'e 15 dakika).
Üç ayda bir: "Webhook kesintisi" + "Geri ödeme çift vuruş" (idempotence).
Yarı yıllık: "Uzlaşma gecikmesi + Hazine stresi" (StressRes).
UAT paketi: idempotency, feilover, uzlaşma, iletişim test vakaları.
12) Playbook Başarı Metrikleri (Operasyonel KPI'lar)
MTTA/MTTR: P0/P1 tarafından medyan/p95.
10 dakika içinde yüzde otomatik yük devretme.
Çift ücret/geri ödemeyi engelleyen olaylar (= %100).
Olay sonrası keşif tamamlandı ≤ D + 1.
Geri kazanılan hizmet kredileri/ay (по SLA).
Kullanıcı etki dakikaları.
13) Sık yapılan hatalar ve bunlardan nasıl kaçınılacağı
Feilover'ın geç aktivasyonu (otomatik eşik yok).
Webhooks sıçradığında otomatik refandlarda "donma" eksikliği.
Satır kilidi/sürüm oluşturma yok> kısmi geri ödeme> kalan.
Gerçekler olmadan iletişim/ETA - desteğe tırmanma.
Hazine ile bağlantı yok - TtP/TtW çıkış SLO.
Uzlaşmayı atlamak - gelirde'kara delikler ".
14) Uygulamalar (wikinizin içindeki referans blokları)
Ödeme sağlayıcıları ile SLA'lar - uyarı eşikleri ve krediler.
PSP ödemelerinin ve raporlarının mutabakatı - keşif/DLQ prosedürleri.
Hazine: Likidite ve Rezervler - StressRes/Prefunding.
Ödeme döngüsü KPI - AR/TtW/TtR/Geri Ödeme Sağlık formülleri.
Kısmi ve tam refandlar idempotans ve politikadır.
Özet
Çalışma oyun kitabı bir senaryo runbook've + otomasyon + post-mortems disiplini. MTTR'yi azaltır, parayı korur (idempotence/reconciliation/treasury), kullanıcı hasarını en aza indirir ve SLA'lardaki PSP'lerle ilişkileri sistematik olarak geliştirir. Sonuç - AR yukarıda, koridorlarda TtW/TtR, sıfır alır, öngörülebilir para akışı.