İşlemler ve Vardiyalar Arasında Yönetim Transferi Bağlamı
Vardiyalar arasında bağlam aktarma
1) Neden ihtiyacınız var
Vardiya geliyor - sistem zaten "çalışıyor". "Devir teslim kalitesi MTTR'yi doğrudan etkiliyor, gürültüyü ve serbest kalma kararlılığını uyarıyor. İyi bir devir teslim hızlı bir rehber, açık riskler ve anlaşılabilir sonraki adımlardır.
Hedefler:- Olaylar, sürümler ve sağlayıcılar için bağlam kaybını hariç tutun.
- Yeni bir vardiyanın "giriş süresini" saatlere değil dakikalara indirin.
- SLO kritik yollarını stabilize edin (para yatırma, bahis, oyun başlatma, çıkış).
- İletişimi öngörülebilir ve doğrulanabilir hale getirin.
2) İyi devir ilkeleri
1. Standartlaştırılmış form (bir şablon, bir terminoloji).
2. Tekdüzen eserler (aynı panolara/biletlere/çalışma kitabına bağlantılar've).
3. Timebox (kısa "brifing" + yazılı olarak "longrid").
4. İşlem yapılabilir: sonunda'kim/ne/ne zaman "görevlerinin açık bir listesi vardır.
5. SLO yönelimi: SLO/hata durumu,'olay günlüğü'değil.
6. İzlenebilirlik: herhangi bir gerçek bir eser tarafından doğrulanır.
3) Roller ve sorumluluklar
Kurşun vardiyaları (giden): Bir teslim paketi hazırlar, bir brifing tutar.
Lead shift (alma): Soruları/riskleri düzeltir, kabulü onaylar.
Olay yöneticisi: Olayın zaman çizelgesini/kanalını günceller, güncellemelerin SLA'sını izler.
Alan adı sahipleri (Ödemeler/Bahisler/Oyunlar/KYC): bölümlerinde "durum ve risk" verirler.
SRE/Observability: artifaktları (gösterge tabloları, sürüm ek açıklamaları, uyarılar) destekler.
4) Zamanlama ve kanallar
Vardiyadan T-30 dakika önce: giden vardiya durumu dondurur, şablonu günceller.
T-10 dk: Ses/video kanalında hızlı brifing (maksimum 15-20 dk).
T + 0: "# ops-over" ortak kanalında devir teslim paketini yayınlayın.
T + 15 dk: Alıcı vardiya alımı onaylar ve açık soruları netleştirir.
Eskalasyon: tüm "kırmızı" noktalar derhal ilgili takımın kanalına yönlendirilir.
5) Teslim paket yapısı (şablon)
Handoff - <date, time, TZ>
Shift: <outgoing> → <receiving>
Overall SLO status (last 4h):
- API p95/p99: <values/trends>
- Error rate: <values/trends>
- Queue lag/DB connections/Cache: <brief>
Critical incidents:
- <INC-123>: status, impact, next update ETA, links (ticket, channel, postmortem draft)
Providers (PSP/KYC/studios):
- PSP-X: quotas/errors/fake <links>
- KYC-A: Webhook delays <links>
Releases/Features:
- In progress: <service>, stage (canary X%), gate/metrics, risk
- Scheduled: windows/locks/dependencies
Risks and observations:
- <briefly, with links and graphs>
Action items (before <time>):
- [Owner] <task>, readiness criterion
Useful links:
- Dashboard Overview, dependency map, escalation matrix, runbook 'and
On-call contacts:
- Domains/Names/Channels
6) Devir Mini SOP
1. Giden vardiya güncellemeleri ek açıklamaları ve panoları (SLO, sağlayıcılar, kuyruklar) serbest bırakır.
2. Son 4 saat için "kırmızı" uyarıları kontrol eder, durumu/nedeni düzeltir.
3. Güncellemeler bölümü "Riskler ve gözlemler" (gerçekler değil, eğilimler/şüpheler).
4. Eylem öğelerini son tarihler ve sahiplerle doldurur.
5. Bir brifing tutar: 10-15 dakika, kesinlikle şablona göre.
6. Alıcı vardiya sorular sorar; Gerekirse - sahiplerine anında tırmanma.
7. Kabul onayı: "Alındı, sorular/hayır", ilk adımların listesi.
7) Devir Kalite Metrikleri (KPI)
Handoff Kalite Puanı (HQS) - bir kontrol listesinde bir paket (0-100) puanlama.
Handoff Süresi - brifing süresi (hedef koridor 10-20 dk).
Onay SLA ≤ 15 dakika.
Eksik Bağlam Oranı - bir kaymadan sonra "bağlam kaybı" olan olayların oranı.
Handoff Sonrası Olay Spike - İlk 60 dakika içinde uyarılar/olaylarda bir artış.
Eylem Öğeleri SLA - vardiyadan sonra zamanında kapatılan görevlerin oranı.
8) Paket kalite kontrol listesi (HQS değerlendirmesi)
- Eğilimlerle 4 saat içinde SLO'lar/anahtar metrikler dolduruldu.
- Tüm "kırmızı" uyarılar nedenler/referanslar ile listelenmiştir.
- Olaylar: sayı, durum, etki, bir sonraki güncelleme (zaman).
- Sağlayıcılar: Kotalar/hatalar/feilover, son değişiklikler.
- Bültenleri/Özellikleri: Sahne, Riskler, Gates/Kanarya.
- Eylem öğeleri: sahibi, terim, hazırlık kriteri.
- Bağlantılar: panolar, kanallar, runbook've, eskalasyon matrisi.
- Çağrı üzerine kişiler ve yedek bağlantılar.
9) "Devir için" gösterge panoları (minimum)
Operasyonlara Genel Bakış: p95/p99, hata oranı, kapasite boşluğu, kuyruk gecikmesi.
Olaylar Kurulu: açık olaylar, ETA güncellemeleri, etki.
Yayın ve Özellik: Kanaryalar, Karşılaştırmadan Önce/Sonra, Otomatik Etiketler.
Sağlayıcılar Paneli: kotalar, zaman aşımları, maliyet/1k çağrıları, anahtarlar.
Bağımlılık Haritası: gecikme/hatalar/yeniden denemeler.
10) Devir kalitesi ile ilgili uyarılar (fikirler)
ALERT HandoffNotPublished
IF handoff_published == 0 AND within(10m, shift_change) == true
LABELS {severity="warning", team="ops"}
ALERT HandoffAckSLA
IF handoff_ack_minutes > 15
LABELS {severity="warning", team="ops"}
ALERT MissingActionOwners
IF count_over_time(handoff_action_items{owner=""}[1h]) > 0
LABELS {severity="warning", team="ops"}
ALERT PostHandoffIncidentSpike
IF incidents_rate_60m_after_shift > baseline_14d 1. 5
LABELS {severity="info", team="ops"}
11) İletişim ve güncelleme formatı
Kısa güncelleme şablonu (paylaşılan kanala):
[HH: MM] Handoff published. SLO OK/Degraded. Incidents: INC-123 (ETA 18:30), releases: bets-api canary 10%. Risks: PSP-X 85% quota. Action items: @ squad-payments until 7pm to check out the feilover.
Kurallar:
- Kritik noktalar için özel sohbetler olmadan - yalnızca ortak kanallar.
- Herhangi bir "kırmızı" bölge, sahipleriyle hemen bir ipliktir.
- Tüm kararlar/tavizler - yazılı olarak, verilere atıfta bulunarak.
12) Etki Alanı Özellikleri (iGaming)
Ödemeler: öncelik: depozito dönüştürme ve yetkilendirme süresi, PSP sahte yolları, sağlayıcıya göre limitler.
Bahisler: katsayı/önbellek güncellemeleri, akış/kuyruk yükü, hesaplama gecikmesi.
Oyunlar/Canlı: yayın etkinlikleri (jackpotlar/akışlar), web sitesi sınırları, UI bozulması.
KYC/AML: kontrol kuyruğu, SLA sağlayıcıları, zirvelere duyarlılık.
13) Anti-desenler
Devir teslimin özgür "keyfi biçimi" (herkes istediği gibi yazar).
Kabul onayı için son tarih yoktur.
Eylem öğeleri ve sahipleri olmadan paket.
Devir, SLO/riskler yerine "günlük okuyucu'ya dönüşür.
Özel sohbetlerde gizli çözümler - izlenebilirlik eksikliği.
Şablon yapaylara referans içermez - kontrol edilecek bir şey yoktur.
14) Entegrasyonlar ve eserler
Grafiklerdeki sürümlerin ek açıklamaları, devir işlemine otomatik bağlantılar.
Bağlantı açma: önemli metriklerin önizlemesiyle panolara/biletlere bağlantılar ekleme.
Runbook ciltleri: belirli bir runbook'a doğrudan bağlantısı olan her "kırmızı" bölge.
Eskalasyon matrisi: şablonda - tek bir ilgili belge.
15) Tutma politikası ve denetimi
Devir - merkezi olarak saklanır (geos, tarih/saat, yazarlar).
Haftalık HQS denetimi ve kötü devirlerin seçici analizi.
Şablonun gözden geçirilmesi - üç ayda bir veya post-mortemlerin sonuçlarına dayanarak.
16) Hızlı başlangıç (30 gün)
1. Hafta: şablonu, rolleri ve zamanlamayı onaylayın; Aynı hatta bir pilot başlatın (örneğin, Ödemeler).
2. Hafta: "Devir için" panoları, HandoffNotPublished/AckSLA uyarılarını ekleyin.
3. Hafta: Bir HQS puanı ve devirlerin %10'unun denetimini tanıtın.
4. Hafta: Bahisleri/Oyunları/KYC'yi genişletin, geriye dönük yapın, SOP'u güncelleyin.
17) Bir paket için "risk kartı" örneği
Risk: PSP-X hits 90% quota in prime time
Impact: rise in deposit refusals, SLO payments at risk
Signals: outbound_error_rate, quota_usage_ratio
Mitigation: raise PSP-Y up to 20% of traffic in advance, enable token cache
Owner/ETA: integrations@oncall / до 18:00
18) SSS
S: Brifing devam ederse ne olur?
C: Sıkı zaman kutusu ve "brifingden sonra iş parçacığı" kuralı. Paket asenkron tanıma için her şeyi içermelidir.
S: "Gerçeğin farklı versiyonları'ile nasıl başa çıkılır?
A: Yapayları birleştirin: birleştirilmiş panolar, sürüm ek açıklamaları, SLA için SSOT; sadece onlara bağlanır.
S: Brifingin kaydedilmesi gerekiyor mu?
C: Evet, tartışmalı durumlar ve eğitim için. Ancak kayıt, standartlaştırılmış yazılı paketin yerini almaz.