Amallaryň pleýbuklary
1) Playbook näme we runbook-dan nähili tapawutlanýar
Runbook - adaty amal/alert üçin çyzykly ädimme-ädim görkezme ("bir, iki, üç et").
Pleýbuk - çatryklar bilen ssenariýalar üçin çözgütler agajy: dürli alamatlar → dürli çaklamalar → dürli hereketler. Saýlama ölçeglerini, geýt şertlerini we fallback şahalaryny öz içine alýar.
Playbukyň maksady - näbellilik ýüze çykan halatynda MTTA/MTTR we improwizasiýa derejesini azaltmak.
2) Pleýbuklar ilkinji nobatda zerur bolan ýerde
Wakalar: SLO-nyň ýykylmagy (availability/latency/success), biznes-SLI-iň şowsuzlygy (öwrülişik/tölegleriň üstünligi).
Üýtgeşmeler: relizler, göçmeler, ficha-baýdaklar, konfigalar (canary/rollback).
Hyzmat penjireleri: DB/dellallaryň täzelenmeleri, şahadatnamalaryň aýlanmagy.
Üpjün edijiler: PSP/KYC/CDN/IDP - zaýalanmalar we swiç-over.
Howpsuzlyk: barlyşykly açar, şübheli işjeňlik.
DataOps: täzeligiň gijikdirilmegi, shemanyň süýşmegi, paýlaýnyň zaýalanmagy.
3) Pleýbukyň standartlary (iň az düzümi)
1. Kartoçka: Kesgitleýji, Wersiýa/Sene, Eýesi (topar/rol), Hyzmatlar/sebitler/tenantlar, Baglanyşykly syýasatlar/standartlar.
2. Işe girizmegiň maksady we şertleri: haýsy SLO/SLI goraýarys, haýsy alertler/triggerler ulanylýar.
3. Simptomlar Gipotezalar: nädogry gipotezalary nädip çalt kesmelidigi.
4. Çözgütler agajy: çatryklar, howpsuzlyk geýtleri, durmak/dowam etmek ölçegleri.
5. Hereketler: runbook 'i buýruklary/baglanyşyklary bilen ädimme-ädim bloklar.
6. Aragatnaşyk: Täzeleniş şablony (Impact → Diagnostika → Hereketler → Yz. täzelenýär), kanallar we ýygylyklar.
7. Yza gaýdmak/folbek: anyk backout-plan, çäklendirmeler we UX zaýalanma baýdagy.
8. Tamamlamagyň ölçegleri: metrikler, wagtlaýyn gözegçilik penjireleri.
9. Ewidence: Näme saklamaly (loglar, grafikler, ekran suratlary, biletleriň şahsyýeti).
10. Üýtgeşmeleriň taryhy: changelog, belli çäklendirmeler.
4) Pleýbuklaryň taksonomiýasy (katalogyň mysaly)
INC- hadysalar (SLO/SLI, üpjün edijiler, infrastruktura).
REL- - relizler, gaýdyşlar, konfigalar/baýdaklar.
MW- - hyzmat penjireleri (DB/queue/cert/OS).
SEC- howpsuzlyk (elýeterlilik, açarlar, şübheli hereketler).
DATA - täzelik/hil/shema.
PROV- - daşarky üpjün edijiler (PSP/KYC/CDN/Email/SMS).
5) Durmuş sikli we eýeçilik
1. Başlangyç: hadysanyň/simulýasiýanyň/üýtgeşmäniň netijeleri boýunça.
2. Taslama: awtor = hyzmatyň eýesi; rewyu: SRE/howpsuzlyk/maglumatlar (domen boýunça).
3. Pilot: tabletop/game-day; geçmegiň we kemçilikleriň wagtyny düzetmek.
4. Çap etmek: repo (Docs-as-Code), wersiýa, bellikler, dashbordlara salgylanmalar.
5. Täzelenme: RCA/CAPA boýunça, çärýekde azyndan bir gezek; Täzelik SLA.
6. Arhiw/deprekasiýa: çalşyrylanda/ýitende.
6) Gurallar bilen integrasiýa
Alert → Playbook: Her Page düzgünleri takyk bir esasy oýun kitabyna salgylanýar.
ChatOps: '/play start <id> 'kartoçkany açýar, evidence düzedýär, täzelenmeleriň wagtlaryny goýýar.
CMDB/katalog: hyzmatyň degişli pleýboklarynyň sanawy, eýeleri, SLO, daşbordlary bar.
GitOps: playbook we runbook 'we Git-de ýaşaýarlar, PR-review we linterler geçýärler.
7) Pleýbuklaryň hiliniň metrikleri
Actionability: ≥ 90% -i "bilmezlikden" ýokarlanmazdan anyk hereketlere sebäp bolýar.
Wagt-to-first-action: Sahypadan ilkinji manyly ädime çenli bir-iki minut.
Coverage:% Page-alertleri (100% maksat).
Freshness: pleýbuklaryň paýy täze 90 gün.
Defect rate: 100 pleýbuk üçin rewyu/simulýasiýa bellikleri.
Reuse: playbook hakykatdanam näçe gezek ulanyldy (we haýsy netijelere sebäp boldy).
8) Anti-patternler
Agaç çözgütsiz 20 sahypalyk "Playbook-ensiklopediýa".
Netijä garaşman buýruklar ("X ýerine ýetirmek" - näme üýtgemeli?).
Backout-plan ýa-da çäklendirmeler ýok - meseläniň möwjemegi töwekgelçiligi.
Aragatnaşyk kanallary/aralyklary görkezilmedi - PR töwekgelçiliginiň ýokarlanmagy.
Eýesiz/täzelenen senesiz pleýbuk - hiç kim onuň aktuallygyna ynanmaýar.
Bir parametrlenýän ýerine onlarça meňzeş pleýbuklar.
9) Playbook mini şablony (YAML pikiri)
yaml id: INC-PAY-001 name: "Payment Success Down"
version: 2. 4 (2025-10-15)
owner: team-payments@sre scope: [prod, region: eu, tenants: all]
goal: "Restore success_ratio ≥ 98% without violating SLA"
triggers:
- alert: slo. burn. payment_success_ratio
- external_status: psp-a partial outage symptoms:
- "5xx growth in payments-api"
- "p95 latency> 400ms on PSP-A"
decision_tree:
- if: "quorum(eu,us) confirms drop AND PSP-A status=partial"
then:
- action: "Reduce PSP-A weight to 30%"
runbook: rb://payments/traffic-shift guardrails: ["success_ratio improving 10m", "p95<300ms"]
- action: "Enable degrade_payments_ux"
runbook: rb://payments/feature-flags
- action: "Status update (30m) by template"
comms: statuspage://payments else:
- action: "Check database/cache/queue"
runbook: rb://payments/diag-stack fallback:
- action: "Failover на PSP-B 70%"
guardrails: ["fraud_rate stable", "chargeback risk noted"]
rollback:
- condition: "PSP-A green 60m"
- steps:
- "Weight of PSP-A 30→70→80 (every 30 m at green SLI)"
evidence:
- "SLI screenshots, p95/5xx graphs, links to logs/trails"
completion:
- "success_ratio ≥98% during 30 m, no burn in 6 h"
10) Taýýar mysallar (bölekler)
A) Tölegler: "Üpjün ediji bir sebitde pese gaçýar"
Alamatlary: TR-kogortanyň success_ratio peselmegi, PSP-A wagtynyň ýokarlanmagy.
Çözgütler: TR üçin PSP-A agramyny azaltmak, degrade-UX-i açmak, SLA ≤ býudjeti bilen retralary güýçlendirmek, müşderi täzelenmesini taýýarlamak.
Backout: 60 minutlyk ýaşyl SLI-de agramy dikeltmek.
B) BD: "Ösüş p99 we connection errors"
Alamatlary: p99 ↑, ýalňyşlyklar connection reset, ösüş wait events.
Çözgütler: readly-only ssenarileri goşmak, write ýüküni çäklendirmek, howuzy/göçürmeleri ulaltmak, zerur bolsa gyzgyn feýlower.
Backout: Parametrleri yzyna gaýtarmak, prime replika.
C) Nagt pul: "Miss rate ↑ → DB ýüklemek"
Alamatlary: miss rate> 40%, CPU BD ösüşi.
Çözgütler: eviction policy deňagramlaşdyrmak, ýady/şardingi köpeltmek, wagtlaýyn read-through açmak, gyzgyn açarlarda RPS çäklendirmek.
Backout: syýasaty yzyna gaýtarmak, problema şardyny täzeden döretmek.
D) CDN: "Mazmunyň sebitleýin pese gaçmagy"
Alamatlary: bir ýurtda latency/timeout ösüşi, RUM şikaýatlary.
Çözgütler: routing map/GSLB üýtgetmek, problemaly POP-dan aýlanyp geçmek, TTL-ni azaltmak, origin-shield-i açmak.
Komms: täsir geografiýasy bolan status-täzelenmeler.
E) KYC: "Şahsyýetnamalaryň şowsuzlygy"
Alamatlary: approve rate ýykylmagy, vendor_error ösüşi.
Çözgütler: traffigiň bir bölegini alternatiw üpjün edijä geçirmek, düzgünleriň berkligini azaltmak (syýasatyň çäginde), VIP üçin el bilen gözden geçirişe başlamak.
Compliance: ähli üýtgeşmeleriň, zerur bolan halatynda Töwekgelçilik/Kanuny habarnamalaryň sanawy.
11) Aragatnaşyk (täzeleniş şablony)
Impact: EU payment success drop (-3. 1% to SLO, 25 min).
Diagnosis: confirmed by quorum; PSP-A partial outage; p95 = 420ms.
Action: PSP-A weight reduced to 30%, degrade-UX included; next update 18:30 UTC.
12) Pleýbukyň awtorynyň çek-sanawy
- Maksat, eýeler, SLO/SLI we triggerler görkezilýär.
- "Gipotezanyň alamatlary" we karar agajy bar.
- Garaşylýan netijeler we howpsuzlyk nyşanlary bilen ýerine ýetirilip bilinjek ädimler.
- Backout/fallback we yzyna gaýtarmak şertleri ýazylýar.
- Aragatnaşyk şablony we täzelenmeleriň ýygylygy.
- Daşbordlara/alertlere/log-gözleglere/söwdalara salgylanmalar.
- Hökmany bölüm we tamamlamak ölçegleri.
- Wersiýa, senesi, täzelik SLA, üýtgeşmeleriň taryhy.
13) Rewýueriň çek-sanawy
- Playbook-y tabletop/game-day-da çalýarys.
- Ädimler howpsuz (çäklendirmeler/kanareýa/awto-yzyna), syrlar aýan edilmeýär.
- Rollar we güýçlenmeler düşnüklidir; IC/Comms görkezilen.
- Goňşy pleýbuklar bilen köpeltmek ýok; parametrleri berildi.
- Haçan durmaly we fallback/rollback-e geçmeli.
- Resminama 1 gezek basmak arkaly elýeterlidir.
14) Parametrleşdirmek we gaýtadan ulanmak
Üýtgeýjileri (sebit, üpjün ediji, bosagalar) 'values.' -e geçiriň.
Umumy ädimleri (mysal üçin, "üpjün edijiniň agramyny azaltmak", "degrade-UX goşmak") aýratyn runbook bilen düzüň.
Şablonlardan generatorlary saklaň: 'plb new --type = INC --service = payments'.
15) Durmuşa geçirmegiň ýol kartasy (4-6 hepde)
1. Page-alertleri sanawlamak → Her biri üçin esasy pleýbuky deňeşdirmek.
2. Şablonlar: YAML/Markdown gurluşyny, çek sahypalaryny we linterleri tassyklaň.
3. Iň gowy 5 ssenariýa (tölegler/BD/CDN/KYC/kesh) → ýazmak/tabletop-a göçürmek.
4. Integrasiýa: alertlerden baglanyşyklar, ChatOps buýruklary, evidence-bot.
5. Maşklar: hepdelik mini-drill bir pleýbukdan; AAR → gowulaşmalar.
6. SLA täzelik we çärýekleýin gykylyk; hil ölçegleri boýunça hasabat.
16) Jemleýji
Pleybuklar, "näme etmeli?!" Bulam-bujarlygy öňünden aýdylýan çözgütlere öwürýän çatryklar we päsgelçilikler bilen işleýän ssenariýalardyr. Pleýbuklar standartlaşdyrylanda, alertler bilen birleşdirilende we yzygiderli türgenleşilende, topar has çalt reaksiýa bildirýär, töwekgelçiliklere gözegçilik edilýär we işewürlik ekspluatasiýanyň durnuklylygyny we kämillik derejesini görýär.