Բիզնեսի շարունակականության պլանը
1) Նպատակը, տարածքը և սկզբունքները
Նպատակը 'ապահովել կրիտիկական ծառայությունների շարունակությունը (դեպոզիտներ, տոկոսադրույքներ/խաղեր, եզրակացություններ, KYC/AML, sapport) ձախողումների ժամանակ և արագ վերականգնումը առանց պայմանագրերի և պայմանագրերի խախտման։
Տարածքը ՝ առցանց պլատֆորմ, ստացիոնար պաշտպանիչ, հակաֆրոդ/CUS, MSH/BI, sapport, վիրահատական և իրավաբանական գործառույթներ, հիմնական վենդորները (PMS/KYC/ամպ/CDN/ստուդիա/ագրեգատորներ)։
Սկզբունքները ՝ safety first, խաղացողը առաջին հերթին կարգավորող ճկունություն, RTO/RPO նվազագույնի, դեգրադացիոն ռեժիմներ, ապացուցողականություն և ուսուցում։
2) BIA - բիզնեսի վրա ազդեցության վերլուծություն
Ռուսական կրիտիկական գործընթացները, մուտքերը/ելքերը, կախվածությունը, «ձեռքով» այլընտրանքները և RTO/RPO կոդերը։
BIA (YAML) հատվածի օրինակ
yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3) Սցենարներ/սպառնալիքներ (Risk No Impact no Response)
Նրանք 'ամպերի տարածաշրջանի անկումը, BD-ի ձախողումը, միգրանցների կորուստը, DDoS-ի հարձակումները, CDN-ի հրաժարումը։
Գենդերներ ՝ PMS/KYC դեգրադացիա, խաղերի ագրեգատորի բացը, հակաֆրոդի/սանկցիոն սկրինինգի անհասանելիությունը։
Քիբեր 'ենթածրագրի փոխզիջում/105, ransomics, PII արտահոսք։
Գործընթացներ/մարդիկ 'գործադուլ/հիվանդություն, հիմնական մասնագետների հեռացում, արբիտրաժի սխալ։
Geo/fors-Major: Կապի/էներգիայի, ռազմական/սանկցիոն ռիսկերը, ածխաջրածինների/շարժիչների արգելափակումը։
Յուրաքանչյուրի համար 'ձգան, շարժասանդուղքի շեմն, վերահսկողական միջոցները, կոդերի քայքայումը և հաղորդակցման ձևանմուշները։
4) Կայունության և ռազմավարության ճարտարապետությունը
Action-action/active-standby տարածաշրջաններում; արագ բարձրանալու համար infrastructure as code։
Դեգրադացիոն ռեժիմները ՝ read-only Vitrines, ոչ քննադատական խաղերի պրովայդերների անջատումը, Climits-ը, «միայն դեպոզիտները» հետաձգված կասաուտներով (եթե իրավաբանորեն թույլատրելի է), վերլուծաբանների հաճախության նվազումը/ETL-ն։
Traffic-ը ՝ Anycase CDN, գեո հավասարակշռություն, health-winks, canary-միկրոակտիվացում։
Տվյալները ՝ PITR-bakaps, փոփոխությունների ամսագրեր, միջգերատեսչության կրկնօրինակումը, կրիպտոգրաֆիկ ամբողջականությունը (hashi/WORM)։
Բանալիները/գաղտնիքները 'անկախ KMS per-region, «break-glass» ամսագրերով։
PMS/KYC mensi-homing: Ավտոմատ ֆեյլովեր, SLA/լատենտ միկրոակտիվացում։
5) Թիմային կառուցվածքը (Incident Command Live)
Incident Commander (IC) - որոշումների կայացման միասնական կետ։
Ops Lead (SNE/Platform) - տեխնոլիզացիա, ֆեյլովեր, մետրիկա։
Businuity Lead-ը գործընթացների/ձեռքով ընթացակարգերի համակարգումն է։
Comics Lead-ը արտաքին/ներքին ծանուցումներ է (խաղացողներ, գործընկերներ, կարգավորիչներ)։
Express/DPO - կիբերհանցագործություններ/գաղտնիություն, կարգավորող պատուհաններ։
Payments/KYC Leads - PSA/KYC սցենարներ։
Liaisons: Legal, Support, VIP/CRM, Data/BI.
Կանոն 'մեկ IC պատահականության, հստակ ալիքների և որոշումների լույսերի վրա։
6) Հաղորդակցության պլանը
Ալիքները ՝ war-room (chat/կամուրջ), պահեստային կապեր (հեռախոս/ռադիո/ալտ-մեսենջեր), PFC/KYC/բանկերի նախապես ստուգված շփումներ։
Արտաքին հաղորդագրությունների մոդելները 'կարգավիճակ-էջ, սոցիալական ցանցեր, email/push; տոնը փաստերն են, ժամկետները, հաջորդ քայլերը։
Կարգավորողները և գործընկերները 'կանխորոշված հայտարարագրեր, SLA ծանուցումներ; բանաձևերը։
Խաղացողները ՝ թափանցիկ ETA, փոխհատուցում/բոնուսներ (եթե կիրառելի է), FAQ-ը քայքայման ժամանակահատվածում։
7) Վիրահատական պլանները (Runbooks)
Բեկորների օրինակները
7. 1 Ֆեյլովերը այլ ոլորտում
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7. 2 PSA դեգրադացիա
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7. 3 KYC պրովայդերը հասանելի չէ
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) IT և տվյալների վերականգնումը (DR)
Համակարգերի կատեգորիաները ՝ Tier-1 (պլատֆորմա/վճարումներ/KUS), Tier-2 (խաղեր/վերլուծություն), Tier-3 (ներքին)։
Վերելքի կարգը ՝ գաղտնիքների ցանցը/KMS/BD windowkesh wwww.API/CDN/wwwww.ru վերլուծություն։
Ամբողջականության ստուգումը 'վերահսկողական գումարներ, ամսագրերի/վերարտադրման ստուգում, գործարքների իջեցում (reconciliation)։
DR թեստերը 'ամեն տարի ամբողջական (switch-over), եռամսյակային մասնակի։ ամրագրում RTO/RPO։
9) Մարդիկ, գրասենյակները և լոգիստիկան
Remote-ready: պահեստային նոութբուքեր/մոդեմներ, SSO/MFA-ի միջոցով հասանելիությունը, IC-ի համար «կարմիր» հասանելիությունը։
Այլընտրանքային վայրերը 'պահեստային գրասենյակները/կովորկինգները, անցքերի ցուցակները, պլանը ռոտացիայի դեպքում։
Փոփոխությունը 'իրավասությունների մատրիցը, հիմնական դերերի կրկնօրինակումը, փոխարինման պլանը։
Հաղորդակցման/էներգիայի քննադատական պրովայդերներ 'կոնտակտներ, SLA, գեներատորներ/UPS (եթե revanto)։
10) Վենդորներն ու մատակարարման շղթան
BCP/DR պահանջները պայմանագրերում ՝ RTO/RPO, պարտադիր թեստեր, մրցույթի իրավունք և միասին ուսուցումներ։
Ենթահամակարգերի իրականացումը 'շփումներ, պլաններ ֆայլերի վրա, տվյալների կոդավորման/էքսպորտի հաստատումը boarding-ում։
Tier-1-ի Եժեքվարթական հեղափոխությունը 'միջադեպերը, DR-արձանագրությունները, հավաստագրերի կարգավիճակը, SLA-ն։
11) Ուսուցում, ուսուցում և փորձարկում
Tabletop անգամ թաղամասում 'PMS/KYC/ամպեր/կիբեր սցենարներ։
Այդ ուսուցումները 'DR մասնակի/ամբողջական; DDoS/CDN փոխակերպումը; Kill-switch MSK պրովայդերների։
Հաղորդակցական ուսուցումները 'մամուլի հաղորդագրություն/կարգավիճակ-թարմացում/կարգավորող նամակներ։
Հետադարձ հայացքներ ՝ թայմլին, RCA, CAPA, runbooks և BIA նորարարություն։
12) Մետրիկի (KPI/KRI)
RTO/RPO փաստը (Tier-1) համապատասխանում է 3695 տոկոսին։
MTTD/MTTR 'նվազեցման միտում; MTTR-ը կրիտիկական կոդեր է։
Ֆեյլերի հաջողությունը 'առանց տվյալների/պատվերների/պատվերների կորստի, X-ի դեգրադացիայի։
Coverage-ը '242 ամբողջական DR թեստեր/տարի + 4 tabletop։
Հաղորդակցություն 'ժամանակը մինչև առաջին դեղաչափը 15 րոպե է, հաճախականությունը կատարվում է քաղաքականության համաձայն։
Vendor resilience: Tier-1 մասնաբաժինը ապացուցված DR թեստերով 12 մեզի համար 100 տոկոսն է։
13) RACI (uprunic)
14) Չեկ թերթերը
14. 1 Ready-to-Failover
- IC/wendors/կարգավորողների իրական շփումները
- Վերարտադրողական առողջություն, PITR-bakap ստացիոնար PITR-bakap
- Ստուգված են kill-switch-ը MSK/webhuks-ի համար։
- Նախկին մենեջերը (GSLB/CDN) փորձարկված health-winks-ով
- Կարգավիճակի/նամակների և հրապարակման իրավունքի ձևանմուշները
- Runbooks և հասանելի (SSO/MFA) ստուգվում են ամեն ամիս։
14. 2 Հանդիպման ընթացքում
- Նշանակված IC, բացվում է war-room, լուծումների լոգոն սկսելը
- Դասակարգում (P1/P2), սցենարի և դեգրադացիայի ընտրություն։
- Techdagia (feilover/limits/2019)
- Առաջին հանրային ապդեյթը 15 րոպե է։
- Կարգավորող/գործընկերային ծանուցումներ SLA-ի վերաբերյալ
- Արտեֆակտների գրավումը հետպատերազմյան մորտեմի համար
14. 3 Դեպքից հետո
- Փոստի մորտը RCA և CAPA-ի հետ
- Նորարարված BIA/շեմեր/ռուտինային ընթացակարգեր
- Վերապատրաստում/ռետինե ֆիքսներ, բորի զեկույց
- Ֆինանսական/այս շրջանակը (reconciliation)
15) Ձևանմուշներ (բեկորներ)
15. 1 Սցենարի քարտը
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15. 2 Հաղորդագրություն կարգավիճակի վրա
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16) Փաստաթղթերի և տարբերակների կառավարում
BCP/Runbooks տարբերակումը ավանդակում, change-log-ում, փաստաթղթի սեփականատերը։
Վերանայման ժամանակը (Tier-1-ի համար), օֆլինի օրինակների հասանելիության վերահսկումը։
Ուսուցումների արտեֆակտների պահպանումը/108 և արդյունավետության մետրիկը։
17) Ճանապարհի քարտեզը (6-8 շաբաթ)
Շաբաթներ 1-2: BIA-ը և քննադատական գործընթացները, RTO/RPO նպատակները, ռուսական և սեփականատերերի ցանկը։
Շաբաթներ 3-4 'կայունության և քայքայման ռեժիմների ճարտարապետություն, runbooks, հաղորդակցման ձևանմուշներ, կոնտակտներ։
Հինգ-6 շաբաթ 'վենենդորների հետ ինտեգրումը (PMS/KYC/ամպային), փորձնական ուսուցումները (tabletop + մասնակի DR), ռուսական։
Շաբաթներ 7-8: ամբողջական DR թեստը (հնարավորության դեպքում), ուսուցումների զանգվածի ցիկլի արձակումը, բորդի զեկույցը և կարգավորող փաթեթը (եթե պահանջվում է)։
18) Կապված հատվածներ wiki
Ռիսկերի, միջադեպերի և արտահոսքերի իրականացումը, DR/BCP թեստերը, TPRM և SLA, CSO 27001/27701, SOC 2, PCI DSS, IGA/RBAC/Least Privilege, loge քաղաքականություն/WORM ORM - միասնական կայունության համար և ապացուցել։
TL; DR
WindoBCP = BIA www.RTO/RPO-ն պատրաստեց սցենարներ և դեգրադացիաներ multi-vendor/multi-տարածաշրջանը + պարզ Incident Command, հաղորդակցություն և ուսուցում։ Պահպանիր այդ փաստաթուղթը, կանոնավորաբար փորձիր, և նույնիսկ մեծ ձախողումը չի դադարի բիզնեսը և չի հարվածի ժողովներին։