Կենտրոնական կառավարման դաշբորդ
1) Նշանակումներ և սկզբունքներ
Կառավարման կենտրոնական տաշբորդը (հետո CDU) միասնական պատուհան է վիրահատության որոշումների կայացման համար։ Այն համախմբում է ազդանշանները հեռուստացույցից, ITSM, CI/CD, ծառայություններից, աշխատանքի օրացույցից և պրովայդերներից, վերածելով դրանք գործող (actionable) տեսակների։
Սկզբունքները
SLO-first 'վերևում - SLO և burn-rate Tier-0/1։
One-click to action 'vizhet- ից' պլեյբուկ/runbook կամ ticet։
Մեկ բառարան 'նույն SEV, արձաններ, գույներ և շեմեր։
Իրադարձությունների նույնականացումները 'ալյումինե/ալյումինե/պատուհաններ բոլոր գրաֆիկներում։
Դերերն ու լուծումները 'անձնական ներկայացումներ (on-call, IC, ղեկավարություն)։
Ցածր աղմուկ 'աղբյուրների քվորում, դեդուպլիկացիա և պատուհանների վրա ճնշում։
2) Դերեր և հիմնական սցենարներ
On-call (P1/P2): արագ հասկանալ «ինչ է այրվում» և բացել պլեյբուկը (361 կլիկ)։
IC 'հայտարարել SEV, սկսել war-room ռեժիմը, վերահսկել cadence comm-apdeits-ը։
Releant Tramp: Տեսնել խաղացողներ, կանարյան առաջընթաց, արձագանքման պատրաստակամություն։
Media Owner/Wint: բիզնես SLI (վճարման/գրանցման հաջողությունը), ֆիչի ազդեցությունը։
MSE/Platform 'հզորություն, ավտո սկեյլ, անոմալիա, DR պատրաստակամություն։
FinOps: դոլար/միավոր, թռիչքներ, www.allerts։
Express/Legal: Posture, հիմնական հավաստագրեր, հաշվարկների պատուհաններ, WORM-աուդիտ հղումներով։
3) CDU տեղեկատվական ճարտարապետությունը
Վերին զանգվածը (hero-վահանակ)
SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
SEV կարգավիճակը 'ակտիվ պատահարներ և նրանց թայմլինը։
Առյուծների կարգավիճակը 'կանարեյկա/blue-green, ակտիվ խաղերը։
«Traffic lights» պրովայդերներ (PMS/KYC/CDN)։
Միջին ֆորումը (վիրահատական)
Ծառայության պատուհանները (հիմա/105 ժամ), supression քարտեզը։
Հզորություն ՝ CPU/RAM/IO/queue-depth/p95 latency կանխատեսմամբ։
FinOps: դոլար/1k txn, օրվա սպենդը vs բյուջե, log-2019 անոմալիա։
Intel Ops: Vitrine, SLA plines, DQ սխալներ։
Մոսկվա 'հավաստագրերի ժամանակահատվածը, գաղտնիքների հաշվարկումը, կրիտիկական խոցելիությունները (age/SLA)։
Ներքևի տրամագիծը (ախտորոշում/driple-novice)
Հարաբերակցությունը «SLO-ի թողարկումը», «պրովայդերը հաստատեց մերժումը/լատենտությունը»։
Արագ հղումները 'լոգներ, թրեյսներ, հյուսետներ, պլեյբուսներ, SOP, շարժասանդուղքների մատրիցներ։
4) Վիջետները (հանրաքվեների հավաքածու)
1. SLO & Burn-rate
Ցույց է տալիս SLI-ի արտադրանքը, նպատակը և սպառումը սխալների բյուջեի (1ch/6h)։
Գործողություն 'բացել դեգրադացիայի պլեյբուկը։
2. Միջադեպերը (SEV վահանակ)
Ակտիվ/վերջին, Declare/Comics-ի թայմերը, IC/Comics դերերը։
Գործողություն 'բացել war-room, excapdeit, IC չեկ թերթ։
3. Aleksands/Georgy
Կանարեյկա 1-5-25 տոկոսը, դրոշները, արձագանքը (կոճակը/հղում SOP)։
Սենսացիաներ 'տարբերակը, համայնքները, հեղինակը։
4. Ծառայության պատուհաններ
Մոսկվա/գալիք, impacted ծառայություններ/տարածաշրջաններ; supression դիմակ։
Գործողություն 'համաձայնեցնել ծանուցումները, ներառել SLO պահակները։
5. Հզորություն/Autskayl
Սպառման կանխատեսումը (Naive/AR), հյուրանոցային քարտեզը, warm-pool։
Գործողություն 'քվոտաների/սկեյլ կանոնների հարցում (PR repo-քաղաքական)։
6. FinOps
/ մեկ դոլար, լավագույն «թանկ» հարցումները/logs, daily burn vs budget։
Գործողություն 'բացել զեկույցը և նկարագրությունը (յոթ հատորներ, արխիվներ)։
7. Պրովայդերներ
SLA/PMS/KYC/CDN կարգավիճակը, երթուղիների քաշը, ֆոլբեքի պատրաստվածությունը։
Գործողություն 'փոխակերպել քաշը, ձևանմուշները։
8. Security
Հավաստագրեր (թիվ 30d), հաշվարկների, խոցելիության (age), կասկածելի իրադարձություններ։
Գործողություն 'բացել IR pleybuk/ticet։
9. DataOps
Թարմ վիտրինը, բացթողման տոկոսը, հրաժարվելը, DLQ-ը։
Գործողություն 'բեքֆիլլ/կարանտին/rollback փոխակերպում։
5) Վիճակ/գույներ/շեմեր (ստանդարտ)
Green: SLI նպատակի սահմաններում, burn-rate <1։
Amber: SLI-ն բաժանում է, burn-rate 1-2 ռուբլիներ, p95 աճը, բայց workaround-ը։
Red: breach կամ կանխատեսելի burn-out <1h; ԲԱՑԵԼ SEV-1/0։
Grey: suppression (պատուհան), ոչ հեռուստատեսություն (աղբյուրի սխալ)։
6) Իմիտացիա և հարաբերակցություն
Ռելիզը/www.g/պատուհանը/պրովայդերական արձանները ցուցադրվում են SLO գրաֆերում։
Click marker wwww.diff, հեղինակը, խաղացողները, կոճակը «Repat/Folbek/SOP»։
Պատահականության մեջ թայմլայնը կառուցվում է ChatOps-ի անուններից և գործողություններից։
7) Տվյալների աղբյուրները և հավատալիքները
Telemetria: metrics/treiss/logs trace _ id։
ITSM: միջադեպեր/խնդիրներ/փոփոխություններ (կարգավիճակներ/SLA)։
CI/CD: սուլֆատներ, ստորագրություններ, արտեֆակտներ, թեստեր։
Ծառայությունների կատալոգը/CMDB 'սեփականատերերը, SLO, կախվածությունը։
Օրացույց 'ծառայության պատուհաններ։
Պրովայդերներ 'կարգավիճակ-API + ձեռքով ապացույցներ (վայրէջք դեպի առանձին պատուհան)։
FinOps: բիլինգ/ռեսուրսների թեգեր, լոգ ծավալներ, egress։
Որակի վերահսկումը 'քվորումը, կրկնօրինակող զոնդերը, SLA թարմությունը, ալերտները «լուռ» աղբյուրների վրա։
8) Ցուցադրման ռեժիմները
War-room: ֆիքսված SLO/Incidents/Releases/Comics-թայմեր։
Executive (28 օր) 'MTTR/MTTD/SEV mix, դոլար/, SLO-adgerens։
On-cal. կոմպակտ «գիշերային» վահանակ (մութ ռեժիմ, մեծ թվեր)։
Multi-tenant/տարածք 'ֆիլտրեր www./region/ten.ru; ճնշում են։
9) Ռոտացիան և գործողությունները (one-click)
Կոճակներ ՝ «/declare sev1 », «/freeze», «/rollback », «/status corate», «բացել pleybuk»։
Dronl-international: SLO-ն բացատրում է Loga/treiss-ի գրաֆիկը նախածննդյան ֆիլտրերով (trace _ id, releport _ id)։
Շարինգ 'Snepshot-ը տեղադրված է ticet/կարգավիճակ-էջի մեջ։
10) Անվտանգություն, հասանելի, աուդիտ
SSO/OIDC + RBAC/ABAC 'դերեր և սկուտերներ (108/action)։
JIT/JLS: Գործողությունը «վտանգավոր» հասանելի է միայն ժամանակավոր պայմաններով։
Աուդիտը անփոփոխ է 'ով է սեղմել, թե ինչ հարցումներ/թիմեր են գնացել։
Գաղտնիքները 'չեն ցուցադրվում, միայն հղումները գաղտնիքների ղեկավարին։
11) CDU հասունության մետրերը
Actionability-ը 90 տոկոսն է, որ կլիկները գործում են, և ոչ միայն սահմաններին։
Time-to-First-Action 242 րոպե CDU-ից SEV-1/0-ում։
Միգրանցների մասնաբաժինը, որտեղ CDU-ն «ճշմարտության աղբյուրն» էր 3,95 տոկոսը։
Freshness Vights: %, որն ունի «5 րոպե» տվյալները։
Coverage: կրիտիկական ծառայությունների տոկոսը, որոնք ունեն SLO քարտեր և օրինագծեր։
Zero-blind-spots: Շաբաթվա ընթացքում «ներքևի» աղբյուրները = 0։
12) Չեկ թերթերը
Նախագծումը
- Դերերը և սցենարները նկարագրված են (P1/P2/IC/Exec/FinOps/WindoOps)։
- Ծաղիկների բառարանը/SEV/շեմն համաձայնեցված է։
- Քվորումի և SLA-ի տվյալների աղբյուրները թարմ են։
- War-room/On-call/Executive։
- ChatOps/ITSM/CI/CD/CMDB պլանը։
Վիրահատություն
- Վիջետները անցնում են ոսպնյակների (պարտադիր դաշտեր, օուներ, շեմեր)։
- Շաբաթը մեկ անգամ Escalation/Alts Review-ը CDU բարելավումներով։
- Դիպուկահարները կիրառվում են AAR/RCA-ում։
- Մութ ռեժիմը/բջջային ճնշում է հերթապահության համար։
- Աղբյուրների «լուռ» թեստերը և ծանոթությունների ճիշտությունը։
13) Ձևանմուշներ (գաղափարներ)
13. 1 Վիջետի սահմանումը (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 քարտը (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 Կապ վերանորոգման հետ
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 Viget FinOps
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) Anti-patterna
«Գրաֆիկների պատը» առանց գործողությունների և պլեյբուսների։
Տարբեր գույներ/նախադրյալներ են SEV-ում։
Օրինագծերի/պատուհանների ծանոթություններ չկան, պատճառների բարդ հարաբերակցությունը։
Կրկնվող աղբյուրները առանց կվորումի կեղծ Page/աղմուկ են։
Վահանակի գաղտնիքները/բանալիները արտահոսքի վտանգն են։
Դանդաղ ռենդերը (ոչ թե հարցումներ/ագրեգացիաներ), վահանակները չեն բացում մարտում։
15) Ճանապարհի քարտեզը (4-8 շաբաթ)
1. Մոսկվան։ 1։ Հավաքելով պահանջներ դերերի, կարգավիճակների/գույների բառարանի, երեք ռեժիմների մոդելներ։
2. Մոսկվան։ 2: SLO/Incidents/Releases/Windows, սենսացիա, ChatOps գործողություններ։
3. Մոսկվան։ 3: ավելացնելով FinOps/Capacity/Providers/WindoOps/Windows, աղբյուրների կվորումը։
4. Մոսկվան։ 4: War-room ռեժիմը, ITSM-ում, Tier-0 օդաչուն։
5. Մոսկվան։ 5-6 'արտադրողականության օպտիմիզացումը, բջջային/on-call ճնշումը, վիջեթների ոսպնյակները։
6. Մոսկվան։ 7-8 'հասունություն, շաբաթական ակնարկ, ավտոմատ առաջարկություններ (յոթ հատորներ, քվոտաներ, ֆոլբեկ)։
16) Արդյունքը
CDU-ն ոչ թե «գեղեցիկ գծապատկերներ» է, այլ լուծումների վահանակ 'SLO և burn-rate վերևում, միջադեպերը/պատուհանները մեկ կոնտեքստում, ակնթարթային գործողությունները ChatOps-ի և SOP-ի միջոցով, որոնք ապացուցված են աղբյուրների և ծանոթությունների միջոցով։ Այս տաշբորդը նվազեցնում է MTTA/MTTR-ը, պարզեցնում հաղորդակցությունները, աջակցում FinOps-ը և դարձնում է թափանցիկ և կանխատեսելի։