Tabloul de bord al controlului central
1) Scop și principii
Tabloul central de control (denumit în continuare CDU) este o fereastră unică pentru luarea deciziilor în operațiuni. Se agregă semnale de la telemetrie, ITSM, CI/CD, catalog de servicii, calendar de lucru și furnizori, transformându-le în widget-uri acționabile.
Principii:- SLO-first: top - țintă SLO și burn-rate de Tier-0/1.
- Un singur clic la acțiune: de la widget - la playbook/runbook sau bilet.
- Dicționar unificat: același SEV, statusuri, culori și praguri.
- Adnotări de evenimente: lansează/configs/windows pe toate graficele.
- Roluri și permisiuni: vederi personale (de gardă, IC, management).
- Zgomot redus - cvorum sursă, eliminare a duplicatelor și vânt.
2) Roluri și scenarii cheie
La apel (P1/P2): înțelegeți rapid „ce este pe” și deschideți playbook (≤1 click).
IC: declara SUV, începe război-cameră-mod, de control cadența de com-actualizări.
Release Manager: a se vedea porțile, progresul canar, pregătirea rollback.
Proprietar de service/produs: SLI de afaceri (succesul plăților/înregistrărilor), impactul caracteristicilor.
SRE/Platform: capacitate, autoscale, anomalii, pregătire DR.
FinOps: $/unitate, cheltuieli suplimentare, alerte bugetare.
Securitate/Juridic: postură, certificate cheie, ferestre de rotație, link-uri de audit WORM.
3) CDA Information Architecture
Raft de sus (panou erou):- SLO по Tier-0/1 (disponibilitate/latență/succes) с burn-rate 2- окна.
- Starea SEVR: incidente active și cronologia acestora.
- Starea de eliberare: canar/albastru-verde, porți active.
- Furnizori de semafoare (PSP/KYC/CDN).
- Ferestre de întreținere (acum/24h), card de suprimare.
- Capacitate: latență CPU/RAM/IO/queue-depth/p95 cu prognoza.
- FinOps: $/1k txn, cheltuieli zilnice vs buget, anomalii de volum jurnal.
- DataOps: prospețimea vitrinelor, conductele SLA, erorile DQ.
- Securitate: termen certificat, rotație secretă, vulnerabilități critice (vârstă/SLA).
- Corelații „eliberare ↔ SLO”, „furnizor ↔ eșec/latență”.
- Link-uri rapide: jurnale, trasee, bilete, playbook-uri, SOP, matrice de escaladare.
4) Widget-uri (set de referință)
1. SLO & Burn-rate
Arată SLI curent, țintă, și consumul de buget de eroare (1h/6h).
Acțiune: deschideți cartea de joc de degradare a serviciilor.
2. Incidente (panoul SEV)
Active/Recente, Declare/Comms Timers, IC/Comms Roluri.
Acțiune: deschidere cameră de război, șablon de actualizare, listă de verificare IC.
3. Versiuni/Configurări
Canare 1→5→25%, steaguri, rollback (buton/legătură SOP).
Adnotări: versiune, angajamente, autor.
4. Ferestre de întreținere
Servicii/regiuni actuale/viitoare, cu impact; mască de suprimare.
Acțiune: Coordonați notificările, activați gărzile SLO.
5. Capacitate/Autoscale
Prognoza de consum (Naive/AR), hotspot-card, warm-pool.
Acțiune: solicită cote/reguli de scară (PR pentru repo policy).
6. FinOps
$/unitate, top „scumpe” interogări/jurnale, zilnic arde vs buget.
Acțiune: deschideți raportul și recomandarea (jurnale de eșantionare, arhive).
7. Furnizori
Starea SLA/PSP/KYC/CDN, greutatea traseului, pregătirea pentru pliante.
Acțiune: comutați greutatea, șablonul de comunicare către parteneri.
8. Securitate
Certificate (≤30d), întârzieri în rotații, vulnerabilități (vârstă), evenimente suspecte.
Acțiune: deschide IR playbook/bilet.
9. DataOps
Prospețimea ferestrei, procentul de sărituri, defectarea conductei, DLQ.
Acțiune: Rambursare/carantină/transformare rollback.
5) State/culori/praguri (referință)
Verde: SLI în cadrul țintă, arde-rata <1 ×.
Amber: SLI degradează, arde-rată 1-2 ×, p95 creștere, dar există o soluție.
Roșu: încălcarea sau arderea predictivă <1h; deschide SEV-1/0.
Gri: suprimare, fără telemetrie (eroare sursă).
6) Adnotări și corelații
Statusurile release/config/window/provider sunt afișate pe grafice SLO.
Faceți clic pe marker → diff, autor, porți, Rollback/Folback/SOP buton.
În incident, cronologia este construită din adnotări și acțiuni ChatOps.
7) Surse de date și verificare
Telemetrie: metrici/trasee/busteni cu trace_id.
ITSM: Incidente/Probleme/Modificări (Statusuri/SLA).
CI/CD: versiuni, semnături, artefacte, teste.
Director de servicii/CMDB: proprietari, SLO, dependențe.
Calendar: ferestre de întreținere.
Furnizori: status-API + confirmări manuale (aterizare într-o vitrină separată).
FinOps: etichete de facturare/resurse, volume de jurnal, ieșire.
Controlul calității: cvorum, sonde duplicate, prospețime SLA, alerte la surse „proaste”.
8) Moduri de afișare
Cameră de război: aspect fix SLO/Incidente/Releases/Comms-timer.
Executive (28 zile): tendințe MTTR/MTTD/SEV mix, $/unitate, SLO-aderență.
De gardă: panoul compact „noapte” (modul întunecat, numere mari).
Multi-chiriaș/regiune: filtre de service/regiune/chiriaș; presetări.
9) Navigare și acțiuni (un singur clic)
Butoane: '/declare sev1 ', '/freeze', '/rollback ', '/status update', 'open playbook'.
Drill- ดาวn: SLO → grafic → busteni/trasee cu filtre preumplute (trace_id, release_id).
Partajare: instantaneu de panouri într-o pagină de bilet/stare.
10) Securitate, acces, audit
SSO/OIDC + RBAC/ABAC: roluri și scopuri (vizualizare/acțiune).
JIT/JEA: Acțiunea „periculoasă” este disponibilă numai cu o mărire temporară.
Audit de neschimbat: cine a apăsat ceea ce, care solicită/comenzi stânga.
Secretele: nu sunt afișate, doar link-uri către managerul secret.
11) Măsurători ale maturității CDU
Acționabilitate ≥ 90%: Clicurile conduc la acțiuni, nu doar la grafice.
Time-to-First-Action ≤ 2 min de la CCD în timpul SEV-1/0.
Proporția incidentelor în care CDU a fost o „sursă de adevăr” ≥ de 95%.
Prospețimea widget-urilor:% cu date „proaspete 5 minute”.
Acoperire:% din serviciile critice cu carduri SLO și adnotări de presă.
Zero-puncte oarbe: surse silențioase pentru săptămâna = 0.
12) Liste de verificare
Design
- Rolurile și scripturile sunt descrise (P1/P2/IC/Ć/FinOps/Security/DataOps).
- Dicționarul culoare/SEV/prag este consecvent.
- Surse de date cu cvorum și SLA-uri de prospețime.
- War-room/On-call/Executive machete.
- ChatOps/ITSM/CI/CD/CMDB Plan de integrare.
Funcționare
- Widget-uri trece linter (câmpuri obligatorii, proprietar, praguri).
- O dată pe săptămână - Escalation/Alert Review cu îmbunătățiri DPC.
- Instantanee incidente sunt atașate la AAR/RCA.
- Dark Mode/Mobile Duty Preset.
- Teste pentru surse „mute” și corectitudinea adnotărilor.
13) Șabloane (idei)
13. 1 Definiție widget (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 Card incident (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 Conexiune cu eliberarea
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 widget FinOps
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) Anti-modele
„Perete de grafice” fără acțiuni și cărți de joacă.
Diferite culori/praguri pe comenzi → confuzie în SEV.
Fără adnotări de eliberare/fereastră - corelație complexă de cauze.
Sursele duplicate fără cvorum sunt false Page/noise.
Secretele/cheile de pe panou - riscul de scurgere.
Randarea lentă (cererile/agregările nu sunt cache) - panourile nu sunt deschise în luptă.
15) Foaie de parcurs de implementare (4-8 săptămâni)
1. Ned. 1: colectarea cerințelor după roluri, dicționar de stări/culori, machete de trei moduri.
2. Ned. 2: SLO/Incidente/Releases/conexiune Windows, adnotări, acțiuni ChatOps.
3. Ned. 3: adăugați FinOps/Capacity/Providers/DataOps/Security, cvorumul surselor.
4. Ned. 4: modul de cameră de război, instantanee în ITSM, pilot pe Tier-0.
5. Ned. 5-6: optimizare a performanței, presetare mobilă/la apel, linter widget.
6. Ned. 7-8: măsurători ale maturității, revizuire săptămânală, recomandări automate (jurnale de eșantionare, cote, folback).
16) Linia de jos
CDU-urile nu sunt „grafice frumoase”, ci un panou de soluții: SLO și burn-rate de mai sus, incidente/versiuni/ferestre într-un singur context, acțiuni instantanee prin ChatOps și SOP, surse confirmate și adnotări. Acest tablou de bord reduce MTTA/MTTR, simplifică comunicațiile, acceptă FinOps și face operațiunea transparentă și previzibilă.