Analiza operațională
1) Ce este analiza operațională și de ce este necesar
Operational Analytics (Ops Analytics) este un ansamblu de sistem de semnale de observabilitate (metrici/busteni/trasee), ITSM (incidente/probleme/modificări), CI/CD (versiuni/configurații), furnizori (PSP/KYC/CDN/Cloud), Finops (costuri) și SLS I (succesul plăților, înregistrarea), transformat în ferestre unice și tablouri de bord pentru luarea deciziilor.
Obiective:- reducerea MTTD/MTTR prin detectarea precoce și atribuirea corectă a cauzelor;
- să țină SLO-urile și bugetele de erori sub control;
- Modificări de link → impact (versiuni/configurații → SLI/SLO/reclamații/costuri)
- oferă analize de self-service echipelor și managementului.
2) Surse și stratul de date canonic
Telemetrie: metrici (SLI/resurse), busteni (sampling/PII edition), trasee (trace_id/span_id, etichete de lansare).
ITSM/Module incidente: SEV, marcaje temporale T0/Detected/Ack/Declared/Mitigated/Recovered, RCA/CAPA.
CI/CD & Config: versiuni, comite, canarics/blue-green, stare de pavilion, configurații țintă.
Furnizori: statusuri/SLA, întârzieri, coduri de eroare, greutăți ale traseului.
FinOps: cost după tag-uri/conturi/chiriași, $/unitate (1k opere.) .
DataOps: prospețimea ferestrei, erori DQ, descendență.
Principiul cheie este o singură corelație prin identificatori: „serviciu”, „regiune”, „chiriaș”, „release _ id',” change _ id', „incident _ id',” furnizor „,” trace _ id'.
3) Model unic de date (cadru simplificat)
dim_service(service_id, owner, tier, slo_targets…)
dim_time(ts, date, hour, tz)
dim_region(region_id, country, cloud)
dim_provider(provider_id, type, sla)
fact_sli(ts, service_id, region_id, tenant, metric, value, target, window)
fact_incident(incident_id, service_id, sev, t0, t_detected, t_ack, t_declared, t_mitigated, t_recovered, root_cause, trigger_id, burn_minutes)
fact_change(change_id, type(code config infra), service_id, region_id, started_at, finished_at, canary_pct, outcome(ok rollback), annotations)
fact_cost(ts, service_id, region_id, tenant, cost_total, cost_per_1k)
fact_provider(ts, provider_id, region_id, metric(latency error status), value)
fact_dq(ts, dataset, freshness_min, dq_errors)
4) SLI/SLO și măsurători de afaceri
Бизнес -SLI: 'payment _ success _ ratio', 'signup _ finalization', 'deposit _ latency'.
Тех -SLI: 'disponibilitate', 'http _ p95', 'error _ rate', 'coadă _ adâncime'.
Strat SLO: obiective + burn-rate (fereastră scurtă/lungă), adnotări automate ale încălcărilor.
Normalizare: indicatori pe 1k operațiuni/utilizatori/trafic de succes.
5) Corelații și atribuirea cauzelor
Versiuni/configurații ↔ SLI/SLO: adnotări pe grafice; rapoarte de cauză și efect (proporția incidentelor de schimbare; Incidente de modificare MTTR).
Furnizorii ↔ SLI de afaceri: greutăți ale rutelor vs latență/erori, contribuția fiecărui furnizor la ratarea SLO.
Capacitate/resurse ↔ latență - supraîncălzire piscină → impact de creștere → conversie p95.
6) Anomalii și prognoză
Detectarea anomaliilor: sezonalitate + praguri percentile + caracteristici de schimbare-căutare (înainte/după eliberare).
Prognoza: săptămânal/sezonier modele de încărcare, arde-out bugetul de eroare de prognoză, predicția costurilor ($/unitate).
Gardrails: alerte numai atunci când sursele de cvorum (sintetice + RUM + SLI de afaceri).
7) Vitrine și tablouri de bord (de referință)
1. Executive 28d: amestec SEV, mediană MTTR/MTTD, SLO aderență, $/unitate, motive de top.
2. SRE Ops: SLI/SLO + burn-rate, Page Storm, Actionable%, Schimbare Rata de eșec.
3. Schimbare Impact: lansează/configs ↔ SLI/SLO/reclamații, rollback-uri și efectul acestora.
4. Furnizori: linii de stare PSP/KYC/CDN, impact asupra SLI de afaceri, timpi de răspuns.
5. FinOps: cost per 1k txn, jurnale/ieșire, anomalii de costuri, recomandări (eșantionare, stocare).
6. DataOps: prospețimea ferestrei, erori DQ, SLA-uri de conducte, succes de rambursare.
8) Calitatea și guvernanța datelor
Contracte de evenimente: scheme clare pentru incidente/versiuni/SLI (câmpuri obligatorii, fusuri orare uniforme).
DQ-dame: completitudinea, unicitatea cheilor, consistența cronologică (t0≤detected≤ack...).
Linie: tablou de bord la sursă (trasabil).
PII/secrete: editare/mascare după politică; VIERME pentru dovezi.
SLA prospețime: Ops vitrine ≤ 5 min întârziere.
9) Analiza operațională a scadenței
Acoperire:% din serviciile critice din storefronturi și plăci SLO (obiectiv ≥ 95%).
Prospețime: ponderea widget-urilor cu prospețime ≤ 5 minute (țintă ≥ 95%).
Acționabilitate:% tranziție de la tabloul de bord la acțiune (playbook/SOP/bilet) ≥ 90%.
Acoperire de detectare: ≥ 85% din incidente sunt detectate prin automatizare.
Rata de atribuire: procentul de incidente cu cauză confirmată și declanșare ≥ 90%.
Cota de impact a schimbării: ponderea incidentelor legate de schimbări (controlul tendinței).
Calitatea datelor: erori DQ/săptămână → QoQ ↓.
10) Proces: de la date la acțiune
1. Colectarea → curățarea → normalizarea → de caz de afișare (ETL/ELT, strat caracteristică pentru ML).
2. Detectarea matricei/escaladarea → prognozei (IC/P1/P2/Comms).
3. Acțiune: playbook/SOP, poarta de lansare, pavilion caracteristică, comutator furnizor.
4. Dovezi și AAR/RCA: cronologie, grafice, link-uri către versiuni/jurnale/piese.
5. CAPA și soluții de produse: prioritizarea prin arderea minutelor și impactul $.
11) Exemple de interogare (idee)
11. 1 Impactul lansărilor asupra SLO (24h)
sql
SELECT r. change_id,
COUNT(i. incident_id) AS incidents,
SUM(i. burn_minutes) AS burn_total_min,
AVG(CASE WHEN i.root_cause='code' THEN 1 ELSE 0 END) AS code_ratio
FROM fact_change r
LEFT JOIN fact_incident i
ON i.trigger_id = r. change_id
WHERE r. started_at >= NOW() - INTERVAL '24 hours'
GROUP BY 1
ORDER BY burn_total_min DESC;
11. 2 Ponderea problemelor de la furnizori pe regiuni
sql
SELECT region_id, provider_id,
SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END) AS prov_inc,
COUNT() AS all_inc,
100. 0SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END)/COUNT() AS pct
FROM fact_incident
WHERE t0 >= DATE_TRUNC('month', NOW())
GROUP BY 1,2
ORDER BY pct DESC;
11. 3 Cost per 1k plăți reușite
sql
SELECT date(ts) d,
SUM(cost_total)/NULLIF(SUM(success_payments)/1000. 0,0) AS cost_per_1k
FROM fact_cost c
JOIN biz_payments b USING (ts, service_id, region_id, tenant)
GROUP BY d ORDER BY d DESC;
12) Modele artefact
12. 1 Diagrama evenimentelor incidente (JSON, fragment)
json
{
"incident_id": "2025-11-01-042",
"service": "payments-api",
"region": "eu",
"sev": "SEV-1",
"t0": "2025-11-01T12:04:00Z",
"detected": "2025-11-01T12:07:00Z",
"ack": "2025-11-01T12:09:00Z",
"declared": "2025-11-01T12:11:00Z",
"mitigated": "2025-11-01T12:24:00Z",
"recovered": "2025-11-01T12:48:00Z",
"root_cause": "provider",
"trigger_id": "chg-7842",
"burn_minutes": 18
}
12. 2 Catalog de valori (YAML, fragment)
yaml metric: biz. payment_success_ratio owner: team-payments type: sli target: 99. 5 windows: ["5m","1h","6h","28d"]
tags: [tier0, region:eu]
pii: false
12. 3 Carnet de raport executiv (secțiuni)
1) SEV mix and MTTR/MTTD trends
2) SLO adherence and burn-out risks
3) Change Impact (CFR)
4) Providers: Degradation and switchover
5) FinOps: $/unit, log anomalies/egress
6) CAPAs: Status and Deadlines
13) Instrumente și modele arhitecturale
Data Lake + DWH: strat „brut” pentru telemetrie, vitrine pentru soluții.
Stream-procesare: aproape în timp real SLI/burn-rate, caracteristici online pentru anomalii.
Feature Store: reutilizarea caracteristicilor (canar, sezonalitate, semnale furnizor).
Semantic Layer/Metric Store: Definiții metrice uniforme (SLO, MTTR...).
Controlul accesului: RBAC/ABAC, securitate la nivel de rând pentru chiriași/regiuni.
Catalog/Lineage: căutare, descrieri, dependențe, proprietari.
14) Liste de verificare
14. 1 Lansarea analizelor operaționale
- Dicționare aprobate SLI/SLO, SEV, motive, tipuri de schimbare.
- Diagrame de evenimente și fusul orar uniform.
- Conectori de telemetrie, ITSM, CI/CD, furnizori, facturare.
- Vitrine: SLI/SLO, Incidente, Modificări, Furnizori, FinOps.
- Sunt disponibile tablouri de bord Executive/SRE/Change/Provider.
- Alerte de cvorum și suprimarea sunt configurate pe ferestre de întreținere.
14. 2 Săptămânal Ops Review
- SEV tendințe, MTTR/MTTD, SLO ratează, arde minute.
- Modificarea impactului și CFR, starea rollback.
- Incidentele furnizorului și timpii de reacție.
- FinOps: $/unitate, anomalii jurnal/ieșire.
- Statutul CAPA, delincvențe, priorități.
15) Anti-modele
„Perete de grafice” fără a merge la acțiune.
Definiții diferite ale măsurătorilor pentru comenzi (fără strat semantic).
Lipsa adnotărilor de eliberare/fereastră - atribuirea slabă a cauzelor.
Orientare medie în loc de p95/p99.
Nu există normalizare pentru volum - serviciile mari „par mai rele”.
PII în jurnale/vitrine, deteriorarea retensiunii.
Date „stagnează” (> 5-10 min pentru widget-uri în timp real).
16) Foaie de parcurs de implementare (4-8 săptămâni)
1. Ned. 1: acorduri privind dicționarul de valori, scheme de evenimente, id-corelație; SLI/SLO și conexiune ITSM.
2. Ned. 2: Incidente/Modificări/Vitrine Furnizori, adnotări de lansare; Tablouri de bord executive și SRE.
3. Ned. 3: FinOps strat ($/unitate), ligament cu SLI; detectarea anomaliilor cu cvorum.
4. Ned. 4: self-service (strat semantic/magazin metric), catalog și descendență.
5. Ned. 5-6: prognoza de încărcare/cost, rapoarte către furnizori, casetă de prezentare CAPA.
6. Ned. 7-8: acoperire de ≥95% Tier-0/1, prospețime SLA ≤5 min, recenzii regulate Ops.
17) Linia de jos
Analiza operațională este o mașină de decizie: definiții uniforme ale metricii, storefronturi proaspete, atribuirea corectă a cauzelor și tranziții directe către playbook-uri și POS-uri. Într-un astfel de sistem, echipa detectează rapid și explică abaterile, evaluează cu precizie impactul lansărilor și furnizorilor, gestionează costurile și reduce sistematic riscul - iar utilizatorii primesc un serviciu stabil.