Դիտարկումը և վերահսկումը
1) Նպատակներն ու սկզբունքները
Նպատակը այն է, որ իրական ժամանակում հասկանալ «ինչ է կատարվում» և «ինչու», որպեսզի կանխեն միջադեպերը և արագ վերականգնվեն առանց SLO-ի խախտման և առանց OPEX-ի։
Սկզբունքները ՝ SLO-first, «ոսկե ազդանշաններ» (latency, traffic, errors, saturation), հեռուստացույցի մեկ տերմինալ (OpenTelemetry), նվազագույն բավարար մանրամասներ, բացատրություն, cost-aultiment։
2) Դիտարկման շերտերը
1. Մետրիկները ՝ SLI/SLO, capacity և միտումներ (RED/USE մոդելներ)։
2. Թրեյսները 'հարցումների պատճառահետևանքային շղթաներ, վճարային և խաղային գործարքներ։
3. Logs/ivents: Մանրամասն ենթատեքստը և օպերատորների/ծառայությունների գործողությունների աուդիտը։
4. Սինթետիկ (105-big) 'API/վեբ ուղիների արտաքին ստուգումներ, PSA/KYC hels-pings։
5. RUM (իրական օգտագործողը) 'առաջնագծային չափումներ (TTFB, LCP, JS սխալներ), գեյո/dewais seresa։
6. Ցածր մակարդակի հեռուստաչափություն ՝ eBPF/pupling CPU/IO/alloc, ցանցային պերցենտային ուշացումներ։
3) SLI և «ոսկե ազդանշաններ»
Latency: p50/p95/p99 կրիտիկական ճանապարհներով (լոգինը, դեպոզիտը, տոկոսադրույքը, եզրակացությունը)։
Errors: 5xx/timeout/decom մասնաբաժինը (պրովայդերների/բանկերի նորմալիզացիայի հետ)։
Traffic/Throughput: RPS/TPS, ակտիվ նստաշրջաններ, իրադարձություններ/վայրկյան։
Saturation: CPU/RAM/IO բեռնումը, գծերի խորությունը, pool-usage, replationlag։
Բիզնես-SLI 'հաջողակ դեպոզիտներ/տոկոսադրույքներ պատուհանի համար, KYC/PSA հակադարձման շեղումները, chargeback մասնաբաժինը։
4) Հեռուստատեսության ճարտարապետությունը
Ստանդարտացված ներարկումը 'OpenTelemetry MSK/collector-ը հաստատվում է նորմալիզացիայի, սեմպլինգի, privacy ֆիլտրերի համար (TSDB, հետքեր, լոգներ)։
Հարաբերակցություն ՝ trace-id/medid-id լոգարաններում և մետրերում (exemplars); միասնական www.relation-id վճարելու/խաղային իրադարձությունների համար։
Թրեգիա 'Մապա ծառայություն (No. graph), կախված արտաքին պրովայդերներ կենդանի SLI-ի հետ։
Արժեքի կառավարումը 'վերականգնման, ագրեգացիայի, դինամիկ սեմպլինգի, «տաք «/» սառը »պահեստավորման դասարանների մակարդակները։
5) Մետրիկի 'դիզայնը և կարդինալությունը
Կանոնները 'փոքր քանակությամբ պիտակներ, արգելք high-cardinality (userId, sessionid) Time-series-ում։ այս մանրամասները միայն ուղու/լոգայի մեջ են։
RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors ենթակառուցվածքի համար։
Exemplars: Բարձր տպիչների կապումը www.trace-ի հետ։
Բիզնես մետրիկները ՝ դոլար/RPS, PBS-ի փոխարկումը բանկերում/GEO, պրովայդերների համառությունը։
6) Թրեյսինգ ՝ խորություն և սեմպլինգ
Համատեքստն այն է, որ մենք գնում ենք trace ենթատեքստ ՝ API-ի ռազմաճակատի միջոցով։
Սեմպլինգը 'հիմնական 1-10 տոկոսը, անոմալիաների դեպքում' դինամիկ բարձրացում կանոններով (tail-based)։
Ֆոկուս 'հիբրիդային ֆլոուն (init no auth no capture/settle), խաղային գործարքները (bet notettle), KYC (init no verify)։
Սենսացիաներ ՝ PMS կոդը պատասխանը, bank-BIN/issuer-կատեգորիան, տարածքը, ռիսկի սկորը։
7) Լոգա և աուդիտ
Կառուցվածքային լոգները ՝ JSON, ալյումինի մակարդակը (RF երկարության վրա, DEBUG կարգաբերման մեջ)։
Գաղտնիության ֆիլտրերը 'PII դիմակավորում, KYC-ի հում փաստաթղթերի արգելք լոգարաններում։
Իրադարձությունները ցույց են տալիս, թե ով/ինչ/երբ/երբ, ID ticet, pre/post արժեքներ բարձր ռիսկային վիրահատությունների համար (բոնուսներ, սահմաններ, PMS-routing)։
Անփոխարինելիությունը 'WORM/immutable, ստորագրություն, քաղաքականության ռենտեն։
8) Պետության վերահսկումը (health)
Liveness/Readiness/Startup: ճիշտ փորձարկումներ (չտեսնել արտաքին կախվածությունը liveness)։
Degraded-mode-ը 'ակնհայտ դեգրադացիայի դրոշները, որպեսզի ալերտները և կարգավիճակի էջը համաձայնվեն։
Budget health: burn-rate սխալների բյուջեներ (արագ/դանդաղ պատուհան), headrope ռեսուրսներով և հերթերով։
9) Ալերտինգը և վաղ նախազգուշացումը
SLO-alerts: սխալների համաձայն (4-ժամյա և 1-ժամյա պատուհաններ) «հում» p95 փոխարեն։
Աննոմալիա: STL/IQR/առցանց դետեկտորները 5xx-ի աճի համար, PSA-ի հեղինակային իրավունքի անկումը ռուսական GEO/բանկում։
Root-cause hinae: Մենք կապում ենք ալերտները վերջին թողարկումների/ֆիչեֆլագների/պլանային աշխատանքների հետ։
Runbooks: Յուրաքանչյուր ալերտ ունի պլեյբուսի, գրաֆիկայի, արագ ստուգման ոսպնյակներ։
10) Դաշբորդները (ով և ինչ տեսնում)
Exec: aptaim/SLO, burn-rate, հաջողակ ավանդներ/տոկոսադրույքներ, պրովայդերների կարգավիճակ, տարաների կանխատեսում և/RPS դոլար։
SYE/պլատֆորմ ՝ RED/USE ծառայությունների, հերթերի/lag, pool-usage, replanslag, CDN/WAF, eBPF-puplails։
Payments/Risk: PMS/bank/GEO, som/hard declines, KYC ժամանակ, chargeback early-signals։
Supert/CS: կոդավորման կարգավիճակը, SLA պատասխանները, FAQ-մակրո։
11) Դիտարկման արժեքը (FinOps-Observability)
Retenshn: 7-14 օր «հում» հետքերի համար, ագրեգատները ավելի երկար, ընտրովի 'տաք ծառայություններ։
Սեմպլինգ/ագրեգացիա 'դինամիկ սեմպլինգ անոմալիաների, downsampling հին շարքերի վրա։
Ingest-քաղաքական գործիչները 'կրճատել աղմուկը (health-pingi, ավելցուկ լոգներ), քվոտաները high-cardinality մետրերի վրա։
KPI արժեքը ՝ դոլար/GB ingest, դոլար/trace, դոլար/SLI dashbord; առաջին հրշեջների պարբերական խանդավառությունը։
12) Գաղտնիությունը և կոմպլենսը
PII/ֆինանսներ 'դիմակավորում, թունավորում, տվյալների նվազեցում հեռուստատեսությունում։
Գեո-տեղայնացում 'պահպանումը և վերականգնումը իրավասության վրա։ Լոգ էքսպորտը միայն հաստատված workflow-ի միջոցով է ծածկագրերով և TTL-ով։
Հեռուստացույցի հասանելիության աուդիտը ՝ RBAC/ABAC, SoD բեռնման համար, հարցումների ամսագիր։
13) Ինտեգրումը կառավարման և թողարկումների հետ
Կարգավիճակ-էջ 'ապդեյթի ավտոմատ ֆիդ' պատահականության քարտից։
Ռելիզի գեյթ 'SLI-ի, Auto-stop-ի վերլուծություն burn-rate> շեմն է։
Post-mortem: timline/logs, իրական SLI և խախտման պատուհաններ։
14) Իրականացման գործնական մեթոդը (8-12 շաբաթ)
Մոսկվան։ 1-2: քննադատական ճանապարհների և SLI-ի բուլարիզացիան; ապակու ընտրություն (OTel, TSDB, լոգներ, հետքեր); կախվածության քարտեզը։
Մոսկվան։ 3-4 'OTel-ի ներդրումը 3-5 հիմնական ծառայություններում (լոգին/դեպոզիտ/տոկոսադրույք), հիմնական RED/USE, trace ենթատեքստը լոգներում։
Մոսկվան։ 5-6: SLO և burn-rate-alerta; սինթետիկ PFC/KYC; առաջին runbooks; RUM վեբ/www.le։
Մոսկվան։ 7-8: դինամիկ սեմպլինգ, exemplars, mapa ծառայություն; dashbords Exec/MSE/Payments։
Մոսկվան։ 9-10: eBPF/տաք նեղ վայրերի պրոֆիլինգ; privacy ֆիլտրեր; քվոտաներ/ռետենզիաներ։
Մոսկվան։ 11-12 'SLI-ում ռելիզի խաղացողներ և auto-rollback; ինտեգրումը դիրքի հետ; tabletop ուսուցում։
15) Արտեֆակտների օրինակները
SLO քարտեզը նշվում է ՝ SLI, նպատակներ, պատուհաններ, սխալների բյուջե, ալտերեր։
Alts Spec: metrika/պայման, շեմեր, dedup/silens, ստացողներ, runbook։
Dashboard Spec 'լսարան, հարցեր, 6-8 վիջեթ, տվյալների աղբյուրը, նորարարության հաճախականությունը։
Telemetry Policy: Ո՞ ր դաշտերն են թույլատրելի/արգելված, rentenshn, դիմակավորում, էքսպորտ։
Cost Review Pack: Լավագույն շարքը/լոգ հոսքերը, sempling/TTL առաջարկը, ակնկալելի խնայողություն։
16) KPI դիտարկման գործառույթը
MTTA/MTTR (բարելավումը SLO-ալերտինգի ներդրումից հետո)։
սինթետիկ/SLI-ի հայտնաբերված բջիջների% մինչև օգտագործողների բողոքները։
SLI-ի խաղացողների մասնաբաժինը առանց ձեռքի միջամտության։
Դոլարի/RPS-ի նվազումը հեռուստատեսության վրա, երբ պահպանվում է ախտորոշումը։
Կրիտիկական ճանապարհների ուղու ծածկումը (> 90%)։
«Ապդեյթ կարգավիճակի դիրքի ճշգրտությունը հաստատվում է իրական SLI»։
17) Անտիպատերնի
«Ամեն ինչ տրամաբանական է», արժեքի պայթյուն և աղմուկ։
Alerts-ը SLO/burn-rate-pager-fatigue-ի փոխարեն։
Բարձր կարդինալությունը (userId) TSDB փոթորիկներ է։
Առանց բիզնեսի ենթատեքստի (PBS/Bank/GEO) ոչ մի ինսայթ չկա։
Ոչ մի կապ չկա ռելիզների/միջադեպերի հետ ռուսական հեռաչափությունը ապրում է առանձին։
Արդյունքը
Պետության դիտարկումը և վերահսկումը ոչ թե գործիքների հավաքածու են, այլ կառավարվող համակարգ 'ճիշտ SLI/SLO ստանդարտ հեռաչափություն և SLO-alerting-ի և runbooks-ի հարաբերակցությունը, որը կապված է թողարկումների հետ ինտեգրման և wwww.cost-alection-ի հետ։ Այս պարամետրը տալիս է վաղ ազդանշաններ, արագ RCA և բիզնեսի կայունություն նույնիսկ ծայրահեղ գագաթնակետներում։