GH GambleHub

Դիտարկումը և վերահսկումը

1) Նպատակներն ու սկզբունքները

Նպատակը այն է, որ իրական ժամանակում հասկանալ «ինչ է կատարվում» և «ինչու», որպեսզի կանխեն միջադեպերը և արագ վերականգնվեն առանց SLO-ի խախտման և առանց OPEX-ի։

Սկզբունքները ՝ SLO-first, «ոսկե ազդանշաններ» (latency, traffic, errors, saturation), հեռուստացույցի մեկ տերմինալ (OpenTelemetry), նվազագույն բավարար մանրամասներ, բացատրություն, cost-aultiment։

2) Դիտարկման շերտերը

1. Մետրիկները ՝ SLI/SLO, capacity և միտումներ (RED/USE մոդելներ)։

2. Թրեյսները 'հարցումների պատճառահետևանքային շղթաներ, վճարային և խաղային գործարքներ։

3. Logs/ivents: Մանրամասն ենթատեքստը և օպերատորների/ծառայությունների գործողությունների աուդիտը։

4. Սինթետիկ (105-big) 'API/վեբ ուղիների արտաքին ստուգումներ, PSA/KYC hels-pings։

5. RUM (իրական օգտագործողը) 'առաջնագծային չափումներ (TTFB, LCP, JS սխալներ), գեյո/dewais seresa։

6. Ցածր մակարդակի հեռուստաչափություն ՝ eBPF/pupling CPU/IO/alloc, ցանցային պերցենտային ուշացումներ։

3) SLI և «ոսկե ազդանշաններ»

Latency: p50/p95/p99 կրիտիկական ճանապարհներով (լոգինը, դեպոզիտը, տոկոսադրույքը, եզրակացությունը)։

Errors: 5xx/timeout/decom մասնաբաժինը (պրովայդերների/բանկերի նորմալիզացիայի հետ)։

Traffic/Throughput: RPS/TPS, ակտիվ նստաշրջաններ, իրադարձություններ/վայրկյան։

Saturation: CPU/RAM/IO բեռնումը, գծերի խորությունը, pool-usage, replationlag։

Բիզնես-SLI 'հաջողակ դեպոզիտներ/տոկոսադրույքներ պատուհանի համար, KYC/PSA հակադարձման շեղումները, chargeback մասնաբաժինը։

4) Հեռուստատեսության ճարտարապետությունը

Ստանդարտացված ներարկումը 'OpenTelemetry MSK/collector-ը հաստատվում է նորմալիզացիայի, սեմպլինգի, privacy ֆիլտրերի համար (TSDB, հետքեր, լոգներ)։

Հարաբերակցություն ՝ trace-id/medid-id լոգարաններում և մետրերում (exemplars); միասնական www.relation-id վճարելու/խաղային իրադարձությունների համար։

Թրեգիա 'Մապա ծառայություն (No. graph), կախված արտաքին պրովայդերներ կենդանի SLI-ի հետ։

Արժեքի կառավարումը 'վերականգնման, ագրեգացիայի, դինամիկ սեմպլինգի, «տաք «/» սառը »պահեստավորման դասարանների մակարդակները։

5) Մետրիկի 'դիզայնը և կարդինալությունը

Կանոնները 'փոքր քանակությամբ պիտակներ, արգելք high-cardinality (userId, sessionid) Time-series-ում։ այս մանրամասները միայն ուղու/լոգայի մեջ են։

RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors ենթակառուցվածքի համար։

Exemplars: Բարձր տպիչների կապումը www.trace-ի հետ։

Բիզնես մետրիկները ՝ դոլար/RPS, PBS-ի փոխարկումը բանկերում/GEO, պրովայդերների համառությունը։

6) Թրեյսինգ ՝ խորություն և սեմպլինգ

Համատեքստն այն է, որ մենք գնում ենք trace ենթատեքստ ՝ API-ի ռազմաճակատի միջոցով։

Սեմպլինգը 'հիմնական 1-10 տոկոսը, անոմալիաների դեպքում' դինամիկ բարձրացում կանոններով (tail-based)։

Ֆոկուս 'հիբրիդային ֆլոուն (init no auth no capture/settle), խաղային գործարքները (bet notettle), KYC (init no verify)։

Սենսացիաներ ՝ PMS կոդը պատասխանը, bank-BIN/issuer-կատեգորիան, տարածքը, ռիսկի սկորը։

7) Լոգա և աուդիտ

Կառուցվածքային լոգները ՝ JSON, ալյումինի մակարդակը (RF երկարության վրա, DEBUG կարգաբերման մեջ)։

Գաղտնիության ֆիլտրերը 'PII դիմակավորում, KYC-ի հում փաստաթղթերի արգելք լոգարաններում։

Իրադարձությունները ցույց են տալիս, թե ով/ինչ/երբ/երբ, ID ticet, pre/post արժեքներ բարձր ռիսկային վիրահատությունների համար (բոնուսներ, սահմաններ, PMS-routing)։

Անփոխարինելիությունը 'WORM/immutable, ստորագրություն, քաղաքականության ռենտեն։

8) Պետության վերահսկումը (health)

Liveness/Readiness/Startup: ճիշտ փորձարկումներ (չտեսնել արտաքին կախվածությունը liveness)։

Degraded-mode-ը 'ակնհայտ դեգրադացիայի դրոշները, որպեսզի ալերտները և կարգավիճակի էջը համաձայնվեն։

Budget health: burn-rate սխալների բյուջեներ (արագ/դանդաղ պատուհան), headrope ռեսուրսներով և հերթերով։

9) Ալերտինգը և վաղ նախազգուշացումը

SLO-alerts: սխալների համաձայն (4-ժամյա և 1-ժամյա պատուհաններ) «հում» p95 փոխարեն։

Աննոմալիա: STL/IQR/առցանց դետեկտորները 5xx-ի աճի համար, PSA-ի հեղինակային իրավունքի անկումը ռուսական GEO/բանկում։

Root-cause hinae: Մենք կապում ենք ալերտները վերջին թողարկումների/ֆիչեֆլագների/պլանային աշխատանքների հետ։

Runbooks: Յուրաքանչյուր ալերտ ունի պլեյբուսի, գրաֆիկայի, արագ ստուգման ոսպնյակներ։

10) Դաշբորդները (ով և ինչ տեսնում)

Exec: aptaim/SLO, burn-rate, հաջողակ ավանդներ/տոկոսադրույքներ, պրովայդերների կարգավիճակ, տարաների կանխատեսում և/RPS դոլար։

SYE/պլատֆորմ ՝ RED/USE ծառայությունների, հերթերի/lag, pool-usage, replanslag, CDN/WAF, eBPF-puplails։

Payments/Risk: PMS/bank/GEO, som/hard declines, KYC ժամանակ, chargeback early-signals։

Supert/CS: կոդավորման կարգավիճակը, SLA պատասխանները, FAQ-մակրո։

11) Դիտարկման արժեքը (FinOps-Observability)

Retenshn: 7-14 օր «հում» հետքերի համար, ագրեգատները ավելի երկար, ընտրովի 'տաք ծառայություններ։

Սեմպլինգ/ագրեգացիա 'դինամիկ սեմպլինգ անոմալիաների, downsampling հին շարքերի վրա։

Ingest-քաղաքական գործիչները 'կրճատել աղմուկը (health-pingi, ավելցուկ լոգներ), քվոտաները high-cardinality մետրերի վրա։

KPI արժեքը ՝ դոլար/GB ingest, դոլար/trace, դոլար/SLI dashbord; առաջին հրշեջների պարբերական խանդավառությունը։

12) Գաղտնիությունը և կոմպլենսը

PII/ֆինանսներ 'դիմակավորում, թունավորում, տվյալների նվազեցում հեռուստատեսությունում։

Գեո-տեղայնացում 'պահպանումը և վերականգնումը իրավասության վրա։ Լոգ էքսպորտը միայն հաստատված workflow-ի միջոցով է ծածկագրերով և TTL-ով։

Հեռուստացույցի հասանելիության աուդիտը ՝ RBAC/ABAC, SoD բեռնման համար, հարցումների ամսագիր։

13) Ինտեգրումը կառավարման և թողարկումների հետ

Կարգավիճակ-էջ 'ապդեյթի ավտոմատ ֆիդ' պատահականության քարտից։

Ռելիզի գեյթ 'SLI-ի, Auto-stop-ի վերլուծություն burn-rate> շեմն է։

Post-mortem: timline/logs, իրական SLI և խախտման պատուհաններ։

14) Իրականացման գործնական մեթոդը (8-12 շաբաթ)

Մոսկվան։ 1-2: քննադատական ճանապարհների և SLI-ի բուլարիզացիան; ապակու ընտրություն (OTel, TSDB, լոգներ, հետքեր); կախվածության քարտեզը։

Մոսկվան։ 3-4 'OTel-ի ներդրումը 3-5 հիմնական ծառայություններում (լոգին/դեպոզիտ/տոկոսադրույք), հիմնական RED/USE, trace ենթատեքստը լոգներում։

Մոսկվան։ 5-6: SLO և burn-rate-alerta; սինթետիկ PFC/KYC; առաջին runbooks; RUM վեբ/www.le։

Մոսկվան։ 7-8: դինամիկ սեմպլինգ, exemplars, mapa ծառայություն; dashbords Exec/MSE/Payments։

Մոսկվան։ 9-10: eBPF/տաք նեղ վայրերի պրոֆիլինգ; privacy ֆիլտրեր; քվոտաներ/ռետենզիաներ։

Մոսկվան։ 11-12 'SLI-ում ռելիզի խաղացողներ և auto-rollback; ինտեգրումը դիրքի հետ; tabletop ուսուցում։

15) Արտեֆակտների օրինակները

SLO քարտեզը նշվում է ՝ SLI, նպատակներ, պատուհաններ, սխալների բյուջե, ալտերեր։

Alts Spec: metrika/պայման, շեմեր, dedup/silens, ստացողներ, runbook։

Dashboard Spec 'լսարան, հարցեր, 6-8 վիջեթ, տվյալների աղբյուրը, նորարարության հաճախականությունը։

Telemetry Policy: Ո՞ ր դաշտերն են թույլատրելի/արգելված, rentenshn, դիմակավորում, էքսպորտ։

Cost Review Pack: Լավագույն շարքը/լոգ հոսքերը, sempling/TTL առաջարկը, ակնկալելի խնայողություն։

16) KPI դիտարկման գործառույթը

MTTA/MTTR (բարելավումը SLO-ալերտինգի ներդրումից հետո)։

սինթետիկ/SLI-ի հայտնաբերված բջիջների% մինչև օգտագործողների բողոքները։

SLI-ի խաղացողների մասնաբաժինը առանց ձեռքի միջամտության։

Դոլարի/RPS-ի նվազումը հեռուստատեսության վրա, երբ պահպանվում է ախտորոշումը։

Կրիտիկական ճանապարհների ուղու ծածկումը (> 90%)։

«Ապդեյթ կարգավիճակի դիրքի ճշգրտությունը հաստատվում է իրական SLI»։

17) Անտիպատերնի

«Ամեն ինչ տրամաբանական է», արժեքի պայթյուն և աղմուկ։

Alerts-ը SLO/burn-rate-pager-fatigue-ի փոխարեն։

Բարձր կարդինալությունը (userId) TSDB փոթորիկներ է։

Առանց բիզնեսի ենթատեքստի (PBS/Bank/GEO) ոչ մի ինսայթ չկա։

Ոչ մի կապ չկա ռելիզների/միջադեպերի հետ ռուսական հեռաչափությունը ապրում է առանձին։

Արդյունքը

Պետության դիտարկումը և վերահսկումը ոչ թե գործիքների հավաքածու են, այլ կառավարվող համակարգ 'ճիշտ SLI/SLO ստանդարտ հեռաչափություն և SLO-alerting-ի և runbooks-ի հարաբերակցությունը, որը կապված է թողարկումների հետ ինտեգրման և wwww.cost-alection-ի հետ։ Այս պարամետրը տալիս է վաղ ազդանշաններ, արագ RCA և բիզնեսի կայունություն նույնիսկ ծայրահեղ գագաթնակետներում։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։