GH GambleHub

Վիրահատություններ և Metrika արտադրողականության կառավարման

Արտադրողականության մետրերը

1) Ինչո՞ ւ է անհրաժեշտ արտադրողականության չափումները

Արտադրողականությունն այն է, որ համակարգի կարողությունն է ապահովել SLO-ի վերադարձի ժամանակը և կարողությունը տվյալ արժեքով։ Առանց մետրիկի անհնար է

հայտնաբերել դեգրադացիաներ մինչև վերջը,

կանխատեսել կարողություններ և բյուջե,

համեմատել այլընտրանքային լուծումները (cash vs BD, gRPC vs REST),

կառավարել ռեգրեսիաները ածխաջրածիններից հետո։

Սկզբունքները ՝ մեկ բառարան, պերցենտիլների համադրումը (p50/p90/p95/p99), «տաք» և «սառը» ճանապարհների առանձին տարբերակը, ենթատեքստը (տարբերակը, տարածաշրջանը, պրովայդերը, սարքը)։

2) Taksonomia metric

2. 1 Հիմնական SYE շրջանակ

Չորս ոսկե ազդանշաններ ՝ Latency, Traffic, Errors, Saturation։

RED (միկրովայրցիների համար) 'Rate, Errors, Duration։

USE (երկաթի համար) 'Utilization, Saturation, Errors։

2. 2 Մակարդակներ

Ենթակառուցվածքը ՝ CPU, RAM, սկավառակ, ցանց, բեռնարկղեր, հյուրանոցներ։

Պլատֆորմ/Ծառայություններ 'API-endpoints, հերթեր, քաշներ, BD, իրադարձությունների անվադողեր։

Հաճախորդի փորձը 'Web Vitals, բջջային SDK, striming, CDN։

Ամսաթիվը 'ETL/ELT, սթրիմներ, վիտրիններ, BI ուշացումներ։

Բիզնես կրիտիկական ֆլոդը 'հեղինակային, KYC, դեպոզիտներ/վճարումներ, խաղային փուլեր։

3) Հիմնական մետրերի և բանաձևերի կատալոգը

3. 1 API և միկրովայրկյաններ

RPS (Requests per second).

Latency p50/p95/p99 (1922) - ցանկալի է «end-to-end» և «backend-only»։

Error Rate (%) = 5xx + վալիդացված 4xx/բոլոր հարցումները։

Saturation: Workers-ի միջին երկարությունը, «in-flight» հարցումները։

Cold Start Rate-ը (FaaS-ի համար)։

Throttling/Dropped Requests.

SLO օրինակ ՝ p95 latency 24250 ռուբլիներ RPS-ի տակ մինչև 2k EU-East տարածաշրջանում; սխալները 0։ 5%.

3. 2 Տվյալների հիմքեր

QPS/Transactions/s, avg/median query time, p95 query time.
Lock Waits / Deadlocks, Row/Index Hit Ratio, Buffer Cache Miss%.

RepLag (կրկնօրինակումը), Sykpoint/Flush Time, Autovacuum lag։

Hot Keys/Skew-ը բեռի առաջին N կոդն է։

«Միջուկի հարցման» բանաձևը ՝ QPS/vCPU _ բանաձև _ count-ի ազդանշանը շարդիզացիայի համար։

3. 3 Քաշ և CDN

Hit Ratio (%), Evictions/s, Latency p95, Item Size percentiles.
Origin Offload (%) для CDN, TTFB, Stale-while-revalidate hit%.

3. 4 Հերթեր/սթրիմ

Ingress/egress worg/s, Consumer Lag (հաղորդագրություններ/ժամանակ), Rebal.rate։

Processing Time p95, DLQ Rate.

3. 5 Ենթակառուցվածք/բեռնարկղեր

CPU Utilization %, CPU Throttle %, Run Queue length.
Memory RSS/Working Set, OOM kills, Page Faults.
Disk IOPS/Latency/Throughput, Network RTT/ retransmits.
Node Saturation: pods pending, pressure (CPU/Memory/IO).

3. 6 Web հաճախորդ (UX)

Core Web Vitals: LCP, INP, CLS.
TTFB, FCP, TTI, Resource Timing (DNS, TLS, TTFB, download).
Error Rate (JS), Long Tasks, SPA route change time.

CDN Geo-Latency (percenty)։

3. 7 Բջջային հաճախորդ

App Start time (cold/warm), ANR rate, Crash-free sessions %.
Network round-trips/session, Payload size, Battery drain/session.

Success rate (կատաղի վիրահատություններ)։

3. 8 Տվյալների պլատֆորմ և հաշվետվություններ

Freshness Lag (T-now → витрина), Throughput rows/s, Job Success %.

Cost per TB processed, Skew կուսակցությունը, Late events%։

BI Time-to-Render p95 հիմնական dashbords համար։

3. 9 Կառավարական քննադատական ֆլոուն (iGaming որպես օրինակ)

Auth p95, KYC TTV (Time-to-Verify), Deposit/Withdrawal p95.
Game Round Duration p95, RNG call latency, Provider RTT p95.
Payment PSP success rate, Chargeback investigation SLA.

4) Նորմալացում, գրգռում և ուղղափառություն

Նրանք գնահատում էին միջին, մենք արձանագրում ենք p50/p90/p95/p99 - միջին պիցցա ցավեր։

Կտրվածքներ 'դիմումի տարբերակը, տարածքը, պրովայդերը, ցանցի ալիքը (4G/Wi-Fi), սարքը։

Հարաբերակցություն 'կապում ենք «backend-only» և «real-user» մետրերը պատճառահետևանքային շղթաների համար։

Exemplars/Traces: Մենք կապում ենք ծայրահեղական փոխանցումները հետքերի հետ։

5) Փոշիները և ալերտները (մոտավոր ցանցը)

Latency p95 (www.API): warning> 250 ռուբլիներ, critical> 400 495 րոպե անընդմեջ։

Error rate: warning > 0. 5%, critical> 2% (էնդպոինտով, ոչ գլոբալ)։

DB RepLag: warning > 2 s, critical > 10 s.
Kafka consumer lag (time): warning > 30 s, critical > 2 min.
Web LCP (p75): warning > 2. 5 s, critical > 4 s.
Mobile ANR: warning > 0. 5%, critical > 1%.
ETL Freshness: warning > +15 min, critical > +60 min от SLA.

Մենք օգտագործում ենք ստատիկ + հարմարվողական շեմեր (սեզոնային, ցերեկային ձևանմուշներ), դեդուպլիկացիա և ալտերտերի խումբ ծառայություններով/թողարկումներով։

6) Արտադրողականության փորձարկում

Տեսակներ ՝ baseline, stress, երկար (soak), քաոս (degrade links/PSA)։

Բեռի պրոֆիլները 'իրական թրեյսների (distribution-based), «փոթորիկներ», տարածաշրջանային պիկի միջոցով։

Նպատակները 'SLO-ի հասնելը RPS-ի և mix վիրահատությունների ժամանակ, backpressure-ի վալիդացիան։

Պրոգոնի մետրերը ՝ Throughput, Error%, p95 latency, GC դադար, CPU throttle, queue lag, cost/run։

Ռեգրեսիայի կանոնը 'թողարկումը համարվում է հաջողակ, եթե p95-ը հավասար ճշգրտությամբ չի վատացել> 10 տոկոսը, իսկ հարցման արժեքը (CPU-2019/հարցումը) չի բարձրացել> 15 տոկոսը։

7) Տարաների պլանավորումը և գինը/արտադրողականությունը

Demand model: RPS ժամերով միջին աշխատանք/հարցում (CPU-2019, IO-ops)։

Headro.ru: 30-50 տոկոսը պատրաստված է կրիտիկական ճանապարհների համար, scaling-ը P95-ով։

Cost KPIs: Cost per 1k requests, Cost per GB served, $ per 1 p. p. LCP բարելավում։

Քեշինգը/դենորմալիզացիան 'հաշվել «cache ROI» = (CPU-105 խնայողությունները քեշի արժեքը)։

Տաք և սառը տարածքներ 'CDN/edge, «միայն կարդալու» կրկնօրինակումը։

8) Դիտարկման և ավելացման պրակտիկան

Հետքեր 'բաշխված trace-ID բոլոր hop' a; խելացի (tail-based)։

Մետրիկները ՝ Prometheus/OpenTelemetry, անունների և պիտակների միասնական նոտա։

Լոգներ 'հարաբերակցության հետ trace/ww.ru, budget log-աղմուկի վրա, PII խմբագրում։

Ավելացողները ՝ CPU/Heap/Alloc/Systek profiles, շարունակական ավելացում (eBPF)։

Նմուշներ. Մենք կապում ենք p99 աճը կոնկրետ պարամետրերի/SQL/PMS-քոլեջի հետ։

9) Առյուծների և թիմերի մետրիիկները (լիարժեքության համար)

DORA: Deployment Frequency, Lead Time, Change Failure Rate, MTTR.

SPACE 'բավարարվածություն, արտադրողականություն, ակտիվություն, հաղորդակցություն, արդյունավետություն։

Այս մետրերը ոչ թե երկաթի մասին են, այլ ուղղակիորեն ազդում են արտադրողականության կայունության վրա։

10) Anti-patternes

Գնացեք միջին 'անտեսել p95/p99։

«Գլոբալ» error rate: թաքցնում է ցավոտ էնդպոինտները։

Առանց ենթադրությունների, անհնար է բռնել հաճախորդի ռեգրեսիան։

Ալերթ սպամ 'շեմեր առանց հիստերեզիայի և սեզոնայնության։

Օպտիմիզացիան «արցունքաբեր» է 'ավելացման և ուղու բացակայությունը։

UX-ի և backend latency-ի խառնուրդը 'հաճախորդների փորձի սխալ եզրակացությունները։

11) Չեկ թերթերը

Մեկ ռուսական մետրիկ

Բառարանը բանաձևերով, միավորներով, սեփականատերերով

  • Պարտադիր p50/p90/p95/p99
  • Թրեյս հարաբերակցություն և լոգ հարաբերակցություն
  • Թեգի 'տարածաշրջանը, տարբերակը, պրովայդերը, սարքը, ցանցային ալիքը
  • Հիստերեզիա և դեդուպլիկացիա

Նախքան թողարկումը

Baisline p95/p99 սթեյջի վրա և վաճառքում

  • Kanarech No. + համեմատությունը A/B մետրի հետ
  • Ֆիչա դրոշը արագ արձագանքելով
  • Դիտարկման պլանը (observability runbook)

Կանոնավորաբար

  • Քաշ քաղաքական և TTL
  • Freshness-ը և BD-ի կրկնօրինակումները
  • Արտաքին պրովայդերների քայքայման թեստերը (PSA, KYC)

12) Մինի պլեյբուկները (օրինակ)

P95/api/payments

1. Կրճատել error տոկոսը և արտաքին թայմաուտները PSA-ն։

2. Ստուգել կոլեկցիոներների հերթերը։

3. Նայեք trace-ի օրինակները p99: SQL/HTTP-ի նեղ տեղը։

4. Միացրեք տեղեկատուներ/լիմիտներ, նվազեցրեք N + 1։

5. Բյուջե 'ժամանակավորապես բարձրացնել գողերի ռեսուրսները 20 տոկոսով, ներառել autoscale։

6. Post-fix: ինդեքսը (post_ id, status, created _ at), retray-jitter։

RepLag աճը BD

1. Ստուգել «ծանր» հարցումները և երկար գործարքները։

2. Ավելացրեք վերարտադրության զուգահեռությունը, կափարիչը։

3. Կարդացեք cash/կրկնօրինակում միայն կարդալը։

4. Պիկ պատուհանների դեպքում 'մասնակի դենորմ + բատչեր։

13) Բանաձևի/SQL (պարզեցված) օրինակները

Error Rate Edpoint

sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;

Latency p95 (TDigest/Approx)

sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;

Consumer Lag (ժամանակ)

sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;

Web LCP p75

sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;

14) Տնկարկներ և հաշվետվություններ

KPI քարտերը ՝ p95 latency, error%, RPS, saturation WoW/DoD տենդերով։

Top-N «ամենավատ» էնդպոինտները/SQL/ռեսուրսները, clicabel-down protrace-ը։

Հաճախորդի տարբերակների հարաբերակցությունը 'գրաֆիկը «p95 LCP/INP հակադարձման տարբերակը»։

Աշխարհի քարտեզը 'geo-latency (CDN), PMS latency տարածաշրջաններում։

SLO վահանակ 'ժամանակի մասնաբաժինը SLO-ում, SLO-ից, «սխալների բյուջե»։

15) Արդյունքները

Արտադրողականության չափումները համակարգային կարգապահություն են 'մեկ բառարան, գրաքննություն, լավ դիտարկում և խիստ SLO։ Տեխնիկական (լատենտ, բայեր, քեշ-հիթեր) և ապրանքային ազդանշաններ (KYC ժամանակ, p95, LCP), դուք կառավարում եք փորձի որակը և դրա առաքման արժեքը 'կանխատեսելի և մասշտաբային։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։