Վիրահատություններ և Metrika արտադրողականության կառավարման
Արտադրողականության մետրերը
1) Ինչո՞ ւ է անհրաժեշտ արտադրողականության չափումները
Արտադրողականությունն այն է, որ համակարգի կարողությունն է ապահովել SLO-ի վերադարձի ժամանակը և կարողությունը տվյալ արժեքով։ Առանց մետրիկի անհնար է
հայտնաբերել դեգրադացիաներ մինչև վերջը,
կանխատեսել կարողություններ և բյուջե,
համեմատել այլընտրանքային լուծումները (cash vs BD, gRPC vs REST),
կառավարել ռեգրեսիաները ածխաջրածիններից հետո։
Սկզբունքները ՝ մեկ բառարան, պերցենտիլների համադրումը (p50/p90/p95/p99), «տաք» և «սառը» ճանապարհների առանձին տարբերակը, ենթատեքստը (տարբերակը, տարածաշրջանը, պրովայդերը, սարքը)։
2) Taksonomia metric
2. 1 Հիմնական SYE շրջանակ
Չորս ոսկե ազդանշաններ ՝ Latency, Traffic, Errors, Saturation։
RED (միկրովայրցիների համար) 'Rate, Errors, Duration։
USE (երկաթի համար) 'Utilization, Saturation, Errors։
2. 2 Մակարդակներ
Ենթակառուցվածքը ՝ CPU, RAM, սկավառակ, ցանց, բեռնարկղեր, հյուրանոցներ։
Պլատֆորմ/Ծառայություններ 'API-endpoints, հերթեր, քաշներ, BD, իրադարձությունների անվադողեր։
Հաճախորդի փորձը 'Web Vitals, բջջային SDK, striming, CDN։
Ամսաթիվը 'ETL/ELT, սթրիմներ, վիտրիններ, BI ուշացումներ։
Բիզնես կրիտիկական ֆլոդը 'հեղինակային, KYC, դեպոզիտներ/վճարումներ, խաղային փուլեր։
3) Հիմնական մետրերի և բանաձևերի կատալոգը
3. 1 API և միկրովայրկյաններ
RPS (Requests per second).
Latency p50/p95/p99 (1922) - ցանկալի է «end-to-end» և «backend-only»։
Error Rate (%) = 5xx + վալիդացված 4xx/բոլոր հարցումները։
Saturation: Workers-ի միջին երկարությունը, «in-flight» հարցումները։
Cold Start Rate-ը (FaaS-ի համար)։
Throttling/Dropped Requests.
SLO օրինակ ՝ p95 latency 24250 ռուբլիներ RPS-ի տակ մինչև 2k EU-East տարածաշրջանում; սխալները 0։ 5%.
3. 2 Տվյալների հիմքեր
QPS/Transactions/s, avg/median query time, p95 query time.
Lock Waits / Deadlocks, Row/Index Hit Ratio, Buffer Cache Miss%.
RepLag (կրկնօրինակումը), Sykpoint/Flush Time, Autovacuum lag։
Hot Keys/Skew-ը բեռի առաջին N կոդն է։
«Միջուկի հարցման» բանաձևը ՝ QPS/vCPU _ բանաձև _ count-ի ազդանշանը շարդիզացիայի համար։
3. 3 Քաշ և CDN
Hit Ratio (%), Evictions/s, Latency p95, Item Size percentiles.
Origin Offload (%) для CDN, TTFB, Stale-while-revalidate hit%.
3. 4 Հերթեր/սթրիմ
Ingress/egress worg/s, Consumer Lag (հաղորդագրություններ/ժամանակ), Rebal.rate։
Processing Time p95, DLQ Rate.
3. 5 Ենթակառուցվածք/բեռնարկղեր
CPU Utilization %, CPU Throttle %, Run Queue length.
Memory RSS/Working Set, OOM kills, Page Faults.
Disk IOPS/Latency/Throughput, Network RTT/ retransmits.
Node Saturation: pods pending, pressure (CPU/Memory/IO).
3. 6 Web հաճախորդ (UX)
Core Web Vitals: LCP, INP, CLS.
TTFB, FCP, TTI, Resource Timing (DNS, TLS, TTFB, download).
Error Rate (JS), Long Tasks, SPA route change time.
CDN Geo-Latency (percenty)։
3. 7 Բջջային հաճախորդ
App Start time (cold/warm), ANR rate, Crash-free sessions %.
Network round-trips/session, Payload size, Battery drain/session.
Success rate (կատաղի վիրահատություններ)։
3. 8 Տվյալների պլատֆորմ և հաշվետվություններ
Freshness Lag (T-now → витрина), Throughput rows/s, Job Success %.
Cost per TB processed, Skew կուսակցությունը, Late events%։
BI Time-to-Render p95 հիմնական dashbords համար։
3. 9 Կառավարական քննադատական ֆլոուն (iGaming որպես օրինակ)
Auth p95, KYC TTV (Time-to-Verify), Deposit/Withdrawal p95.
Game Round Duration p95, RNG call latency, Provider RTT p95.
Payment PSP success rate, Chargeback investigation SLA.
4) Նորմալացում, գրգռում և ուղղափառություն
Նրանք գնահատում էին միջին, մենք արձանագրում ենք p50/p90/p95/p99 - միջին պիցցա ցավեր։
Կտրվածքներ 'դիմումի տարբերակը, տարածքը, պրովայդերը, ցանցի ալիքը (4G/Wi-Fi), սարքը։
Հարաբերակցություն 'կապում ենք «backend-only» և «real-user» մետրերը պատճառահետևանքային շղթաների համար։
Exemplars/Traces: Մենք կապում ենք ծայրահեղական փոխանցումները հետքերի հետ։
5) Փոշիները և ալերտները (մոտավոր ցանցը)
Latency p95 (www.API): warning> 250 ռուբլիներ, critical> 400 495 րոպե անընդմեջ։
Error rate: warning > 0. 5%, critical> 2% (էնդպոինտով, ոչ գլոբալ)։
DB RepLag: warning > 2 s, critical > 10 s.
Kafka consumer lag (time): warning > 30 s, critical > 2 min.
Web LCP (p75): warning > 2. 5 s, critical > 4 s.
Mobile ANR: warning > 0. 5%, critical > 1%.
ETL Freshness: warning > +15 min, critical > +60 min от SLA.
Մենք օգտագործում ենք ստատիկ + հարմարվողական շեմեր (սեզոնային, ցերեկային ձևանմուշներ), դեդուպլիկացիա և ալտերտերի խումբ ծառայություններով/թողարկումներով։
6) Արտադրողականության փորձարկում
Տեսակներ ՝ baseline, stress, երկար (soak), քաոս (degrade links/PSA)։
Բեռի պրոֆիլները 'իրական թրեյսների (distribution-based), «փոթորիկներ», տարածաշրջանային պիկի միջոցով։
Նպատակները 'SLO-ի հասնելը RPS-ի և mix վիրահատությունների ժամանակ, backpressure-ի վալիդացիան։
Պրոգոնի մետրերը ՝ Throughput, Error%, p95 latency, GC դադար, CPU throttle, queue lag, cost/run։
Ռեգրեսիայի կանոնը 'թողարկումը համարվում է հաջողակ, եթե p95-ը հավասար ճշգրտությամբ չի վատացել> 10 տոկոսը, իսկ հարցման արժեքը (CPU-2019/հարցումը) չի բարձրացել> 15 տոկոսը։
7) Տարաների պլանավորումը և գինը/արտադրողականությունը
Demand model: RPS ժամերով միջին աշխատանք/հարցում (CPU-2019, IO-ops)։
Headro.ru: 30-50 տոկոսը պատրաստված է կրիտիկական ճանապարհների համար, scaling-ը P95-ով։
Cost KPIs: Cost per 1k requests, Cost per GB served, $ per 1 p. p. LCP բարելավում։
Քեշինգը/դենորմալիզացիան 'հաշվել «cache ROI» = (CPU-105 խնայողությունները քեշի արժեքը)։
Տաք և սառը տարածքներ 'CDN/edge, «միայն կարդալու» կրկնօրինակումը։
8) Դիտարկման և ավելացման պրակտիկան
Հետքեր 'բաշխված trace-ID բոլոր hop' a; խելացի (tail-based)։
Մետրիկները ՝ Prometheus/OpenTelemetry, անունների և պիտակների միասնական նոտա։
Լոգներ 'հարաբերակցության հետ trace/ww.ru, budget log-աղմուկի վրա, PII խմբագրում։
Ավելացողները ՝ CPU/Heap/Alloc/Systek profiles, շարունակական ավելացում (eBPF)։
Նմուշներ. Մենք կապում ենք p99 աճը կոնկրետ պարամետրերի/SQL/PMS-քոլեջի հետ։
9) Առյուծների և թիմերի մետրիիկները (լիարժեքության համար)
DORA: Deployment Frequency, Lead Time, Change Failure Rate, MTTR.
SPACE 'բավարարվածություն, արտադրողականություն, ակտիվություն, հաղորդակցություն, արդյունավետություն։
Այս մետրերը ոչ թե երկաթի մասին են, այլ ուղղակիորեն ազդում են արտադրողականության կայունության վրա։
10) Anti-patternes
Գնացեք միջին 'անտեսել p95/p99։
«Գլոբալ» error rate: թաքցնում է ցավոտ էնդպոինտները։
Առանց ենթադրությունների, անհնար է բռնել հաճախորդի ռեգրեսիան։
Ալերթ սպամ 'շեմեր առանց հիստերեզիայի և սեզոնայնության։
Օպտիմիզացիան «արցունքաբեր» է 'ավելացման և ուղու բացակայությունը։
UX-ի և backend latency-ի խառնուրդը 'հաճախորդների փորձի սխալ եզրակացությունները։
11) Չեկ թերթերը
Մեկ ռուսական մետրիկ
Բառարանը բանաձևերով, միավորներով, սեփականատերերով
- Պարտադիր p50/p90/p95/p99
- Թրեյս հարաբերակցություն և լոգ հարաբերակցություն
- Թեգի 'տարածաշրջանը, տարբերակը, պրովայդերը, սարքը, ցանցային ալիքը
- Հիստերեզիա և դեդուպլիկացիա
Նախքան թողարկումը
Baisline p95/p99 սթեյջի վրա և վաճառքում
- Kanarech No. + համեմատությունը A/B մետրի հետ
- Ֆիչա դրոշը արագ արձագանքելով
- Դիտարկման պլանը (observability runbook)
Կանոնավորաբար
- Քաշ քաղաքական և TTL
- Freshness-ը և BD-ի կրկնօրինակումները
- Արտաքին պրովայդերների քայքայման թեստերը (PSA, KYC)
12) Մինի պլեյբուկները (օրինակ)
P95/api/payments
1. Կրճատել error տոկոսը և արտաքին թայմաուտները PSA-ն։
2. Ստուգել կոլեկցիոներների հերթերը։
3. Նայեք trace-ի օրինակները p99: SQL/HTTP-ի նեղ տեղը։
4. Միացրեք տեղեկատուներ/լիմիտներ, նվազեցրեք N + 1։
5. Բյուջե 'ժամանակավորապես բարձրացնել գողերի ռեսուրսները 20 տոկոսով, ներառել autoscale։
6. Post-fix: ինդեքսը (post_ id, status, created _ at), retray-jitter։
RepLag աճը BD
1. Ստուգել «ծանր» հարցումները և երկար գործարքները։
2. Ավելացրեք վերարտադրության զուգահեռությունը, կափարիչը։
3. Կարդացեք cash/կրկնօրինակում միայն կարդալը։
4. Պիկ պատուհանների դեպքում 'մասնակի դենորմ + բատչեր։
13) Բանաձևի/SQL (պարզեցված) օրինակները
Error Rate Edpoint
sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;
Latency p95 (TDigest/Approx)
sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;
Consumer Lag (ժամանակ)
sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;
Web LCP p75
sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;
14) Տնկարկներ և հաշվետվություններ
KPI քարտերը ՝ p95 latency, error%, RPS, saturation WoW/DoD տենդերով։
Top-N «ամենավատ» էնդպոինտները/SQL/ռեսուրսները, clicabel-down protrace-ը։
Հաճախորդի տարբերակների հարաբերակցությունը 'գրաֆիկը «p95 LCP/INP հակադարձման տարբերակը»։
Աշխարհի քարտեզը 'geo-latency (CDN), PMS latency տարածաշրջաններում։
SLO վահանակ 'ժամանակի մասնաբաժինը SLO-ում, SLO-ից, «սխալների բյուջե»։
15) Արդյունքները
Արտադրողականության չափումները համակարգային կարգապահություն են 'մեկ բառարան, գրաքննություն, լավ դիտարկում և խիստ SLO։ Տեխնիկական (լատենտ, բայեր, քեշ-հիթեր) և ապրանքային ազդանշաններ (KYC ժամանակ, p95, LCP), դուք կառավարում եք փորձի որակը և դրա առաքման արժեքը 'կանխատեսելի և մասշտաբային։