Պիտերբուրգը իրական ժամանակում
(Բաժին ՝ Վիրահատություններ և կառավարում)
1) Ինչու՞ է real-time-ը
Իրական ժամանակը ոչ թե «միլիոնատերերի մոգությունն» է, այլ շեղումներ հայտնաբերելու և SLO պատուհանների սահմաններում գործելու ունակությունը։ IGaming/fintech-ի համար դա նշանակում է
մոտեցման և հետաձգումների ակնթարթային տեսանելիությունը (p50/p95/p99) կրիտիկական երթուղիների;
իրադարձությունների ամբողջականության վերահսկումը (webhuks, վճարումներ, RTP/limita);
պաշտպանություն (egress/իրադարձությունների 1 k, կլիրինգ/exrow);
կոմպլանսի պահպանումը (քվիտանիա, PII-հիգիենա)։
2) Ճարտարապետական ֆորումը
Շերտերը
1. Meders: ծառայություններ, SDK, edge-2019, վճարումների/բովանդակության պրովայդերներ։
2. Ingest-դարպասը '«metrance/traces/logs/events» ընդունիչները backpressure և քվոտաներ։
3. Shina/striming: Brocker կուսակցության հետ (tenault/region/roult), replay-ի համար։
4. Stream-processing: պատուհանի միավորումներ (T + 5s/T + 1m), dedup, ժամանակի նորմալացում, SLI հաշվարկը։
5. Մոսկվա: Time-series (օպտիկա), OLAP (պատմություն), WORM ամսագրեր (աուդիտ)։
6. Վերլուծությունը և ալերտինգը 'SLO կանոնները, վիճակագրական դետեկտորները, անոմալիզմը։
7. Դաշբորդներն ու ռունաները ՝ UI գործողությունների համար (pause/re-roj/rollback/raise-limit)։
Հիմնական փորձարկումները
Windowrac.ru-ը չափումների/իրադարձությունների վրա (սխեմաներ, տարբերակներ, վալիդացիա)։
Windobox/CDC-ը երաշխավորված է երկրորդային իրադարձությունների հրատարակման համար։
Idempotency-ը և dedup 'trace _ id/event _ id'։
Clock nc: NTP/PTP, «skew», ժամանակի ջրվեժներ (event vs processing Time)։
3) Հեռուստատեսության տեսակները և սեմանտիկան
Metr.ru (SLI) 'հաշվիչներ/գեյջի/histragma p-percentile։
Traces: Trace _ id _ id-ի միջոցով, RPC-ի միացումը բացատրում է www.ebhuks իրադարձությունները։
Logs: Կառուցվածքային, «tenium _ id/region/version»։
Business events: `PaymentAuthorized`, `WebhookDelivered`, `RTPWindowClosed`.
Receip.ru: quitans/ստորագրություններ (ֆինանսական/քննադատական վիրահատությունների համար)։
4) Ժամանակն ու պատուհանները
Ժամանակի տեսակները 'event-time, ingest-time, processing-time։
Պատուհանները ՝ սայթաքող (5-30 c), մառախուղ (1-5 րոպե), ջրի ուշացումով (watermark) հետագա իրադարձությունների համար։
Կոմպակտություն 'համախմբեք հոսքի մեջ (գիստոգրամ էսքիզներ) պահեք միայն անհրաժեշտ պերցենտային բինները։
5) Նորմալացում և տվյալների որակը
Մուտքի վալիդացիան 'սխեման/միջակայքը/պարտադիր դաշտերը։ շեղված 'մատիտի մեջ, որի պատճառն է։
Deduplication: (event _ id, meder, seq) "; պահեք «seen-cache» հիշողության մեջ + KV։
Փոխաբերությունը '«double count» և «flatom» (լռության սենսորներ) դեմ։
Սեմպլացիա 'high-QPS-ի համար հարմարվողական է, սխալմամբ։ քննադատական SLI-ն լի է։
6) SLI/SLO (հանրաքվե)
North Star: E2E Success Rate-ը p95-ում։
SLI:- Per-ալիքի/տարածաշրջանի հասանելիությունը։
- P50/p95/p99 լատենտային ուղղություններով։
- Error-rate/Retry-rate.
- Webhuks-ի հաջողությունը (քվիտանների տոկոսը)։
- Գնի/հարկերի կոնսիստենտությունը («www.dte = = ww.kout», 361 minor unit)։
- Cost-SLI '1k իրադարձությունների արժեքը, egress/ingress միավորի համար։
SLO (օրինակ)
Թիվ 99 հասանելիությունը։ 95 տոկոսը 28-օրյա պատուհանում։
p95: Vitrina 24120 ms, delte/www.kout 24250 ms։
Webhuki-ը հաջողակ է 3699։ 5 %/5 րոպե պատուհան։
Δ quote↔checkout = 0 (±1 minor unit).
Արձագանքը P1-10 րոպե, MTTR 3860 ռուբլյան
7) Alerting and runs (ֆիքսված-actions)
Մակարդակները ՝ P1 (SLO/անօգուտ), P2 (դեգրադացիա), P3 (միտում/ռիսկեր)։
Աղմուկը '«trace _ id», պատճառահետևանքային շղթաների հարաբերակցությունը։
Runbooks: Ալերտի ժամանակ սկսում են ստուգումներ/գործողություններ
«PriceMismatch» -ը www.refresh-ն է, «fx _ version/tax _ rule _ version», փոխհատուցման քաղաքականությունը։
«Webhase Lag» -ը բացատրում է գողերի փոխակերպումը, batch աճը, հերթերի գերակայությունը։
«RTP Drift» -ը բացատրում է պրոմո դադարեցնել, ստուգել 2019/տարբերակի աղյուսակը, արձագանքել տերմիններին։
Egress Surge-ը պլանավորվում է ներառել ագրեսիա/kash-pinning/այլընտրանքային երթուղին։
Էսկալացիա 'մատրիցա 24 247, on-caltation, ջրանցքներ (chat/զանգված/SMS)։
8) Dashbords (wwwwijets)
Պլատֆորմի առողջությունը 'հասանելիություն, p95/p99, error-rate, burn-down error-բյուջե։
Express/webhuks 'հաջողությունը, լագը, դուբլին/idempotention, քվիտանզիա։
Nokout/գինը 'վիտրինի անհամապատասխանությունները www.kout, FX/Tax տարբերակները, ձախողումը։
RTP/լիմիթներ 'թեոր։ vs observed RTP, limits, էքսպոզիա։
FinOps: cost per 1k, egress/ingress, բյուջեներ/kap-ալերտներ։
Մոսկվա/Compli.ru: SoD, JIT, MFA, PII հարցումները, քրիթրիտի ստորագրությունները։ վիրահատություններ։
Rele.ru/Flags: fich արձանները, կանարեկային տարածքները, միջադեպերի հետ կապը։
9) Multregion և multi-tenae
«Tenault/region» խմբակցությունը։
Անկախ SLO/քվոտաները տարածաշրջաններում; քրոսոմային ալերտների սահմանափակումները (որպեսզի տեղական ձախողումը չի «ներկել» ամբողջ աշխարհը)։
Տվյալների վստահության գոտիները ՝ PII/ֆինանսներ, միայն այնտեղ, որտեղ թույլատրվում է։ Ընդհանուր dashborde - միավորներ/hashi.
10) Անվտանգություն, գաղտնիություն, ապացույցներ
ingest 'բանալիներ/մուտուալ-TSA, rate-limits, ստորագրություններ։
PII-նվազեցումը 'գերբնականի, դիմակների/hash-ազդանշանների փոխարեն։
Քվիտանզիա (receip.ru): DSSE/ստորագրություններ ֆինանսական/քննադատական իրադարձությունների համար։
WORM ամսագրեր 'անփոփոխ լույսեր զբոսաշրջիկների համար, Merkle-reses։
DirecTron: RBAC/ABAC/ReBAC, JIT զգայուն պարամետրերի համար։
11) Աննոմալիստ և հարաբերակցություն
Guardrails 'SLI-ի ստատիկ շեմերը։
Վիճակագրությունը 'Shewhart/CUSUM/EWMA միտումների համար։
ML/ազդանշաններ 'սեզոնային/ալիքներ/ASN/պրովայդերներ; դելֆինների/ֆիչեֆլագների ազդեցությունը։
Հարաբերակցություն 'կապեք պատահարները թողարկումների հետ, գենդերային փոփոխություններ, միգրանտների աճը, բաժնետոմսերը։
12) Արտադրողականությունը և արժեքը
Հեռուստաչափության բյուջեն ՝ QPS/ծավալի cap; «ցավոտ» մետրիկ։
Սեղմումը/ագրեգացիան 'downsampling պատմություններ (1c 410s 41min), պահպանեք պերցենտալ էսքիզները։
Egress-վերահսկողությունը 'տեղական քեշներ/ագրեգատներ, edge-նախահաշիվ։
Cost-aronalerts: ազդանշան, եթե արժեքը/1k իրադարձությունների կամ egress դուրս է գալիս ծրագրի համար։
13) API պայմանագրերը և API պայման
«POST/ingest/metr.ru» (JSON/OTLP) 'վավերացում, քվոտաներ, սխեմա/տարբերակ։
«POST/ingest/events» (ստորագրվել) 'dedup/TTL/nonce։
`GET /kpis? 24ters = region, tenault, rome '- UI-ի համար ագրեգատներ։
«GET/traces/+ trace _ id _» - շղթայի տեղադրումը։
Вебхуки: `IncidentRaised`, `QuotaCapReached`, `PriceMismatch`, `WebhookLag`, `RTPDrift`.
14) Պլեյբուկի 2019 (shant-form)
P1 Հաճախորդների հասանելիությունը 'անցնել ռոտինգը, ներառել circuit-breakers, նվազեցնել հաճախորդների թայմաուտները, կարգավիճակի մասին վթարային դիրքը։
P1 Diskout: Freeze promo/գների դինամիկան, քեշի ֆորս հաշմանդամությունը, FX/Tax տարբերակների համեմատությունը, փոխհատուցումը։
P1 Webhase Lag: բարձրացնել workers/մրցակցություն, batch չափսը, անջատել գոյություն չունեցող webhuks։
P2 RTP Drift: բոնուսների դադար, կոդերի/տարբերակների աղյուսակների վերահաշվարկ, դիտարկման պատուհանի ընդլայնումը, զեկույցը։
P2 Egress Surge: Թեմը, edge-քեշը, տերմինալի մի մասի տեղափոխումը, ժամանակավոր քվոտաները։
15) Մոնիտորինգի որակի մետրերը
UI/API 3599 հասանելիությունը։ 9%.
Freshness: Lag No. 3530 վիրահատական վիրահատությունների համար։
Completeness: ≥ 99. Աղբյուրների հինգ տոկոսը տվյալներ են ուղարկել պատուհանի մեջ։
Directness: Անհամապատասխանություն 240 ստանդարտի հետ։ 1%.
MTTA/MTTR Alert-propline: P1 241/10 2019
16)
- Որոշել North Star-ը և SLI/SLO-ի հավաքածուը տարածաշրջաններում/2019։
- Ներմուծել www.rac.ru և սխեմաներ հեռուստատեսության բոլոր հոսքերի համար։
- Տեղադրեք ingest-ը քվոտաների, backpressure-ի և պապի հետ։
- Շրջեք անվադողերը/սթրիմինգը և պատուհանի միավորները watermarks-ից։
- Կառուցել Time-series/OLAP/WORM-ը և քվիտանների հետ կապը։
- Alerta + auto-runa, շարժասանդուղքների մատրիցա 24-7։
- Ձևավորել dashbords դերերով 'MSE/Wint/FinOps/Compliance/Partners։
- Ներառել PII նվազեցումը, ստորագրությունները և RBAC/ABAC/ReBAC-ը։
- Ներդրեք FinOps-metrics (cost/1k, egress, պահեստավորում) և գլխարկներ։
- Անցկացնել GameDay: Webhuks Lag, Retrai-Burst, տարածաշրջանի հրաժարումը։
17) Կապում iGaming/fintech
RTP & Limits-ը 'դիտարկվող RTP-ի և Limits-ի վերահսկումը րոպեների/ժամերի ընթացքում, «over/under» -ի վրա։
Վճարումները/վճարումները 'հեղինակային իրավունքի, կլիրինգի և քվիտանտների միջոցով։ SLA PSP.
Աֆֆիլիատներ 'հակադարձման (webhuki) և բանավեճերի առաքում։
Պոմպո 'բարձրացում, պարամետրերի պաշտպանություն և egress գին։ guardrails բյուջեների համար։
18) FAQ
Real-time-ը պարտական է ամենուր։
Ոչ։ «Տաք» ուրվագիծը վայրկյաններ/րոպե է (միջադեպեր, վճարումներ, վեբհուկներ)։ Տնտեսությունը/վերլուծությունը րոպե/ժամ է։
Ինչպե՞ ս կարող ենք պայքարել կեղծ անհանգստությունների դեմ։
SLO-կողմնորոշված պայմանները, համախմբումը և dedup համաձայն 'trace _ id ", հարաբերակցությունը թողարկումների հետ, հիստերեմիկ շեմերը։
Պե՞ տք է ամեն ինչ հավերժ պահենք։
Ոչ։ WORM-ը միայն ռուսական/քննադատական հոսքերի համար է։ մնացածը downsampling/TTL է։
Ինչո՞ ւ է «wwww.d.cout» -ը հանդիպում։
FX/Tax տարբերակները, քեշի հաշմանդամությունը, կլորացումը։ Այն բուժվում է տարբերակներով, SWR-ռազմավարական և կոնսիստենցիայի թեստերով։
Ռեզյումե 'Իրական ժամանակում գրանցումը կարգապահություն է' խիստ տվյալների պայմանագրեր, պատուհանի հաշվարկներ, նորմալացված ժամանակ, քվիտանտների և SLO-ալտերտերի հետ կապ, գումարած յուրաքանչյուր տեսանելիության կոճակ։ Դա ճիշտ դարձնելով, դուք կրճատում եք MTTR-ը, պահպանում եք բյուջեն և վստահորեն մեծացնում էկոհամակարգը տարածաշրջաններում և տենանտներում։