Վերլուծությունը իրական ժամանակում
1) Նշանակումը և բիզնեսի արժեքը
Իրական ժամանակում վերլուծությունը (RTA) տալիս է արձագանքներ վայրկյանում, ոչ թե ժամացույցով
AML/Antifrod: Ավանդների կառուցվածք, velocity հարձակումներ, ռիսկային գործարքներ։
Responsible Gaming (RG) 'սահմանափակումների ավելցուկ, ռիսկի փամփուշտներ, ինքնախաբեություն։
MSE/Վիրահատություն ՝ SLA-ի քայքայման վաղ հայտնաբերումը, սխալների աճը, կլաստերների գերտաքացումը։
Ապրանքը և մարքեթինգը 'կերպարների, առաքելությունների/որոնումների, real-time սեգմենտացիայի։
Վիրահատական զեկույցները ՝ near-real-time GGR/NGR, սրահների/պրովայդերների դաշնամուրներ։
Ռուսական կենտրոններ ՝ p95 end-to-end 0։ 5–5 с, completeness ≥ 99. Հինգ տոկոսը, հասանելիությունը 3699։ 9%.
2) Ստանդարտ ճարտարապետությունը
1. Ingest/Edge — `/events/batch` (HTTP/2/3), gRPC, OTel Collector; սխեմաների, հակա-դուբլիի, գեո-միկրոօրգանիզացիայի։
2. Իրադարձությունների շարքը Kafka/Redpanda է («user _ id/tenault/market», DLQ, 3-7 օր)։
3. Stream-վերարտադրումը Flink/Spark Structured Streaming/Beam: stateful-օպերատորներ, CEP, watermarks, allowed lateness, dedup։
4. Online-հարստացումը 'Redis/Scyla/ClickHouse lookups (RG-limits, KYC, BIN no MCC, IP/Geo/ASN), ասինխրոն զանգեր թայմաուտների և fallback հետ։
5. Serving-ը ClickHouse/Pinot/Disuid (1-5 րոպե), Feature Store (առցանց նշաններ), webhooks/ticeting/SOAR։
6. Lakehouse-ը Bultze/Silver/Gold-ն է երկարաժամկետ ինտեգրման, ռեպլեյի և մոմենտների համար։
7. Դիտարկումը plins, tresing (OTel), logs, lineage և cost-dashbords է։
3) Ազդանշաններ և տաքսոնոմիա
Խաղային '"game. bet/payout ", նստաշրջաններ։
Վիրահատական 'latency, error-rate, pods, saturation։
Վճարումները ՝ "pay.ru. deposit/withdraw/chargeback`.
Վավերացումը և վարքագիծը '"auth. login/failure`, device-switch, velocity.
Կոմպլանսը 'սանկցիոն սկրինինգը, RG դրոշները, DSAR իրադարձությունները։
Յուրաքանչյուր տեսակ ունի սեփականատեր (domain owner), սխեմա, SLO թարմ և late քաղաքականություն։
4) Պատուհաններ, watermarks և late։
Պատուհաններ ՝ tumbling (ֆիքս) , hopping (արգելափակումը), session (անուղղակիորեն)։
Watermark: «ժամանակի գիտելիքների» սահմանը (սովորաբար 2-5 րոպե)։
Ուշացած իրադարձություններ 'օպտիկայի դոցենտ, դրոշը' late = no ', DLQ, ուժեղ ուշացումով։
Flink SQL-ի օրինակը (10 րոպե velocity դեպոզիտներ)
sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream.payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
5) CEP և stateful միավորումը
Վիճակը 'սայթաքող հաշվիչներ/գումարներ, բլոում ֆիլտրեր պապուպի, TTL-ի համար։
Հիմնական ՝ "user _ id", "device _ id", "payment. account_id`.
CEP-patterns: structuring (<շեմն, N- ը, T-ի պատուհանի հետևում), device-switch, RG-fatigue։
Prindocod CEP
python if cnt_deposits(last=10MIN) >= 3 and sum_deposits(last=10MIN) > THRESH and all(d.amount < REPORTING_THRESHOLD):
emit_alert("AML_STRUCTURING", user_id, snapshot())
6) Exactly-Once, կարգը և գաղափարախոսությունը
At-leport-once-ի առաքումը անվադողերի մեջ + dedup 'event _ id' մշակման վրա (TTL 24-72 ժամ)։
Կարգը 'բաների կուսակցումը (տեղական կարգը երաշխավորված է)։
Sink: Գործարքային համայնքները (2-phom) կամ idempotent ups.ru/merge։
Medibox/Inbox: OLTP-ի արբիտրաժային իրադարձությունների գործարքային հրատարակումը։
7) Online-հարստացումը և Feature Store-ը։
Lookup: RG-limits, KYC ստատուսներ, BIN no MCC, IP no Geo/ASN, շուկաներ/հարկեր, FX-ը իրադարձության պահին։
Ասինխրոն զանգեր ՝ սանկցիոն/RER API թայմաուտների հետ։ սխալմամբ '«unknown» + retray/kash։
Feature Store: wwww.on.ru/wwww.ru; փոխակերպման մեկ կոդային հիմքը։
8) Real-time վիտրիններ և սերվինգ
ClickHouse/Pinot/Winuid: վայրկյան/րոպե միավորներ, materialized views, SLA ուշացման համար 1-5 ռուբլիներ
API/GraphQL 'ցածր լատենտ dashbords/vijets համար։
Ալերտներ ՝ webhuki/Jira/SOAR հարստացված ենթատեքստով (trace _ id, lensevents)։
ClickHouse-ի օրինակը (GGR)
sql
CREATE MATERIALIZED VIEW mv_ggr_1m
ENGINE = AggregatingMergeTree()
PARTITION BY toDate(event_time)
ORDER BY (toStartOfMinute(event_time), market, provider_id) AS
SELECT toStartOfMinute(event_time) AS ts_min,
market,
provider_id,
sumState(stake_base) AS s_stake,
sumState(payout_base) AS s_payout
FROM stream.game_events
GROUP BY ts_min, market, provider_id;
9) Մետրիկի, SLI/SLO և dashbords
Առաջարկված SLI/SLO։
p95 ingest ental.ru (կրիտիկական կանոններ), 245 s (այլն)։
Completeness պատուհանի T-99։ 5%; Schema validity ≥ 99. 9%; Trace coverage ≥ 98%.
Սթրիմ-4999-ի հասանելիությունը։ 9%; late-ratio ≤ 1%.
Դաշբորդները (նվազագույն)
Լագը կուսակցության/տոպիկների մասին; buby time օպերատորներ; վիճակի չափը։
Վորոնկա «իրադարձությունը հաստատվում է Քեյսի կանոնով», precision/recall-ով։
Ջերմային քարտ late/completeness; քարտեզը տաք է։
10) Ջրհեղեղի DQ (որակը)
Ingest-validation: schema/enums/size-limits, anti-դուբլի։
Հոսքի վրա 'completeness/dup-rate/late-ratio, պատուհանների ճիշտ (առանց կրկնակի հաշվարկի)։
Արձագանքի քաղաքական գործիչները ՝ critical ww.DLQ + pager; major/minor-ը տեգիգիգիացիա + զեկույց է։
YAML-ի օրինակ
yaml stream: payments rules:
- name: schema_valid type: schema severity: critical
- name: currency_whitelist type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: dedup_window type: unique keys: [event_id]
window_minutes: 1440
11) Սեփականատիրությունը, անվտանգությունը և բնակությունը
PII-նվազեցումը 'ID կեղծանունացում, զգայուն դաշտերի դիմակավորում, PAN/IBAN թունավորում։
Residency: Տարածաշրջանային փոխարկիչներ (EFC/UK/IV), առանձին KFC բանալիներ։
DSAR/RTBF 'ընտրովի խմբագրություններ downstream վիտրիններում։ Legal Hold-ի համար/2019-ը։
Աուդիտ 'մատչելի/կանոնների փոփոխման անփոփոխ լոգներ, օրինագծերի լրագրություն։
12) Տնտեսագիտություն և արտադրողականություն
Շարդինգ/բանալին 'խուսափեք «տաք» կոմպոզիցիայից (salting/composite), կուսակցության հավասարակշռությունից։
Վիճակը ՝ TTL, compact corapshots, Rocult DB/state backend։
Նախազգուշացումներ ՝ reduce վաղ փուլերում աղմկոտ թեմաների համար։
Sampling: Միայն ոչ ռիթմիկ մետրիկի համար (ոչ գործարքներ/համադրություններ)։
Chargeback: բյուջեներ թեմաների/ջոբայի, քվոտաների և ծանր հարցումների վրա։
13) Գործընթացներ և RACI
R: Streaming Platform (infra/lingra), Domain Analytics (կանոնները/fici), MLOps (արագ/Feature Store)։
A: Head of Live/Risk/Compliance։
C: DPO/Legal (PII/retention), DRE (SLO/պատահականություն), Ճարտարապետություն։
I 'Ապրանք, Աջակցություն, Մարքեթինգ, Ֆինանսներ։
14) Ճանապարհային քարտեզը
MVP (2-4 շաբաթ)
1. Kafka/Redpanda + 2 քննադատական կացիններ (օրինակ ՝ «payments», «auth»)։
2. Flink-ջոբա watermark, dedup և 1 CEP-2019 (AML կամ RG)։
3. ClickHouse/Pinot (1-5 րոպե), dashbords lag/completeness։
4. Պատահականության ալիքը (webhuki/Jira), հիմնական SLO և ալերտներ։
Aleksanda 2 (4-8 շաբաթ)
Online-հարստացումը (Redis/Scylla), Feature Store, ասինխրոն lookups։
Կանոնների կառավարումը որպես կոդ, canary/A-B, հոսող DQ։
Փոխակրիչների, DSAR/RTBF ընթացակարգերի, Legal Hold-ի համար։
Բրազիլիա 3 (8-12 շաբաթ)
Multi-Explay-if-ը, «replay & what-if» սիմուլյատորը, շեմերի աուտո-տրամաչափումը։
Gold-stream վիտրիններ (GGR/RG/AML), near-real-time հաշվետվություններ։
Cost-dashbords, chargeback, DR ուսուցումներ։
15) Օրինակներ (բեկորներ)
Flink CEP — device-switch:sql
MATCH_RECOGNIZE (
PARTITION BY user_id
ORDER BY event_time
MEASURES
FIRST(A.device_id) AS d1,
LAST(B.device_id) AS d2,
COUNT() AS cnt
PATTERN (A B+)
DEFINE
B AS B.device_id <> PREV(device_id) AND B.ip_asn <> PREV(ip_asn)
) MR
Kafka Streams-ը idempotent ֆիլտրն է
java if (seenStore.putIfAbsent(eventId, now()) == null) {
context.forward(event);
}
16) Չեկ թուղթ մինչև վաճառելը
- Սխեմաները/պայմանագրերը Registry-ում, back-compat թեստերը կանաչ են։
- Ներառված են watermark/allowed lateness, dedup և DLQ-ը։
- SLO և alerts (lag/late/dup/state size)։
- Հարստացումն ու տայմաուտները. fallback «unknown».
- RBAC/dult-24l կանոնների/մոդելի համար; փոփոխության ամսագիրը ներառված է։
- Կանոնավոր/վիտրին; runbook "և repley/repat.
17) Հաճախակի սխալներ և ինչպես խուսափել դրանցից
Անտեսանելի event-time: Առանց watermarks մետրերը «լողում են»։
Ոչ մի դեդուպա 'կեղծ ալտերտեր, կրկնակի տրիբունաներ։
Տաք բանալիներ 'կուսակցության խաչմերուկը salting/resharding։
Սինխրոն արտաքին API-ը տաք ճանապարհին 'միայն async + kash։
Չկառավարվող արժեքը 'կանխատեսումը, TTL վիճակը, քվոտաները, cost-2019։
Սիմուլյատորի բացակայությունը 'առանց «replay» ռեգրեսիայի։
18) Արդյունքը
Իրական ժամանակում վերլուծությունը ոչ թե «արագ BI» է, այլ կառավարվում է պայմանագրերի, stateful տրամաբանության, CEP, watermarks, onome-հարստացում և SLO-ի կառուցվածքներ։ Այս պրակտիկային հետևելով, պլատֆորմը ստանում է ճշգրիտ ազդանշաններ և լուծումներ վայրկյանում, աջակցելով կոմպլենսներին, ապրանքային սցենարներին և վիրահատական կայունությանը վերահսկվող արժեքով։