Ազդանշանների և ծանուցումների համակարգը
1) Դերը և նպատակները
Ազդանշանների համակարգը ոչ թե «հաղորդագրությունների ուղարկումը» է, այլ որոշումների կայացման տեմպը, այն ժամանակին փակցնում է շեղումները, առաջարկում է գործողություններ և պահպանում հավասարակշռությունը ժամանակի և լռության միջև։
Նպատակները
Նվազեցնել MTTD/MTTR-ը գերակայության և հստակ պլեյբուսների պատճառով։
Նվազեցնել alms fatigue (անհանգստությունից հոգնածություն) աղմուկի միջոցով։
Գործողություններ ուղղակիորեն ծանուցումից (ack, www.ooze, runbook, ավտոմատացում)։
Պահպանել գաղտնիությունը և համաձայնությունը (opt-in/opt-out, լոգոյի պահպանումը)։
2) Իրադարձությունների և մակարդակների տաքսոնոմիա
2. 1 Տեսակի իրադարձություններ
Մետրիկի/անոմալիա (SNE, ապրանք, ֆինանսներ)։
Բիզնես կանոնները (լիմիտներ, ֆրոդ, KYC, վճարումներ)։
Մոսկվան (դոպլոյ, դեգրադացիա, լիցենզիա)։
Օգտագործողները (վարքագծային ձգումներ, RG/պատասխանատու խաղ)։
2. 2 Կարևորության մակարդակներ (Severity)
Critical-ը ռուսական արձագանք է, ռիսկը/անվտանգությունը։
High-ը KPI/SLO-ի կարևոր վատացումն է։
Աշխատանքային ժամին անհրաժեշտ է գործողություններ։
Low/Windows-ը դիտարկումն է/ենթատեքստը, auto-scartests-ը։
2. 3 Առաջնահերթություն (Priority)
Մատրիցա 'Impact no Urgency '35P1.. P4։ Կապում է և SLA արձագանքի հետ։
3) Ճարտարապետություն և հոսքեր
Shina-ի ազդանշանների արտադրողները (enrich, dedup) - Corrizing International (Policy entine) - Առաքման ալիքների երթուղային արտադրողները։
Հիմնական բաղադրիչները
Enricher 'ավելացնում է տենանտը, դերը, տարածքը, հղումները։
Deduper 'վերակազմավորել կրկնվող իրադարձությունները։
Medrel.ru-ը 'ընտանեկան ազդանշաններ գցել պատահականության մեջ։
Policy Engine: YAML/DSL կանոնները, quiet hours, էսկալացիա։
Delivery: in-ap, email, push, SMS, webhook, chat-2019։
4) Կանոններ և քաղաքականություն (օրինակ YAML)
yaml policies:
- id: p_sre_critical match: { domain: "infra", severity: "critical" }
route:
primary: { channel: "pager", targets: ["oncall_sre"] }
fallback: { channel: "sms", delay: "2m" }
suppress:
flapping: {window: "10m," threshold: 5} # suppressing frequent twitching duplicates: {key: ["service, ""cluster,"" error _ code"], ttl: "15m"}
escalate:
after: "10m"
to: ["sre_manager"]
auto_assign: true
- id: p_product_medium match: { domain: "product", severity: "medium", kpi: "conversion" }
route:
primary: { channel: "inapp", audience: "product_owners" }
digest:
window: "1h"
max_items: 10 quiet_hours:
tz: "Europe/Kyiv"
ranges: ["22: 00-07: 00"] # only P1 digests/pager at this time
5) Դեդուպլիկացիա, հարաբերակցություն, ֆլամպինգի ճնշում
Dedup: «dedup _ key = hash» խմբերը։ TTL-ը ֆլամպինգի պատուհան է։
Հարաբերակցություն. Համախմբեք կապված ազդանշանները տեղաբանության վրա (ծառայությունն է կախվածությունը), ժամանակը (NM) և ենթատեքստը (թողարկումը, դեպքը)։
Ֆլամպինգը '«N իրադարձություններ M րոպեում» շեմերը մեկ ազդանշան են «flapping detected»' առաջարկելով բարձրացնել histeration կամ superation։
6) Միկրոակտիզացիա և RACI
Responsible: Ով ստանում է առաջին ծանուցումը/թասկը։
Accountable: Ով է SLA-ից հետո։
Consulted: Ում նշեք tred/chat-ալիքը։
Informed: Ո՞ վ կհեռանա/արդյունքները։
Նշանակեք դերի և համատեքստի միջոցով (տենանտ, տարածք, հոսանքի արտադրանք)։
7) Առաքման ալիքները և նրբությունները
Retrai: 5x/429/timaut nobackoff + jitter; «Retry-After» հարգել։ Idempotention: «X-Notifox-Id» վեբհուկներում։
8) Նախընտրությունների կենտրոնը (Winferences Express)
Opt-in/Opt-out տեսակի իրադարձությունների, մակարդակների, պարամետրերի։
Լռության գրաֆիկը (quiet hours), ձեռքի շարժիչը 15/30/60 ռուբլով
Շեմն/զգայունությունը (օրինակ ՝ անոմալիա 3.1)։
Լեզուն/ստալիլ, ժամանակի/արժույթի ձևաչափը։
Կապում է դերերի հետ 'ճնշումներ MSE/Wint/Finance-ի համար։
Թափանցիկություն 'ցույց տալ, թե ինչու է օգտագործողը ստացել ազդանշան (հղում կանոն)։
9) Բովանդակության դիզայն 'հաղորդագրության կառուցվածքը
Կրիտիկական ազդանշանի համար (P1)
Վերնագիրը 'հակիրճ, ձգաններով: <<[PMS _ TR] PDS-ի ձախողումների կտրուկ աճը (+ 12%)>։
Համատեքստը 'հատվածներ/տարածաշրջաններ, տվյալների աղբյուրը։
Պատճառն այն է, որ «Կապված է PMS _ X 18: 20 UTC-ի հետ»։
SLA/dedline: «Էսկալացիա 10 րոպե հետո»։
CTA: «Բացել պլեյբուկը», «Միացնել fallback PMS _ Y», «Ack (30 րոպե)»։
Հղումներ ՝ գրաֆիկ, պատահականություն, մետրեր, runbook։
«Trace _ id», «incident _ id», «dedup _ key»։
Թոն 'փաստեր, առանց դրամիզացիայի; թվեր և միավորներ։ խուսափել առանց գաղտնագրման։
Տեղայնացումը 'պլեյշոլդերներ, թարգմանությունները պահվում են ռեսուրսների մեջ։ / ամսաթվերը 'լոկալներով։
10) Ծանուցումներից (Actionable)
Ack/Delooze-ը ժամանակից ի վեր։
Assance/Windite trade-ում։
Runbook: Բացել լուծումների քայլերը ենթատեքստով։
One-click remediation (որտեղ անվտանգ է) 'անցնել երթուղին, բարձրացնել սահմանը, վերագործարկել ջոբա (հաստատմամբ և աուդիտով)։
Ստեղծել tiket (Jira/GitHub) 'դաշտերի բենզալցակայանով։
11) Ազդանշանների որակը 'չափումներ և նպատակներ
Precision (ուղարկվածների մասնաբաժինը) 3880 տոկոսն է P1/P2 համար։
Recall (բոլոր կղզիների շրջանում հայտնաբերված մասնաբաժինը) 70 տոկոսն էր։
Noise: միջին ազդանշաններ/ժամ օգտագործողի վրա (ռուսական առաստաղի)։
Ack-time p50/p95, Escalation rate, Delooze rate (որպես աղմուկի ցուցիչ)։
MTTD/MTTA/MTTR (ալիքների և ալիքների հատվածում)։
Silenced-but-should-al.ru (կանոնների պատճառով) - առանձին dashbord։
12) Աղմուկի կառավարումը 'տեխնիկան
Հիստերեևիչը և «սայթաքող պատուհանները» շեմերի համար։
Դետեկտիվ (EWMA) առաջ։
Ագրեգացիան '30 փոքրիկի փոխարեն' մեկ բաթ/դիստրիբյուտորներ։
Կոնտեքստային լիմիտներ ՝ ոչ ավելի քան N ծանուցումներ/ժամ/ջրանցք/օգտագործող։
Avto-հետադարձ կապը, եթե օգտագործողը երեք անգամ անընդմեջ սեղմում է Delooze-ը առաջարկի բարձրացնել շեմն/փոխել ալիքը։
13) Անվտանգություն, գաղտնիություն, կոմպլամենս
HMAC ստորագրությունը webhuks-ի համար, գաղտնիքների լուծարումը, «X-Key-Id»։
RBAC/ABAC 'ազդանշանների տեսանելիությունը դերերի/տենանտների վրա։
PII-նվազեցումը, լոգոտներում դիմակները, գործողությունների աուդիտը (ack/ass.ru/runbook)։
Համաձայնությունները (consent) և ծանուցման պատճառները (կանոն/քաղաքականություն) - payload-ում։
Retention/TTL ծանուցումների լոգոն, Legal Hold պատահականներով։
14) Սխեմաներ և payload 'a
Իրադարձություն (ներքին)
json
{
"id": "sig_01HX",
"domain": "payments",
"severity": "high",
"priority": "P2",
"title": "The 3DS failure graph has grown to 8. 2% (+3. 1 pp), "
"occurred_at": "2025-11-03T17:55:00Z",
"context": { "psp": "PSP_X", "country": "TR", "release_id": "rel_241103_1820" },
"metrics": { "baseline": 5. 1, "current": 8. 2, "delta_pp": 3. 1 },
"dedup_key": "payments PSP_X TR 3DS_FAILURE",
"runbook": "rbk_psp_3ds_spike",
"slo": { "ack_deadline_sec": 600 }
}
Ծանուցում (ալիքի ագնոստիկ)
json
{
"notification_id": "ntf_91ab",
"signal_id": "sig_01HX",
"targets": ["oncall_payments"],
"channels": ["inapp","slack","webhook"],
"cta": [
{"id": "ack," "label": "Confirm (30 min)," "payload": {"ttl ":" 30m"}},
{"id": "runbook," "label": "Open playbook," "payload": {"id ": "rbk _ psp _ 3ds _ spike"}},
{"id": "fallback," "label": "Enable fallback, PSP_Y" "confirm": true}
],
"hmac": "sha256=AbCd..."
}
15) UX-patterns սննդի մեջ
Inboxs: Critical/High/Other, Baighi քանակությամբ ներդրումներ։
Մրցույթի ժապավենը 'փոխկապակցված ազդանշաններ, գործողությունների թայմլին, «ինչ է արվել»։
Ֆիլտրերը 'դերը, տիրույթը, տարածքը, ժամանակը, «միայն անպատասխան»։
Արագ գործողությունները ցուցակում (ack/www.ooze/ass.ru)։
Altain: <Ինչու եք դա տեսնում>> (սովորաբար շեմեր, տվյալներ)։
Դամբարաններ ՝ առավոտյան/երեկոյան, տեղայնացված TZ-ով։
16) Թեստ պլան
Unit 'dedup-բանալիներ, histereae, flapping, payload' ov։
Integration 'միկրոօրգանիզացիա, quiet hours, էսկալացիա, ջրանցքների ռեակտներ։
E2E: P1 սցենարը անոմալիայից մինչև հյուսվածքի փակումը։ P2-ը quiet hours-ում։
Chaos 'ջրանցքի կորուստը (SMTP/SMS), ուշացումները, ազդանշանների լավինը, clock-skew։
A1y/i18n: screen-readers, ստեղնաշարային ack/www.ooze, թվերի/ամսաթվերի տեղայնացումը։
17) Որակի դասեր
Precision/Recall։
Ack time p50/p95 և ժամանակին ապացուցված մասը։
Noise per user/hour և լավագույն աղմկոտ կանոնները։
Escalation rate-ը և «կեղծ էսկալացիաները»։
Suppressed vs Disivered (որքան ճնշված/կրճատվել է dronest)։
User feedback : /հաղորդագրությունները, մեկնաբանությունները աղմուկի համար։
18) Չեկ թերթերը
Նախագծումը
Իրադարձությունների և մակարդակների տաքսոնոմիան համաձայնեցված է
- Quiet hours/էսկալացիաները նկարագրված են
- Dedup/հարաբերակցությունը/flapping-ը տրամադրված են
- Ալիքներ, ռեթրեյ, վեբհուկներ
- Նախընտրությունների կենտրոն (opt-in/out, www.ooze)
- Բովանդակության ձևանմուշները և տեղայնացումը
- Պլեյբուկին և one click գործողությունը (աուդիտի հետ)
- Որակի և դաշնամուրի մետրիխները
Վիրահատություն
Շեմի օպտիմիզացումը եռամսյակում մեկ անգամ
- A/B կանոններ (շեմն, պատուհանները, digest)
- «Լավագույն աղմուկի» և CAPA ակնարկները
- Ջրանցքների գաղտնիքները (HMAC, SMTP, SMS)
- Անհանգստության թեստ (game days) ըստ ժամանակացույցի
19) Իրականացման պլանը (3 իտացիա)
Iteration 1 - Հիմնական ֆորումը (2-3 շաբաթ)
Տաքսոնոմիա, severity/priority, նախընտրությունների կենտրոն (in-ap + email)։
Դեդուպը, պարզ հարաբերակցությունը բանալին/ժամանակը, quiet hours-ը։
Հաղորդագրությունների, պլեյբուսների, ack/www.ooze/ass.ru։
Iteration 2 - Մոսկվա և աղմուկի բարձրացում (3-4 շաբաթ)
Flapping/histereae, dronests, chat-2019 և webhuki (HMAC, retrai)։
SLA-ի էսկալացիաները, որակի dashbords (precision/recall, medise)։
One-click remediation (ապացուցելով և աուդիտով)։
Iteration 3 - Օպտիմիզացիա և մասշտաբներ (շարունակաբար) (շարունակաբար)
Իրավաբանության/թողարկումների հարաբերակցությունը, շեմերի ավտո առաջարկները։
A/B կանոնները, կանխատեսումը «Երբ շեմն աշխատում է»։
Աղմուկի և www.game days-ի ակնարկները։
20) Mini-FAQ
Ինչպե՞ ս պայքարել almentfatigue-ի դեմ։
Դեդուպը, հարաբերակցությունը, հիստերեեստը, նախասիրությունների կենտրոնները + 108 աղմուկի և A/B շեմերի ակնարկներ։
Արդյո՞ ք ML-ն անհրաժեշտ է անոմալիաների համար։
Օգտակար է, բայց սկսեք դետերմինացված կանոններից և բացատրական շեմերից։ ML-ը 'որպես վերադասավորում, անպայման Altain-ի հետ։
Ինչու՞ են օգտագործողները ստանում «ավելցուկ» նամակներ։
Կանոնների հանդիպումները, quiet hours-ը, «Ինչու՞ է առաքվել» աուդիտը, տեղադրեք սահմանները ջրանցքի/ժամի և դիստեստի վրա։
Արդյունքը
Ազդանշանների ուժեղ համակարգը խելացի ֆիլտրումն է և ճիշտ գերակայությունը + գործողությունը մեկ կլիկի մեջ։ Ֆորմալիզացրեք տաքսոնոմիան և քաղաքական գործիչները, ներդրեք dedup/հարաբերակցություն/histereae, թույլ տվեք կանոնավոր վերահսկողություն (www.ferences, wwww.ooze), ապահովեք հուսալի առաքում և թափանցիկություն «ինչու եմ ստացել»։ Այդ ժամանակ ազդանշանները կդառնան կառավարման գործիք, ոչ թե աղմուկի աղբյուր։