Амалиётҳо ва ҳушёрӣ → Идоракунӣ аз рӯи иқтидори система
Огоҳиҳои қобилияти система
1) Чаро ба шумо лозим аст
Огоҳии қобилиятнок аз наздик шудани маҳдудиятҳои техникӣ хеле пеш аз ин ҳодиса огоҳ мекунад: "мо 80% шифтро дорем - вақти он расидааст, ки миқёс гирем. "Барои тиҷорати хӯрокворӣ, ин бевосита дар бораи пул аст: гаравҳо/пасандозҳои беҷавоб, тарки сессия, таъхири бозии зинда ва нокомии провайдер = даромади аз даст рафта, обрӯ, ҷаримаҳо ва зарбаҳо.
Вазифаҳо:- Эҳтимол ба сарбории баландтарин тоб оварад (чорабиниҳо, мусобиқаҳо, ҷараёнҳо, маъракаҳои калон).
- Вақтро ба миқёси худкор фурӯзон кунед ва баланд бардоштани иқтидорро ба нақша гиред.
- Вақте ки SLO/пул дар хатар аст, садоро коҳиш диҳед ва "дар тиҷорат" бедор шавед.
- Ба муҳандисон тавассути дафтарчаи корӣ тавсияҳои дақиқ диҳед.
2) Мафҳумҳои асосӣ
Иқтидор: интиқоли максималии устувор (RPS/TPS, пайвастшавӣ, IOPS, интиқол).
Хона: маржа байни сарбории ҷорӣ ва маҳдудиятҳо.
SLO/SLA: сатҳи мақсадноки дастрасӣ/вақти посух; огоҳиҳо бояд "SLO-огоҳ" бошанд.
Сатҳи сӯзондан: суръати "сӯзондан" буҷаи SLO хатогиҳо/ниҳонӣ.
Нишони баланд/паст: сатҳи болоӣ/поёнӣ барои амалҳо ва барқароркунии худкор.
3) Меъмории сигнал ва манбаъҳои маълумот
Телеметрия: ченакҳо (Prometheus/OT el), гузоришҳо (ELK/Click 'House), пайҳо (OT el/Jaeger).
Равиши қабат: огоҳиҳо аз рӯи қабатҳои (Edge → API → хизматрасониҳои тиҷорӣ → навбатҳо/ҷараёнҳо → пойгоҳи додаҳо/кэшҳо → мағозаҳои файл/объект → провайдерҳои беруна).
Контекст: парчамҳои хусусӣ, релизҳо, маъракаҳои маркетингӣ, мусобиқаҳо, гео-ҳамоҳангсозӣ.
Чархи ҳодиса: Alertmanager/Pager .Duty/Opsgenie/Slack; ҳатмӣ ба матритсаи runbook ва шиддат.
4) Ченакҳои калидӣ аз рӯи қабат (чиро бояд назорат кард ва чаро)
Edge/L7
RPS, таъхири 95-/99-фоизӣ, суръати хатогӣ (5xx/4xx), пайвастҳои кушода.
Меъёрҳо/квотаҳо, коҳиш на CDN/WAF/Firewall.
API-шлюз/Backend-for-Frontend
Қаноатмандӣ аз ҷониби ҳавзи коргарӣ/корӣ, дархост кардани навбат, танаффус ба поёноб.
Фраксияи таназзул (камбудиҳо, гардишгарон).
Навбат/ҷараён (Кафка/Харгӯш/Пулсар)
Таъхир/таъхири истеъмолкунандагон, суръати афзоиши ақибмонӣ, интиқол (msg/s, MB/s).
Қисмати қисм, мувозинати мувозинат, ISR (барои Кафка), ретрей/бобояш-баъдтар.
Коргарони асинхронӣ
Мӯҳлати кор, дарозии навбат, фоизи вазифаҳои ба итмомрасидаи SLA.
Saturation CPU/Хотира/FD дар ҳавзҳо.
Caches (Редис/Memcached)
Таносуби хит, ниҳонӣ, кӯчдиҳӣ, хотираи истифодашуда, муштариёни пайвастшуда/опс/с.
Кластерҳо: слотҳо/нусхаҳо, ҳодисаҳои ноком.
BD (Postgre
Пайвастҳои фаъол vs max, интизориҳои қулф, ақибмонии такрорӣ, зарбаи буферӣ/кэш.
IOPS, таъхири хондан/навиштан, гузаргоҳ/оббозӣ, гулӯ/фрагментатсия.
Объект/Захираи файлҳо
Таъхири PUT/GET, 4xx/5xx, egress, дархостҳо/sec, маҳдудиятҳои провайдер.
Таъминкунандагони беруна (Пардохтҳо/LCC/Провайдерҳои бозӣ)
Маҳдудиятҳои TPS, тирезаҳои QPS, сатҳи хатогӣ/танаффус, навбати бозгашт, "арзиши як занг".
Инфрасохтор
CPU/Хотира/FD/IOPS/Пур кардани шабака дар гиреҳҳо/подкастҳо/ASG.
Чорабиниҳои HPA/VPA, чӯбҳои интизорӣ, контейнери OOM/Throttling.
5) Намудҳои огоҳиҳои қобилиятнок
1. Ҳадди статикӣ
Оддӣ ва рост: 'db _ connections> 80% max'. Хуб ҳамчун сигнали маяк.
2. Ҳадди мутобиқшавӣ (динамикӣ)
Дар асоси мавсимӣ ва тамоюл (тирезаҳои ғелонда, таҷзияи STL). Иҷозат диҳед, ки "барои ин соат/рӯзи ҳафта хеле баланд".
3. SLO-нигаронидашуда (сатҳи сӯхтан)
Онҳо вақте ба амал меоянд, ки меъёри хӯрокхӯрии буҷа SLO-ро дар уфуқи X соат зери хатар мегузорад.
4. Пешгӯӣ (пешгӯиҳо-огоҳиҳо)
"Пас аз 20 дақиқа дар тамоюли кунунӣ, навбат ба 90% мерасад". Пешгӯии хаттӣ/мустаҳкам/Паёмбар дар тирезаҳои кӯтоҳ истифода мешавад.
5. Бисёр сигнал
Триггер бо омезиши: 'quenue _ lag *' + 'consumer _ cpu 85%' + 'autoscaling дар max' → 'дахолати дастӣ лозим аст. "
6) Сиёсати ҳадди аксар ва садои зидди садо
Нишони баланд/паст:- Боло: огоҳӣ 70-75%, Крит 85-90%. Поён: гистерезис 5-10 саҳ. Бо мақсади "дар остона надидан".
- 'for: меъёрҳои 5m' for, 'барои: огоҳиҳои 10-15m' for. Ҳолати шабона: масир барои сӯҳбат бидуни пейдж муҳим нест.
- Гурӯҳ аз рӯи хидмат/кластер/гео, то кортҳои ҳодисаро истеҳсол накунанд.
- Агар провайдери KYC аз кор барояд ва хатогиҳои API ба сабаби пейджинг соҳиби ҳамгироӣ бошанд, на ҳама истеъмолкунандагон.
- Дар давраи саҳҳомӣ ҳадди садоро барои "афзоиши пешбинишуда" баланд кунед, аммо ҳушдорҳои SLO-ро солим гузоред.
7) Намунаҳои қоида (псевдо-прометей)
Пайвастҳои DB:
ALERT PostgresConnectionsHigh
IF (pg_stat_activity_active / pg_max_connections) > 0. 85
FOR 5m
LABELS {severity="critical", team="core-db"}
ANNOTATIONS {summary="Postgres connections >85%"}
Кафка ақибмонӣ + миқёси худкор дар маҳдудият:
ALERT StreamBacklogAtRisk
IF (kafka_consumer_lag > 5_000_000 AND rate(kafka_consumer_lag[5m]) > 50_000)
AND (hpa_desired_replicas == hpa_max_replicas)
FOR 10m
LABELS {severity="critical", team="streaming"}
SLO-и сӯзондан (таъхири API):
ALERT ApiLatencySLOBurn
IF slo_latency_budget_burnrate{le="300ms"} > 4
FOR 15m
LABELS {severity="page", team="api"}
ANNOTATIONS {runbook="wiki://runbooks/api-latency"}
Хотираи Редис ва evikshens:
ALERT RedisEvictions
IF rate(redis_evicted_keys_total[5m]) > 0
AND (redis_used_memory / redis_maxmemory) > 0. 8
FOR 5m
LABELS {severity="warning", team="caching"}
Таъминкунандаи пардохт - Маҳдудиятҳо:
ALERT PSPThroughputLimitNear
IF increase(psp_calls_total[10m]) > 0. 9 psp_rate_limit_window
FOR 5m
LABELS {severity="warning", team="payments", provider="PSP-X"}
8) Равиши SLO ва афзалияти тиҷорат
Аз сигнал то таъсири бизнес: Огоҳиҳои қобилият бояд ба SLO ишора кунанд (ченакҳои мушаххас/гео/GGR, табдили пасандозҳо).
Сатҳи бисёрҷониба: огоҳӣ барои хидмати занг; Crete - саҳифаи соҳиби домейн; SLO-тарки - ҳодисаи асосӣ ва канали "хулоса" -и гурӯҳ.
Хусусиятҳои таназзул: коҳиши худкори сарборӣ (танҳо қисман хондан, буридани хусусиятҳои вазнин, кам кардани басомади пахши jackpot, хомӯш кардани аниматсияҳои "вазнин" дар бозиҳои зинда).
9) триггерҳои худкор ва "дуруст"
HPA/VPA: ҳадаф на танҳо аз ҷониби CPU/Memory, балки аз рӯи нишондиҳандаҳои тиҷорат (RPS, ақибмонии навбат, таъхири p99).
Вақти гармкунӣ: бо назардошти маҳдудиятҳои оғози хунук ва провайдер (ASG spin-up, контейнерҳо, кэшҳои гармкунӣ).
Гвардияҳо: шароити таваққуф дар афзоиши хатогиҳо ба тарма; муҳофизат аз "мушкилоти scalim".
Китобҳои қобилияти бозӣ: дар куҷо ва чӣ гуна илова кардани шард/ҳизб/нусха, чӣ гуна тақсим кардани трафик аз рӯи минтақа.
10) Раванд: аз тарроҳӣ то ба кор
1. Харитаи маҳдудият: барои ҳар як қабат маҳдудиятҳои "ҳақиқӣ" ҷамъ кунед (максимум conns, IOPS, TPS, провайдерҳои квота).
2. Интихоби ченакҳои пешгӯишаванда: кадом сигналҳо аввал "истироҳат дар дақиқаҳои N" -ро нишон медиҳанд.
3. Тарҳи ҳадди ниҳоӣ: баланд/паст + SLO-сӯзон + мураккаб.
4. Дафтарчаи корӣ барои ҳар як крит: қадамҳои ташхисӣ ("чӣ бояд кушод", "чӣ фармон медиҳад", "дар куҷо афзоиш додан"), се варианти амал: ҳаракати тез, миқёс, таназзул.
5. Озмоиш: моделсозии сарборӣ (бетартибӣ/рӯзҳои бозӣ), оғози хушки огоҳиҳо, санҷиши зидди садо.
6. Баррасӣ ва қабул: соҳиби сигнал = соҳиби хидмат. Соҳиб нест - саҳифа нест.
7. Ретроспективаҳо ва танзими: таҳлили ҳарҳафтаинаи бардурӯғ/пазмон; метрикаи "MTTA (ack), MTTD, MTTR, таносуби садо/сигнал".
11) Анти-намунаҳо
CPU> 90% ⇒ воҳима: бидуни иртибот бо таъхир/навбат, ин метавонад муқаррарӣ бошад.
"Як ҳадди ҳама": минтақаҳои гуногун/минтақаҳои вақт - профилҳои гуногуни ҳаракат.
Ҳушдор бидуни runbook: саҳифа бидуни амали возеҳ занг мезанад.
Нобиноӣ ба провайдерҳо: квотаҳо/маҳдудиятҳои беруна аксар вақт аввалин скриптҳои "шикастан" мебошанд (PSP, KYC, зидди қаллобӣ, провайдерҳои бозӣ).
Ҳистерезис нест: "дидан" дар сарҳади 80 %/79%.
12) Хусусиятҳои IGaming/платформаҳои молиявӣ
Қуллаҳои ҷадвал: вақти саривақтӣ, финалҳои мусобиқа, бозиҳои асосӣ; Нусхаҳои мақсаднокро пешакӣ пур кунед ва кэшҳоро пешакӣ пур кунед.
Ҷараёнҳои мустақим ва jackpots: пардаи рӯйдодҳои пахши § маҳдудиятҳо дар брокерҳо/вебсайтҳо.
Пардохтҳо ва KYC: тирезаҳои провайдер, баҳодиҳии зидди қаллобӣ; хатсайрҳои эҳтиётӣ ва пасандозҳои "файз-режим" -ро нигоҳ доред.
Geo-balance: нокомии провайдери маҳаллӣ - интиқол додани трафик ба минтақаи ҳамсоя, ки дар он ҷо сарпӯш мавҷуд аст.
Масъулият: бо хатари аз даст додани гарав/jackpots - саҳифаи фаврӣ ба дастаи домейн + ҳушдордиҳӣ.
13) Панели панелҳо (маҷмӯи ҳадди аққал)
Шарҳи қобилият: сарпӯш аз рӯи қабат, болои 3 минтақаи хатарнок, SLO-и сӯхтанӣ.
Ҷараён ва навбатҳо: ақибмонӣ, афзоиши ақибмонӣ, қаноатмандии истеъмолкунандагон, ҳолати HPA.
DB & Cache: пайвастҳо, repl-lag, таъхири p95/p99, таносуби зарба, кӯчдиҳӣ.
Таъминкунандагон: TPS/windows/квота, танаффус/хатогиҳо, арзиши занг.
Контексти нашр/хусусият: релизҳо/phicheflags дар паҳлӯи каҷ.
14) Рӯйхати назорати амалисозӣ
- Рӯйхати маҳдудиятҳо ва соҳибони "ҳақиқӣ".
- Харитаи ченакҳои пешгӯишаванда + ассотсиатсияҳои қабати.
- Ҳадди статикӣ + гистерезис.
- Огоҳиҳои SLO-сӯзондан дар роҳҳои муҳим (амонат, гарав, оғози бозии зинда).
- Огоҳиҳои пешгӯишаванда дар навбат/ҷараёнҳо/пайвастҳо.
- Қатъкунӣ/нигоҳдории тиреза; сиёсати зидди садо.
- Китоби корӣ 'ва бо фармонҳо, графикҳо, филтрҳои таназзул.
- Таҳлили ҳарҳафтаинаи мусбат ва танзими бардурӯғ.
- Ҳисобот барои маъракаҳои маркетингӣ ва тақвими чорабиниҳо.
15) Намунаи намунаи дафтарчаи корӣ (ихтисоршуда)
Сигнал: 'Stream' Backlog
Ҳадаф: Пешгирии афзоиши ақибмонӣ> 10 миллион ва таъхири табобат> 5 дақиқа.
Ташхис (3-5 дақиқа):1. 'Hpa _ дилхоҳ/max', дроссель/oom-ро дар чоҳҳо санҷед.
2. Намоиши 'rate (lag)', тақсимот (skew).
3. Брокерро санҷед (ISR, нусхабардорӣ, шабака).
Амалиётҳо:- Нусхаҳои истеъмолкунандаро аз ҷониби + N зиёд кунед, ҳадди аксар парвозро зиёд кунед.
- Фаъол кардани ҳавзи афзалиятнок дар "мавзӯъҳои муҳим".
- Муваққатан кам кардани басомади табобатҳои дуюмдараҷа/ғанисозӣ.
- Агар 'ASG дар ҳадди аксар' - аз абр боло рафтани муваққатиро талаб кунед; дар баробари ин - деградатсияи функсияҳои вазнинро имкон медиҳад.
- Бозгашт: Бозгашт ба профили муқаррарии ҳаракат пас аз 'ақибмонӣ <1 миллион' 15 дақиқа.
- Афзоиш: Соҳиби кластери Кафка, пас платформаи SRE.
16) KPI ва сифати сигнал
Фарогирӣ:% роҳҳои муҳим бо огоҳиҳои қобилиятнок баста шудаанд.
Ғавғо/сигнал: На бештар аз 1 саҳифаи бардурӯғ дар як занг/ҳафта.
MTTD/MTTR: ҳодисаҳои қобилиятнок ≤ 5 дақиқа пеш аз зарбаи SLO ошкор карда мешаванд.
Сарфаи фаъолона: шумораи ҳодисаҳои пешгирӣ (тавассути постмортем).
17) Оғози зуд (пешфарзҳои консервативӣ)
DB: огоҳӣ 75% пайвастшавӣ/IOPS/lat; crete 85%, гистерезис 8-10 саҳ
Кэшҳо: 'хит <0. 9 'Ва' кӯчдиҳӣ> 0 '> 5 дақиқа - огоҳӣ;' истифода _ mem> 85% '- Крит.
Навбатҳо: баландии 'ақибмонӣ'> 3 σ ба ҳисоби миёна барои 30d + 'hpa at max' - Крит.
API: 'p99> SLO1. 3 '10 дақ - огоҳӣ;' сӯзондан> 4 '15 дақ - Крит.
Таъминкунандагон: 'интиқол> 90% квота' - огоҳӣ; 'вақтхушӣ> 5%' - Крит.
18) FAQ
Савол: Чаро на танҳо "CPU> 80%"?
Ҷ: Бе контексти ниҳоӣ/навбатӣ, ин садо аст. Худи CPU ба хатар баробар нест.
Савол: Оё ба мо ҳадди мутобиқшавӣ лозим аст?
Ҷ: Бале, барои мавсими ҳаррӯза/ҳафтаина - коҳиш додани мусбатҳои бардурӯғ.
Савол: Маркетинг/чорабиниҳоро чӣ гуна бояд баррасӣ кард?
A: Тақвими маърака → эзоҳҳо дар графикҳо + тасҳеҳи муваққатии зидди садо, аммо ба огоҳиҳои SLO нарасед.