Панели инфрасохтор
1) Чаро ба шумо лозим аст
Тасвири ягонаи давлат: аз кластер ва шабакаҳо то пойгоҳи додаҳо ва навбатҳо.
RCA-и зуд ва пас аз марг: як хӯшаи ченакҳо ↔ гузоришҳо ↔ пайҳо.
SLO аз рӯи хидмат ва платформа: назорат аз болои мавҷудият ва таъхир.
Шаффофияти FIN: ҳаҷм/арзиши хидматрасонӣ, иҷорагир ва муҳит.
Мувофиқат/амният: ҳолати часбҳо/осебҳо, дастрасӣ, аномалияҳо.
Методология: Сигналҳои тиллоӣ (таъхир, трафик, хатогиҳо, пуррагӣ), RED (Меъёр, хатогиҳо, давомнокӣ) барои дархостҳо, USE (Истифода, Сатуратсия, Хатогиҳо) барои захираҳо.
2) Принсипҳои панели хуб
Actionable-Ҳар як панел ба "чӣ бояд кард" ҷавоб медиҳад.
Иерархия: шарҳи → доменҳо → ғаввосии амиқ → хом.
Қолибҳо/тағирёбандаҳо: 'кластер', 'фазои ном', 'хидмат', 'иҷорагир', 'env'.
Воҳидҳои ягона: ms барои ниҳонӣ,%, RPS, ops/sec, байтҳо.
Вақтсанҷи пайваста: пешфарз 1-6 соат, рӯза 5m/15m/24h.
Пармакунӣ: аз панел то гузоришҳо (Loki/ELK) ва роҳ (Tempo/Jaeger).
Моликият: соҳиб дар панели панел, SLO, runbook, тамос бо занг нишон дода шудааст.
3) Сохтори папка ва нақшҳо
00_Overview - шарҳи сатҳи баланди платформа.
10_Kubernetes - кластерҳо, гиреҳҳо, сарбории корӣ, HPA/VPA, зарфҳо.
20_Network_Edge - Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - Postgre
40_CICD_Runner - қубурҳо, агентҳо, артефактҳо, феҳристҳо.
50_Security_Compliance - осебпазирӣ, часбҳо, RBAC, чорабиниҳои аудитӣ.
60_FinOps_Cost - арзиши як хидмат/иҷорагир/кластер, ихтиёрдорӣ.
99_Runbooks - пайвандҳо ба дастурҳо ва кортҳои SLO.
Нақшҳо: Платформа-SRE (дастрасии пурра), Соҳиби хизматрасонӣ (ҷойҳои худ), Амният/Мувофиқат, Молия/FIN, Танҳо намоиш.
4) Панели назоратии платформа (Landing)
Мақсад: дар ≤ 30 сония барои фаҳмидани он ки ҳама чиз ба тартиб оварда шудааст.
Панелҳои тавсияшуда:- Платформаи SLO (канори мавҷудияти API): арзиши ҳадаф, воқеӣ, давраи хатогиҳо, сатҳи сӯзондан.
- p50/p95/p99 таъхир аз ҷониби нуқтаҳои асосии вуруд.
- Хатогиҳои 4xx/5xx ва нуқтаҳои болоӣ бо регрессия.
- Пур кардани захираҳо (CPU, RAM, шабака, диск) - p95 аз ҷониби кластер.
- Ҳодисаҳо/огоҳиҳо (фаъол) ва нашри охирин.
- Арзиш/соат (тахминӣ) ва тамоюл ба ҳафта.
Қолабҳои тағирёбанда: 'env', 'минтақа', 'кластер', 'иҷорагир'.
5) Кубернетҳо: кластерҳо ва устохонаҳо
Гурӯҳҳои асосӣ:1. Кластер/гиреҳҳо
Партофтани CPU/хотира, фишор (хотира/cpu), диски IO, инод.
Зерсистемаҳо: kube-api, etcd, контроллерҳо; саломатии кубелет.
2. Ворклоадс
RPS/RPM, таъхири p95, сатҳи хатогӣ, бозоғоз, дӯзандагӣ, OOMK bills.
Ҳадафҳои HPA против ченакҳои воқеӣ.
3. Роҳчаи шабақа дар дохили кластер
EBPF/Netflow: гуфтугӯҳои боло, қатраҳо, ретрансмитҳо.
4. Ҳодисаҳо K8s
Rate po Огоҳӣ/Нокомӣ/Банақшагирӣ/Бозгашт.
Намунаҳои Prom-QL:promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))
Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))
Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))
6) Edge, шабака ва DNS
Панелҳо:- Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
- LB/Anycast: тақсимоти трафик аз рӯи минтақаҳо, ҳодисаҳои номуваффақ.
- DNS: таъхири ҳалли, меъёри NXDOMAIN/SERVFAIL, кэши таносуби хит.
- CDN/WAF: бо қоидаҳо манъ карда шудааст, трафики ғайримуқаррарӣ (ботҳо/скреперҳо).
promql sum(rate(nginx_http_requests_total[5m])) by (status)
7) Пойгоҳи додаҳо ва анборҳо
Postgre SQL/My-SQL: qps, ниҳонӣ, интизории қулф, ақибмонии такрорӣ, нусхабардорӣ/нокомӣ.
Редис: таносуби хит, кӯчдиҳӣ, хотира, фармонҳои суст.
Кафка/Харгӯшҳо: ақибмонӣ аз ҷониби гурӯҳҳои истеъмолкунандагон, мувозинат, паёмҳои кушодашуда.
Нигоҳдории объект: дархостҳо, хатогиҳо, egress, lat p95.
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)
Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
Кафка (мисол):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)
8) CI/CD ва артефактҳо
Шарҳи қубур: муваффақият/вақти корӣ, навбати даванда.
Саломатии ҷойгиркунӣ: версияҳо, ҳолати канарӣ/кабуд-сабз, вақти гарм.
Феҳристҳои тасвир: андоза, такони охирин 'ва, ихтиёрдорӣ.
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate
9) Бехатарӣ ва риояи
Часбҳо ва осебпазирӣ: таносуби гиреҳҳо/тасвирҳо бо CVE-ҳои интиқодӣ, ба ҳисоби миёна "вақти часпидан".
RBAC ва асрори: кӯшиши бемуваффақияти дастрасӣ, дастрасӣ ба асрҳо.
Чорабиниҳои аудит: воридот/тағирот дар ҷузъҳои интиқодӣ, дрифт.
Таҷдиди WAF/DLP/PII: қулфҳои қоида, хатогиҳои ниқоб.
10) Гузоришҳо ва роҳҳо: Шарҳи ниҳоӣ
Хулосаи хатогиҳо аз гузоришҳо (Loki/ELK): истисноҳои боло, имзоҳои нав.
Тугмаи "Гузаштан ба гузоришҳо бо филтрҳо" (пурсиши Log/QL/ES).
Нишонаҳо: фосилаи сусти боло, фоизи дархостҳо бидуни контексти пайгирӣ.
{app="api", level="error"} = "NullReference"
{app="nginx"} json status="5.." count_over_time([5m])
11) Финҳо: арзиш ва ихтиёрдорӣ
Арзиши хидматрасонӣ/иҷорагирон/кластерҳо (аз рӯи биллинг/содиркунандагон).
Гиреҳҳои гарм/хунук: захираҳои бекорӣ, тавсияҳои ҳуқуқӣ (CPU/Mem).
Egress маълумот, дархостҳои L7 ва арзиши онҳо.
Динамика: ҳафта/моҳ, дурнамо.
- cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
- омили самаранокӣ: 'RPS/$' ё 'SLO-minutes/$'.
12) SLO, иштибоҳҳо ва сатҳи сӯзондан
Корти SLO дар ҳар як панели домейн: ҳадаф, давра, хатогиҳо (буҷа).
Огоҳиҳои сатҳи сӯхтан (ду суръат: зуд/суст).
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))
Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
13) Стандартҳои визуалӣ
Намудҳои панел: силсилаи вақт барои силсила, стат барои KPI, ҷадвал барои top-N, харитаи гармӣ барои таъхир.
Афсонаҳо ва воҳидҳо: лозим; тамғакоғазҳои кӯтоҳшуда, формати SI.
Минтақаҳои рангӣ: сабз/зард/сурх аз ҷониби SLO/ҳадди (либоси ягона).
Тавсифи панел: он чизе ки мо чен мекунем, манбаъ, истиноди дафтар, соҳиби.
14) Қолабҳои панел (оғози зуд)
(A) Шарҳи API
KPI: 'RPS', 'p95', '5xx%', 'хато _ буҷа _ боқимонда'.
Нуқтаҳои болоӣ бо хатогӣ/ниҳонӣ.
Пармакунӣ дар гузоришҳои 'trace _ id = $ пайгирӣ'.
(B) Саломатии гиреҳ
CPU/Хотира/Диск/Шабака - p95 аз рӯи гиреҳ, рӯйхати "гарм".
Фишор, дротлинг, тарки бастаҳо.
(C) Саломатии DB
TPS, таъхири p95, қуфлҳо, ақибмонии такрорӣ, дархостҳои суст.
Ҳолати нусхабардорӣ/муваффақияти охирин.
(D) Кафка Lag
Қафо аз рӯи гурӯҳ, меъёри истеъмол ва истеҳсол, тавозун.
(E) Арзиш ва Util
Арзиш/соат аз рӯи хидматҳо, бекорӣ%, маслиҳатҳои ҳуқуқӣ, пешгӯӣ.
15) Тағйирёбандаҳо ва барчаспҳо (маҷмӯи тавсияшуда)
'env' (prod/stage/dev)
'region '/' az'
'пӯшида'
'фазои '/' хидмат '/' сарбории корӣ'
'тенант'
'component' (канори/db/кэш/навбат)
'version' (release/git_sha)
16) Ҳамгироӣ бо идоракунии ҳушдор ва ҳодисаҳо
Қоидаҳо дар Alertmanager/Graphana бо истинод ба панели дилхоҳ ва тағирёбандаҳои аллакай ивазшуда ҳушдор медиҳанд.
P1/P2 аз рӯи меъёрҳои SLO, ба таври худкор ба занг таъин кунед.
Эзоҳҳои релизҳо/ҳодисаҳо дар графикҳо.
17) Сифати панелҳо: рӯйхати назоратӣ
- Соҳиб ва тамос.
- SLO/ҳудудҳо ҳуҷҷатгузорӣ карда мешаванд.
- Тағирёбандаҳо кор мекунанд ва андозаи дархостҳоро маҳдуд мекунанд.
- Ҳама панелҳо бо воҳидҳо ва ривоятҳо.
- Машқ ба гузоришҳо/роҳҳо.
- Панелҳо ба 2-3 "экранҳо" мувофиқанд (бидуни ҳаракат дар як километр).
- Вақти вокуниш ≤ 2 -3 сония (кэш, поён).
- Панелҳои мурда ё ченакҳои таназзулёфта нестанд.
18) Иҷро ва арзиши худи панели панелҳо
Қоидаҳои Downsampling/сабти барои агрегатҳои вазнин.
Caching (дархост-frontend/repeater) ва маҳдудиятҳои диапазон/қадам.
Ангари санҷишӣ: сарборӣ ба TSDB/кластерҳо барои дархостҳои панели маъмулӣ.
Беҳдошти тамғакоғазҳо (кардиналии паст), партофтани ваҳшӣ.
19) Нақшаи амалисозӣ (такрорӣ)
1. Ҳафтаи 1: Шарҳи фуруд + K8s/Edge, SLO-ҳои асосӣ, соҳибон.
2. Ҳафтаи 2: DB/Queues, ҳамгироии вуруд ва пайгирӣ (пармакунӣ), огоҳиҳои сӯхтан.
3. Ҳафтаи 3: Панелҳои панели FIN, тавсияҳои ҳуқуқӣ, ҳисоботи хароҷот.
4. Ҳафтаи 4 +: Амният/Мувофиқат, автогенератсияи корти SLO, санҷишҳои регрессияи панели.
20) Мини-FAQ
Ба шумо чанд панели панел лозим аст?
Ҳадди аққал 1 барраси + як домен (K8s, Edge, DB, Queues, CI/CD, Амният, Арзиш). Боқимонда аз рӯи камолот.
Чӣ муҳимтар аст - ченакҳо ё гузоришҳо?
Нишондиҳандаҳо барои аломатҳо ва SLO, гузоришҳо барои сабабҳо. Бастабандӣ тавассути 'trace _ id' ва тамғакоғазҳои пайваста.
Чӣ тавр дар панелҳо "ғарқ нашавед"?
Иерархия, соҳибони возеҳ, гигиенаи метрӣ, баррасиҳои мунтазам ва нест кардани панелҳои "мурда".
Ҷамъ
Панелҳои инфрасохторӣ "графикҳои зебо" нестанд, балки воситаи идоракунӣ: назорати SLO, RCA-и зуд ва FIN-ҳои огоҳона. Стандартикунонии тағирёбандаҳо, шакли визуалӣ ва соҳибон; ба гузоришҳо/роҳҳо пармакунӣ ва автоматикунонии огоҳиҳои сӯхтанро таъмин кунед. Ин пешгӯӣ, суръати реаксия ва шаффофияти хароҷотро дар тамоми платформа фароҳам меорад.