GH GambleHub

Панели инфрасохтор

1) Чаро ба шумо лозим аст

Тасвири ягонаи давлат: аз кластер ва шабакаҳо то пойгоҳи додаҳо ва навбатҳо.
RCA-и зуд ва пас аз марг: як хӯшаи ченакҳо ↔ гузоришҳо ↔ пайҳо.
SLO аз рӯи хидмат ва платформа: назорат аз болои мавҷудият ва таъхир.
Шаффофияти FIN: ҳаҷм/арзиши хидматрасонӣ, иҷорагир ва муҳит.
Мувофиқат/амният: ҳолати часбҳо/осебҳо, дастрасӣ, аномалияҳо.

Методология: Сигналҳои тиллоӣ (таъхир, трафик, хатогиҳо, пуррагӣ), RED (Меъёр, хатогиҳо, давомнокӣ) барои дархостҳо, USE (Истифода, Сатуратсия, Хатогиҳо) барои захираҳо.

2) Принсипҳои панели хуб

Actionable-Ҳар як панел ба "чӣ бояд кард" ҷавоб медиҳад.
Иерархия: шарҳи → доменҳо → ғаввосии амиқ → хом.
Қолибҳо/тағирёбандаҳо: 'кластер', 'фазои ном', 'хидмат', 'иҷорагир', 'env'.
Воҳидҳои ягона: ms барои ниҳонӣ,%, RPS, ops/sec, байтҳо.
Вақтсанҷи пайваста: пешфарз 1-6 соат, рӯза 5m/15m/24h.
Пармакунӣ: аз панел то гузоришҳо (Loki/ELK) ва роҳ (Tempo/Jaeger).
Моликият: соҳиб дар панели панел, SLO, runbook, тамос бо занг нишон дода шудааст.

3) Сохтори папка ва нақшҳо

00_Overview - шарҳи сатҳи баланди платформа.
10_Kubernetes - кластерҳо, гиреҳҳо, сарбории корӣ, HPA/VPA, зарфҳо.
20_Network_Edge - Ingress/Envoy/Nginx, LB, DNS, CDN, WAF.

30_Storage_DB - Postgre

40_CICD_Runner - қубурҳо, агентҳо, артефактҳо, феҳристҳо.
50_Security_Compliance - осебпазирӣ, часбҳо, RBAC, чорабиниҳои аудитӣ.
60_FinOps_Cost - арзиши як хидмат/иҷорагир/кластер, ихтиёрдорӣ.
99_Runbooks - пайвандҳо ба дастурҳо ва кортҳои SLO.

Нақшҳо: Платформа-SRE (дастрасии пурра), Соҳиби хизматрасонӣ (ҷойҳои худ), Амният/Мувофиқат, Молия/FIN, Танҳо намоиш.

4) Панели назоратии платформа (Landing)

Мақсад: дар ≤ 30 сония барои фаҳмидани он ки ҳама чиз ба тартиб оварда шудааст.

Панелҳои тавсияшуда:
  • Платформаи SLO (канори мавҷудияти API): арзиши ҳадаф, воқеӣ, давраи хатогиҳо, сатҳи сӯзондан.
  • p50/p95/p99 таъхир аз ҷониби нуқтаҳои асосии вуруд.
  • Хатогиҳои 4xx/5xx ва нуқтаҳои болоӣ бо регрессия.
  • Пур кардани захираҳо (CPU, RAM, шабака, диск) - p95 аз ҷониби кластер.
  • Ҳодисаҳо/огоҳиҳо (фаъол) ва нашри охирин.
  • Арзиш/соат (тахминӣ) ва тамоюл ба ҳафта.

Қолабҳои тағирёбанда: 'env', 'минтақа', 'кластер', 'иҷорагир'.

5) Кубернетҳо: кластерҳо ва устохонаҳо

Гурӯҳҳои асосӣ:

1. Кластер/гиреҳҳо

Партофтани CPU/хотира, фишор (хотира/cpu), диски IO, инод.
Зерсистемаҳо: kube-api, etcd, контроллерҳо; саломатии кубелет.

2. Ворклоадс

RPS/RPM, таъхири p95, сатҳи хатогӣ, бозоғоз, дӯзандагӣ, OOMK bills.
Ҳадафҳои HPA против ченакҳои воқеӣ.

3. Роҳчаи шабақа дар дохили кластер

EBPF/Netflow: гуфтугӯҳои боло, қатраҳо, ретрансмитҳо.

4. Ҳодисаҳо K8s

Rate po Огоҳӣ/Нокомӣ/Банақшагирӣ/Бозгашт.

Намунаҳои Prom-QL:
promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) Edge, шабака ва DNS

Панелҳо:
  • Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
  • LB/Anycast: тақсимоти трафик аз рӯи минтақаҳо, ҳодисаҳои номуваффақ.
  • DNS: таъхири ҳалли, меъёри NXDOMAIN/SERVFAIL, кэши таносуби хит.
  • CDN/WAF: бо қоидаҳо манъ карда шудааст, трафики ғайримуқаррарӣ (ботҳо/скреперҳо).
Намуна (Nginx):
promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) Пойгоҳи додаҳо ва анборҳо

Postgre ​ ​ SQL/My-SQL: qps, ниҳонӣ, интизории қулф, ақибмонии такрорӣ, нусхабардорӣ/нокомӣ.
Редис: таносуби хит, кӯчдиҳӣ, хотира, фармонҳои суст.
Кафка/Харгӯшҳо: ақибмонӣ аз ҷониби гурӯҳҳои истеъмолкунандагон, мувозинат, паёмҳои кушодашуда.
Нигоҳдории объект: дархостҳо, хатогиҳо, egress, lat p95.

Postgre- SQL (мисол):
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
Кафка (мисол):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) CI/CD ва артефактҳо

Шарҳи қубур: муваффақият/вақти корӣ, навбати даванда.
Саломатии ҷойгиркунӣ: версияҳо, ҳолати канарӣ/кабуд-сабз, вақти гарм.
Феҳристҳои тасвир: андоза, такони охирин 'ва, ихтиёрдорӣ.

Намуна:
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) Бехатарӣ ва риояи

Часбҳо ва осебпазирӣ: таносуби гиреҳҳо/тасвирҳо бо CVE-ҳои интиқодӣ, ба ҳисоби миёна "вақти часпидан".
RBAC ва асрори: кӯшиши бемуваффақияти дастрасӣ, дастрасӣ ба асрҳо.
Чорабиниҳои аудит: воридот/тағирот дар ҷузъҳои интиқодӣ, дрифт.
Таҷдиди WAF/DLP/PII: қулфҳои қоида, хатогиҳои ниқоб.

10) Гузоришҳо ва роҳҳо: Шарҳи ниҳоӣ

Хулосаи хатогиҳо аз гузоришҳо (Loki/ELK): истисноҳои боло, имзоҳои нав.
Тугмаи "Гузаштан ба гузоришҳо бо филтрҳо" (пурсиши Log/QL/ES).
Нишонаҳо: фосилаи сусти боло, фоизи дархостҳо бидуни контексти пайгирӣ.

Мисолҳои Log-QL:

{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) Финҳо: арзиш ва ихтиёрдорӣ

Арзиши хидматрасонӣ/иҷорагирон/кластерҳо (аз рӯи биллинг/содиркунандагон).
Гиреҳҳои гарм/хунук: захираҳои бекорӣ, тавсияҳои ҳуқуқӣ (CPU/Mem).
Egress маълумот, дархостҳои L7 ва арзиши онҳо.
Динамика: ҳафта/моҳ, дурнамо.

Ченакҳои асосӣ:
  • cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
  • омили самаранокӣ: 'RPS/$' ё 'SLO-minutes/$'.

12) SLO, иштибоҳҳо ва сатҳи сӯзондан

Корти SLO дар ҳар як панели домейн: ҳадаф, давра, хатогиҳо (буҷа).
Огоҳиҳои сатҳи сӯхтан (ду суръат: зуд/суст).

Намунаҳои Prom-QL (хато ҳамчун "5xx ё p95> ҳадди"):
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
💡 Коэффисиентҳои 'SLO' ва бисёрсатҳаи худро иваз кунед.

13) Стандартҳои визуалӣ

Намудҳои панел: силсилаи вақт барои силсила, стат барои KPI, ҷадвал барои top-N, харитаи гармӣ барои таъхир.
Афсонаҳо ва воҳидҳо: лозим; тамғакоғазҳои кӯтоҳшуда, формати SI.
Минтақаҳои рангӣ: сабз/зард/сурх аз ҷониби SLO/ҳадди (либоси ягона).
Тавсифи панел: он чизе ки мо чен мекунем, манбаъ, истиноди дафтар, соҳиби.

14) Қолабҳои панел (оғози зуд)

(A) Шарҳи API

KPI: 'RPS', 'p95', '5xx%', 'хато _ буҷа _ боқимонда'.
Нуқтаҳои болоӣ бо хатогӣ/ниҳонӣ.
Пармакунӣ дар гузоришҳои 'trace _ id = $ пайгирӣ'.

(B) Саломатии гиреҳ

CPU/Хотира/Диск/Шабака - p95 аз рӯи гиреҳ, рӯйхати "гарм".
Фишор, дротлинг, тарки бастаҳо.

(C) Саломатии DB

TPS, таъхири p95, қуфлҳо, ақибмонии такрорӣ, дархостҳои суст.
Ҳолати нусхабардорӣ/муваффақияти охирин.

(D) Кафка Lag

Қафо аз рӯи гурӯҳ, меъёри истеъмол ва истеҳсол, тавозун.

(E) Арзиш ва Util

Арзиш/соат аз рӯи хидматҳо, бекорӣ%, маслиҳатҳои ҳуқуқӣ, пешгӯӣ.

15) Тағйирёбандаҳо ва барчаспҳо (маҷмӯи тавсияшуда)

'env' (prod/stage/dev)

'region '/' az'

'пӯшида'

'фазои '/' хидмат '/' сарбории корӣ'

'тенант'

'component' (канори/db/кэш/навбат)

'version' (release/git_sha)

16) Ҳамгироӣ бо идоракунии ҳушдор ва ҳодисаҳо

Қоидаҳо дар Alertmanager/Graphana бо истинод ба панели дилхоҳ ва тағирёбандаҳои аллакай ивазшуда ҳушдор медиҳанд.
P1/P2 аз рӯи меъёрҳои SLO, ба таври худкор ба занг таъин кунед.
Эзоҳҳои релизҳо/ҳодисаҳо дар графикҳо.

17) Сифати панелҳо: рӯйхати назоратӣ

  • Соҳиб ва тамос.
  • SLO/ҳудудҳо ҳуҷҷатгузорӣ карда мешаванд.
  • Тағирёбандаҳо кор мекунанд ва андозаи дархостҳоро маҳдуд мекунанд.
  • Ҳама панелҳо бо воҳидҳо ва ривоятҳо.
  • Машқ ба гузоришҳо/роҳҳо.
  • Панелҳо ба 2-3 "экранҳо" мувофиқанд (бидуни ҳаракат дар як километр).
  • Вақти вокуниш ≤ 2 -3 сония (кэш, поён).
  • Панелҳои мурда ё ченакҳои таназзулёфта нестанд.

18) Иҷро ва арзиши худи панели панелҳо

Қоидаҳои Downsampling/сабти барои агрегатҳои вазнин.
Caching (дархост-frontend/repeater) ва маҳдудиятҳои диапазон/қадам.
Ангари санҷишӣ: сарборӣ ба TSDB/кластерҳо барои дархостҳои панели маъмулӣ.
Беҳдошти тамғакоғазҳо (кардиналии паст), партофтани ваҳшӣ.

19) Нақшаи амалисозӣ (такрорӣ)

1. Ҳафтаи 1: Шарҳи фуруд + K8s/Edge, SLO-ҳои асосӣ, соҳибон.
2. Ҳафтаи 2: DB/Queues, ҳамгироии вуруд ва пайгирӣ (пармакунӣ), огоҳиҳои сӯхтан.
3. Ҳафтаи 3: Панелҳои панели FIN, тавсияҳои ҳуқуқӣ, ҳисоботи хароҷот.
4. Ҳафтаи 4 +: Амният/Мувофиқат, автогенератсияи корти SLO, санҷишҳои регрессияи панели.

20) Мини-FAQ

Ба шумо чанд панели панел лозим аст?
Ҳадди аққал 1 барраси + як домен (K8s, Edge, DB, Queues, CI/CD, Амният, Арзиш). Боқимонда аз рӯи камолот.

Чӣ муҳимтар аст - ченакҳо ё гузоришҳо?
Нишондиҳандаҳо барои аломатҳо ва SLO, гузоришҳо барои сабабҳо. Бастабандӣ тавассути 'trace _ id' ва тамғакоғазҳои пайваста.

Чӣ тавр дар панелҳо "ғарқ нашавед"?
Иерархия, соҳибони возеҳ, гигиенаи метрӣ, баррасиҳои мунтазам ва нест кардани панелҳои "мурда".

Ҷамъ

Панелҳои инфрасохторӣ "графикҳои зебо" нестанд, балки воситаи идоракунӣ: назорати SLO, RCA-и зуд ва FIN-ҳои огоҳона. Стандартикунонии тағирёбандаҳо, шакли визуалӣ ва соҳибон; ба гузоришҳо/роҳҳо пармакунӣ ва автоматикунонии огоҳиҳои сӯхтанро таъмин кунед. Ин пешгӯӣ, суръати реаксия ва шаффофияти хароҷотро дар тамоми платформа фароҳам меорад.

Contact

Тамос гиред

Барои саволҳо е дастгирӣ ба мо муроҷиат кунед.Мо ҳамеша омодаем!

Telegram
@Gamble_GC
Оғози интегратсия

Email — муҳим аст. Telegram е WhatsApp — ихтиерӣ.

Номи шумо ихтиерӣ
Email ихтиерӣ
Мавзӯъ ихтиерӣ
Паем ихтиерӣ
Telegram ихтиерӣ
@
Агар Telegram нависед — ҷавобро ҳамон ҷо низ мегиред.
WhatsApp ихтиерӣ
Формат: рамзи кишвар + рақам (масалан, +992XXXXXXXXX).

Бо фиристодани форма шумо ба коркарди маълумот розӣ ҳастед.