GH GambleHub

Infrastruktura gözegçiligi

Infrastruktura gözegçiligi

1) Maksatlar we çarçuwa

Infrastruktura gözegçiligi - bu platformanyň saglygy, öndürijiligi we elýeterliligi barada signallar ulgamy. Ol:
  • Şowsuzlyklar barada ulanyjydan öň duýduryş bermek (irki deteksiýa).
  • Esasy sebäbini anyklamak (from symptom to cause).
  • Relizleriň SLO-gatingini we awto-yza gaýdyp gelmegini goldamak.
  • Wakadan soňky derňewi iýmitlendirmek (evidence as data).

Esasy ýörelgeler: Observable by design, az ses - has köp signal, reaksiýalary awtomatlaşdyrmak, ýeke-täk hakykat paneli.

2) Gözegçilik üçlügi

Metrikler (timeseries): tizlik/isleg/ýalňyşlyklar/doýmak (USE/RED).
Logi: kontekstli wakalaryň jikme-jiklikleri; gizlin/PII ýok.
Treýsler: sebäp-netije gatnaşyklary bilen paýlanan çemeleşmeler.

Goşmaça:
  • Ulgam derejesi üçin profillemek (CPU/heap/lock/io), eBPF.
  • Wakalar/audit (K8s hadysalary, konfigurasiýalary/syrlary üýtgetmek).

3) SLI/SLO/SLA - hil dili

SLI (görkeziji): 'availability', 'error _ rate', 'p95 _ latency', 'queue _ lag'.
SLO (maksat): "üstünlikli haýyşlar ≥ 99. 30 gün üçin 9%".
Error Budget: kabul ederlikli gyşarma; awto-stop relizleri üçin ulanylýar.

SLO (YAML) mysaly:
yaml service: "api-gateway"
slis:
- name: success_rate query_good: sum(rate(http_requests_total{status!~"5.."}[5m]))
query_total: sum(rate(http_requests_total[5m]))
slo: 99. 9 window: 30d

4) Gözegçilik gatlaklarynyň kartasy

1. Hostlar/VM/düwünler: CPU/Load/Steal, RAM/Swap, Disk IOPS/Latency, Filesystem.
2. Tor/LB/DNS: RTT, paketler/damjalar, backlog, SYN/Timeout, health-probes.
3. Kubernetes/Orchestrator: API-serwer, etcd, kontroller, scheduler; aşaky/düwünler, pending/evicted, throttling, kube-events.
4. Hyzmatlar/konteýnerler: RED (Rate/Errors/Duration), readiness/liveness.
5. Maglumat bazalary: QPS, lock wait, replication lag, buffer hit, slow queries.
6. Nobatlar/tekerler: consumer lag, requeue/dead-letter, throughput.
7. Ammar/bulut: S3/Blob ýalňyşlyklar we latency, üpjün edijilerden 429/503.
8. Perimetriň çäkleri: WAF/Rate Limits, 4xx/5xx, CDN.
9. Sintetika: HTTP-ssenarileri barlamak (goýum/çykarmak), TLS/şahadatnamalar.
10. Ykdysadyýet/kuwwat: cost per service, utilization, headroom.

5) Whitebox и Blackbox

Whitebox: eksportçylar/hyzmatlaryň içindäki SDK (Prometheus, OpenTelemetry).
Blackbox: dürli sebitlerden daşarky nusgalar (availability, latency, TLS expiry).
Birleşdiriň: "daşarky alamat" + "içindäki diagnostika".

'blackbox _ exporter' mysaly:
yaml modules:
https_2xx:
prober: http http:
method: GET preferred_ip_protocol: "ip4"

6) Kubernetes: esasy signallar

Кластер: `apiserver_request_total`, `etcd_server_has_leader`, etcd fsync.
Узлы: `container_cpu_cfs_throttled_seconds_total`, `node_pressure`.
Pending/CrashLoopBackOff, OOMKilled, restarts.
Meýilnamalar/çäkler: Requests vs Limits, PodDisruptionBudget, HPA/VPA.
Tor: NetworkPolicy damjalar, conntrack exhaustion.

Дашборды: «Cluster health», «Workload saturation», «Top erroring services».

7) DB we nobatlar

PostgreSQL/MySQL: replication lag, deadlocks, slow query %, checkpoint I/O.
Redis/Memcached: hit ratio, evictions, rejected connections.
Kafka/RabbitMQ: consumer lag, unacked, requeue, broker ISR, disk usage.

8) RED/USE metrikleri we iş baglanyşyklary

RED: `rate` (RPS), `errors` (4xx/5xx), `duration` (p95/p99).
USE (çeşmeler üçin): Utilization, Saturation, Errors.
Önüm bilen baglanyşdyryň: goýumlar/tölegler üstünlik, frod-baýdaklar, konwersiýa - bular kanareýanyň çykarylyşynda "goragçylar".

9) Alertingiň gurluşy

Tier-1 (page): SLO-a täsir edýän hadysalar (elýeterlilik, 5xx, gizlinlik, klaster möhüm komponentleriniň näsazlygy).
Tier-2 (bilet): kuwwatyň pese gaçmagy, SLO-a täsir etmezden ýalňyşlyklaryň ösmegi.
Tier-3 (maglumat): tendensiýalar, öňünden aýdylýan kuwwat, gutarýan şahadatnamalar.

Eskalasiýa düzgünleri: dymmak wagty/dublikatlaryň gysylmagy, on-call, "follow-the-sun" aýlanmagy.

Alertmanager routes mysaly:
yaml route:
group_by: ["service","severity"]
receiver: "pager"
routes:
- match: { severity: "critical" }
receiver: "pager"
- match: { severity: "warning" }
receiver: "tickets"

10) Prometheus düzgünleriniň mysallary

10. 1 SLO bosagasy bilen 5xx ýalňyşlyklary

yaml groups:
- name: api rules:
- alert: HighErrorRate expr:
sum(rate(http_requests_total{status=~"5.."}[5m])) /
sum(rate(http_requests_total[5m])) > 0. 005 for: 10m labels: { severity: "critical", service: "api-gateway" }
annotations:
summary: "5xx > 0. 5% 10m"
runbook: "https://runbooks/api-gateway/5xx"

10. 2 Ýakmak error-budget (multi-window burn)

yaml
- alert: ErrorBudgetBurn expr:
(1 - (
sum(rate(http_requests_total{status!~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
)) > (1 - 0. 999) 14 for: 5m labels: { severity: "critical", slo: "99. 9" }
annotations: { summary: "Fast burn >14x for 5m" }

10. 3 Ulgam doýgunlygy (CPU Throttling)

yaml
- alert: CPUThrottlingHigh expr: rate(container_cpu_cfs_throttled_seconds_total[5m]) > 0. 1 for: 10m labels: { severity: "warning" }
annotations: { summary: "CPU throttling >10%" }

11) Loglar: ýygnamak, kadalaşmak, retenşn

Standartlaşdyrma: JSON-logleri: 'ts', 'level', 'service', 'trace _ id', 'user/tenant'.
Pipline: agent (Fluent Bit/Vector) → bufer → indeks/ammar.
Redaksiýa: gyrada PII/syrlary gizlemek.
Gaýtadan işlemek: çalt saklamak synpy (7-14 gün), "sowuk" arhiw (30-180 gün).
Semantika: error budgets/deprekeýtler - aýratyn kanallar.

12) Söwda we OpenTelemetry

Giriş nokatlaryny (gateway), müşderi → çagyryş hyzmatyny, DB/nagt pullary/nobatlary guralyň.
Çalt nawigasiýa üçin metrikleri söwda atributlary (Exemplars) bilen baglanyşdyryň.
Merkezi şlýuz hökmünde OTel Collector: süzgüç, sempling, saýlanan bekendlere eksport.

OTel Collector mysaly (bölek):
yaml receivers: { otlp: { protocols: { http: {}, grpc: {} } } }
processors: { batch: {}, tail_sampling: { policies: [ { name: errors, type: status_code, status_codes: [ERROR] } ] } }
exporters: { prometheus: {}, otlp: { endpoint: "traces. sink:4317" } }
service:
pipelines:
metrics: { receivers: [otlp], processors: [batch], exporters: [prometheus] }
traces: { receivers: [otlp], processors: [tail_sampling,batch], exporters: [otlp] }

13) Sintetika we daşarky barlaglar

Biznes-ssenariýalaryň HTTP-aralygy (giriş, goýum, çykarmak, satyn almak).
TLS/Domain: Sertifikat möhleti/CAA/DNS saglygy.
Sebitlilik: esasy ýurtlardan/üpjün edijilerden nusgalar (marşrut/blok sahypalary).
Sintetika, ulanyjy üçin elýeterli bolmasa, hatda ýaşyl içki telemetriýada-da alertirlemelidir.

14) Profillemek we eBPF

Continuous profiling: gyzgyn funksiýalary, blokirlemeleri kesgitlemek.
eBPF: ulgamlaýyn wakalar (syscalls, TCP retransmits).
Sahypasyz (biletsiz) profil alertleri, goýberilenden soň regressiýalar üçin bolsa yzyna gaýtarmagyň signaly hökmünde.

15) Daşbordlar we "hakykat paneli"

Iň az toplumy:

1. Platform Overview: Esasy hyzmatlar, error-budget, alertler boýunça SLI/SLO.

2. API RED: RPS/ERRORS/DURATION ugurlary boýunça.

3. K8s Cluster: control-plane, узлы, capacity headroom.

4. DB/Cache: lag/locks/slow query %, hit ratio.

5. Queues: backlog/lag, ret/gaýtalanýan.

6. Per-release: öň/soň metrikleri deňeşdirmek (kanar penjireleri).

7. FinOps: cost per namespace/service, idle/oversized ресурсы.

16) Hadysalar, gahar-gazap we möwjemeler

De-duplikasiýa: hyzmat/sebäp boýunça toparlara bölünmek, kaskadlary basyp ýatyrmak.
Dymmak/maintenance: Goýbermek/göçmek hemme zady gyzyl reňklemeli däldir.
Runbooks: diagnostika ädimleri we yzyna gaýtarmak düwmesi bolan her bir möhüm alert.
Postmortem: wagt aralygy, näme öwrendiňiz, haýsy signallar goşuldy/arassalandy.

17) Gözegçilikde howpsuzlyk

RBAC düzgünleri/datasorslary okamak/düzetmek üçin.
Syrlar: eksportçylaryň/agentleriň bellikleri - Secret Manager arkaly.
Izolýasiýa: müşderileriň/tenantlaryň metrikleri - aýry-aýry giňişliklere/belliklere.
Bitewilik: GitOps (merj-revyu) arkaly agentleriň/binalaryň, konfigirleriň goly.

18) Maliýe we kuwwat (FinOps)

Kwotalar we býujetler; anomal ösüş üçin aladalar.
Right-sizing: soraglary/çäkleri seljermek, CPU/RAM-lary ýok etmek, möhüm däl meseleler üçin spot-häkimiýetler.
KPI netijeliligi hökmünde "Cost per request/tenant".

19) Anti-patternler

Diňe ulanyjy SLI-siz infrastruktura metrikleri.
100 + alert "hemme zat hakda" → kör on-call.
Logi ýeke-täk çeşme hökmünde (metrik we treýsingsiz).
Wersiýalaşdyrmazdan/revýusyz mutabel daşbordlar.
Sintetikanyň ýoklugy: "hemme zat ýaşyl", ýöne öň ýok.
Neşirler bilen baglanyşyk ýok: "X pursatda näme üýtgedi" diýip jogap berip bolmaz.

20) Giriş çek-sanawy (0-60 gün)

0-15 gün

3-5 esasy hyzmatlar üçin SLI/SLO kesgitläň.
Esasy eksportçylary/agentleri öz içine alyň, JSON-loglary standartlaşdyryň.
Tier-1 alertlerini sazla (awailability, 5xx, p95).

16-30 gün

Kritiki ssenariýalara sintetikany goşuň.
Giriş/möhüm hyzmatlarda treýsleri (OTel) açyň.
Daşbordlar "Per-release" we error-budget burn-düzgünleri.

31-60 gün

DB/nobatlar/kesişleri ösen signallar bilen örtüň.
Ýokary-CPU hyzmatlary üçin eBPF/profillemäni ornaşdyrmak.
Düzgünler/dashbordlar/alertler üçin GitOps, yzygiderli ses arassalamak.

21) Kämillik ölçegleri

Esasy hyzmatlaryň SLO ýapylmagy ≥ 95%.
MTTA/MTTR (maksat: min/on minut).
Awto-hereket ýa-da çalt yza gaýdyp ýapyk Tier-1 alertleriniň paýy.
"Peýdaly "/" şowhunly "alertleriň gatnaşygy> 3:1.
Ähli "pul" ýollaryny sintetika bilen örtmek = 100%.

22) Goşundylar: kiçi şablonlar

Prometheus - status synplary boýunça elýeterlilik

yaml
- record: job:http:availability:ratio_rate5m expr: sum(rate(http_requests_total{status!~"5.."}[5m])) / sum(rate(http_requests_total[5m]))

Grafana - kanareýler üçin yşarat


expr: histogram_quantile(0. 95, sum(rate(http_request_duration_seconds_bucket{version=~"stable    canary"}[5m])) by (le,version))

Alertmanager - nobatçylyk we dymmak

yaml receivers:
- name: pager slack_configs:
- channel: "#oncall"
send_resolved: true inhibit_rules:
- source_match: { severity: "critical" }
target_match: { severity: "warning" }
equal: ["service"]

23) Netijenama

Gözegçilik grafikleriň toplumy däl-de, SRE operasiýa ulgamy: SLI/SLO hil şertnamasy, hakykat çeşmesi hökmünde metrika/söwda/logi, dolandyrylýan signal hökmünde aladalar, "ulanyjynyň sesi" hökmünde sintetika, üýtgeşmeleriň tertibi hökmünde GitOps. Host-dan API-e çenli ýekeje kontury guruň, goýberişlere we yza gaýdyp gelmäge daňyň - platforma öňünden aýdyp boljak, çalt we tygşytly bolar.

Contact

Biziň bilen habarlaşyň

Islendik sorag ýa-da goldaw boýunça bize ýazyp bilersiňiz.Biz hemişe kömek etmäge taýýar.

Integrasiýany başlamak

Email — hökmany. Telegram ýa-da WhatsApp — islege görä.

Adyňyz obýýektiw däl / islege görä
Email obýýektiw däl / islege görä
Tema obýýektiw däl / islege görä
Habar obýýektiw däl / islege görä
Telegram obýýektiw däl / islege görä
@
Eger Telegram görkezen bolsaňyz — Email-den daşary şol ýerden hem jogap bereris.
WhatsApp obýýektiw däl / islege görä
Format: ýurduň kody we belgi (meselem, +993XXXXXXXX).

Düwmäni basmak bilen siz maglumatlaryňyzyň işlenmegine razylyk berýärsiňiz.