GH GambleHub

Uptime байкоо

1) Эмне үчүн мониторинг жүргүзүү үчүн

Аптайм - кызмат колдонуучуга жеткиликтүү болгон убакыттын үлүшү. Бул "биринчи сызык" байкоо: дароо жеткиликсиздигин байкоо, тармак боюнча деградация, DNS/TLS, багыттоо көйгөйлөрү же CDN. Жогорку жүктөлгөн жана жөнгө салынуучу системалар үчүн (fintech, iGaming) аптайм түздөн-түз кирешеге, SLA аткарууга жана айып тобокелдиктерге таасир этет.

2) Терминдер жана формулалар

SLI жеткиликтүүлүгү: 'SLI = (ийгиликтүү текшерүүлөр/бардык текшерүүлөр) × 100%'.
SLO: терезенин артында максаттуу жеткиликтүүлүк (адатта 28-30 күн), мисалы, 99. 9%.
SLA: тышкы милдеттенме; ар дайым ички SLO ≤.
MTBF/MTTR: каталар ортосундагы орточо убакыт/орточо калыбына келтирүү убактысы.

Карта "тогуз" (айына, ~ 43 200 мүнөт):

99. 0% → ~ 432 мин жеткиликсиз

99. 9% → ~ 43 мин

99. 99% → ~4. 3 мин

99. 999% → ~ 26 сек

3) Кандай текшерүү керек (кара куту)

Тышкы пункттардан (ар кандай аймактар/провайдерлер) "кардардын көзү" кызматын көрүү үчүн ишке киргизилет.

1. ICMP (ping) - негизги тармак/түйүн жеткиликтүүлүгү. Тез, бирок бизнес ийгилигин чагылдырбайт.
2. TCP connect - порт угат? брокерлер/DD/SMTP үчүн пайдалуу.
3. HTTP/HTTPS - статус-код, аталыштар, көлөмү, редакторлор, биринчи байт чейин убакыт.
4. TLS/күбөлүк - жарактуу мөөнөтү, чынжыр, алгоритмдер, SNI, протоколдор.
5. DNS - A/AAAA/CNAME, NS-ден соолук, бөлүштүрүү, DNSSEC.
6. gRPC - чакыруу статусу, deadline, метадеректер.
7. WebSocket/SSE - кол алышуу, байланышты сактоо, жаңырык билдирүү.
8. Прокси/багыттоо/CDN - ар кандай PoP, кэш хеш сыноо, гео-параметрлери.
9. Транзакциялык синтетикалык сценарийлер (чыкылдатуу/формалар): "логин → издөө → депозит (кум куту)".
10. Heartbeat/cron-мониторинг - кызмат "кагып" милдеттүү (хук N мүнөт сайын); сигнал жок - коңгуроо.

Кеңештер:
  • Таймауттарды чыныгы UXге жакын коюңуз (мисалы, TTFB ≤ 300 мс, жалпы ≤ 2 с).
  • "200 OK" ката ийгилик деп эсептелбеши үчүн мазмунду (ачкыч сөз/JSON талаасы) текшериңиз.
  • Көз карандысыз провайдерлер жана тармактар ​ ​ аркылуу текшерүүлөрдү кайталаңыз (көп-хоп, ар кандай ASN).

4) Ак куту жана ден соолук кызматы

Liveness/Readiness үлгүлөрү үчүн оркестр (жараяндар тирүү? трафикти кабыл алууга даярбы?).
Ден соолук көз карандылык: DD, кэш, брокер, тышкы API (төлөмдөр/KYC/AML).
Фича-желектер/деградация: көйгөйлөр болгон учурда критикалык эмес жолдорду жумшак өчүрөбүз.

Ак үлгүлөр тышкы текшерүүлөрдү алмаштыра албайт: кызмат "ичинде дени сак" болушу мүмкүн, бирок DNS/TLS/каттам үчүн колдонуучу үчүн жеткиликтүү эмес.

5) География жана көп аймактуулук

Трафиктин негизги аймактарынан жана критикалык көз карандылык провайдерлеринин жанынан синтетиканы ишке киргизиңиз.
Кворум: жергиликтүү аномалияларды жок кылуу үчүн ≥ N аймактарда (мисалы, 3 ичинен 2) ийгиликсиздик болсо, инцидентти каттайбыз.
Cocorts боюнча босого: маанилүү сегменттер үчүн өзүнчө SLI/SLO (өлкөлөр, VIP, байланыш операторлору).

6) Алерт саясаты (минималдуу ызы-чуу)

Көп аймак + көп сыноо: пейджер гана макулдашылган ийгиликсиз (мисалы, бир эле учурда HTTP жана TLS, ≥ 2 аймактар).
Дебаунс: N ырааттуу ийгиликсиздиктер же терезе 2-3 мүнөт пейджер алдында.

Эскалация:
  • L1: on-call (production-services).
  • L2: тармак/платформа/коопсуздук бузулуу белгисине жараша.
  • Auto-жабуу: туруктуу M ийгиликтүү текшерүү кийин.
  • Тынч саат/жеңилдиктер: маанилүү эмес ички кызматтар үчүн - гана билеттер, пейджерсиз.

7) Статус-бет жана байланыш

Коомдук (кардар) жана жеке (ички) статус-беттер.
Автоматтык синтетикалык окуялар + кол аннотациялар.
Билдирүүлөрдүн үлгүлөрү: табылган - аныкталган - таасир - айланма жол - ETA - чечилген - пост-мордем.
Пландаштырылган терезелер: алдын ала жарыялоо, SLOдан өзүнчө эске алуу.

8) Тышкы көз карандылыкты эсепке алуу

Ар бир провайдер үчүн (төлөмдөр, KYC, жөнөтүүлөр, CDN, булуттар) - бир нече аймактардан өз текшерүүлөрү.
Failover-жолдору: auto-которуу боюнча альтернативдик провайдер сигнал синтетика.
Провайдердин деңгээлинде өзүнчө SLO жана интегралдык e2e-SLO.
Провайдерлер менен SLA жөнүндө макулдашуу (статус-вебхактар, колдоо артыкчылыгы).

9) Dashboard жана негизги Widget

Текшерүү абалы менен дүйнө картасы (түрлөрү боюнча: HTTP, DNS, TLS).
Релиздердин/желектердин аннотациялары менен окуялардын таймлайн.
P50/P95/P99 боюнча TTFB/TTL/latency.
Когорталар боюнча жеткиликтүүлүк (өлкө/провайдер/аппарат).
MTTR/MTBF, тенденциялар "токтоо мүнөт" жана "бурн-down" ай үчүн жеткиликтүү бюджет.
Ийгиликсиздиктин негизги себептери (TLS-expiry, DNS-resolving, 5xx, timeouts).

10) Окуя процесси (кыска мөөнөттүү сценарий)

1. Multi-аймак/Multi-түрү алерт иштейт.
2. Нөөмөтчү тастыктайт, релиздерди тоңдурууну камтыйт, ээлерине кабарлайт.
3. Fast диагностика: DNS/TLS/CDN абалы, акыркы релиздер, ката тартиби.
4. Айланып өтүү: багытын өзгөртүү, фолбэк мазмуну/провайдер, деградация режимин күйгүзүү.
5. калыбына келтирүү: синтетика/чыныгы жол жашыл экенин текшерүү.
6. Статус-беттеги байланыш; окуяны жабуу.
7. RCA жана action items: оңдоолор, тесттер, алерттар, плейбуктар.

11) SLA/SLO боюнча отчеттуулук

Айлык отчеттор: кызматтар/региондор боюнча аптайм, токтоп калган мүнөттөр, MTTR, себептер.
SLA менен салыштыруу: кредиттер/компенсациялар, эгерде колдонулса.
Чейректик ревю: босоголорду актуалдаштыруу, синтетиканы бөлүштүрүү, көз карандылыктардын тизмеси.

12) Текшерүү үлгүлөрү (мисал)

HTTP текшерүү API:
  • Метод: 'GET/healthz/public' (сырсыз).
  • Убакыт: 2 с, retry: 1.
  • Ийгилик: '2xx', 'X-App-Version' аталышы бар, JSON 'status': 'ok'.
TLS текшерүү:
  • Мөөнөтү> 14 күн, valid чынжыр, TLS протоколдору 1. 2 + ', туура SNI.
DNS текшерүү:
  • Жооп убактысы ≤ 100 мс, A/AAAA жазуулар планга ылайык, эч кандай SERVFAIL/REFUSED.
Heartbeat:
  • Webhook '/beat/{ service} 'бир жолу 5 мүнөт; жок 2 катары сигналдар - alert L2 (фон милдеттери/ETL).

13) Киргизүү чек-тизмеси

  • Көп аймактык тышкы текшерүү (HTTP/TCP/DNS/TLS/терең жагдайлар).
  • Ак үлгүлөрү readiness/жашоо үчүн оркестр.
  • сындуу/сындуу эмес жолдорду бөлүү, сынчы-бузулган желектери.
  • Кворум жана дебаунс, эскалация жана авто-жабуу.
  • Коомдук жана ички статус барактар, билдирүүлөрдүн шаблондору.
  • Жеке текшерүү жана SLO үчүн тышкы кызмат көрсөтүүчүлөр + Auto failover.
  • Дашборддор: карта, таймлайн, кагыш, токтоп калган мүнөттөр, MTTR/MTBF.
  • SLA/SLO жана пост-окуя RCA боюнча үзгүлтүксүз отчеттор.

14) Көп каталар

НТТР/мазмуну жок гана ping/порт - иш жүзүндө жеткиликсиздиги менен "жашыл".
Мониторингдин бир чекити - жалган оң/терс жыйынтыктар.
TLS/DNS контролдоо жоктугу - улам кечигүү/misconfig капыстан токтоп.
Кошумча ызы-чуу: бир аймактан жалгыз мүчүлүштүктөр боюнча алерталар/текшерүү түрү.
Өзгөрүүлөр менен байланышы жок - дашборддордо релиздердин жана желектердин аннотациялары жок.
Эске алынбаган көз карандылык - төлөм провайдери түшүп, жалпы статус "жашыл".

15) Жыйынтык

Uptime Tracking - бул жөн гана "URL чалуу" эмес. Бул реалдуу региондордон келген синтетикалык текшерүү системасы, ызы-чуусуз акылга сыярлык алерталар, статус-барактар аркылуу ачык-айкын байланыш, тышкы көз карандылыкты эсепке алуу жана катуу отчеттуулук. Туура уюлдук мониторинг MTTR азайтат, SLA коргойт жана колдонуучунун тажрыйбасын алдын ала сактайт.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.