GH GambleHub

Аптайманы бақылау

1) Неліктен аптайм мониторингі керек

Аптайм - қызмет пайдаланушыға қолжетімді болған уақыттың үлесі. Бұл бақылаудың «бірінші сызығы»: қол жетімсіздікті, желі бойынша құлдырауды, DNS/TLS ақауын, бағыттау немесе CDN проблемаларын бірден байқау. Жоғары жүктемелі және реттелетін жүйелер үшін (финтех, iGaming) аптайм түсімге, SLA-ны орындауға және айыппұл тәуекелдеріне тікелей әсер етеді.

2) Терминдер мен формулалар

Қолжетімділік SLI: 'SLI = (сәтті тексерулер/барлық тексерулер) × 100%'.
SLO: терезе сыртындағы мақсатты қолжетімділік (әдетте 28-30 күн), мысалы 99. 9%.
SLA: сыртқы міндеттеме; әрқашан ішкі SLO ≤.
MTBF/MTTR: ақаулар арасындағы орташа уақыт/орташа қалпына келтіру уақыты.

«Тоғыздар» картасы (айына, ~ 43 200 минут):

99. 0% → ~ 432 минут қол жетімділік

99. 9% → ~ 43 мин

99. 99% → ~4. 3 мин

99. 999% → ~ 26 сек

3) Қандай тексерулер қажет (қара жәшік)

Сервисті «клиенттің көзімен» көру үшін сыртқы нүктелерден (әртүрлі өңірлер/провайдерлер) іске қосылады.

1. ICMP (ping) - негізгі желі/тораптың қол жетімділігі. Жылдам, бірақ бизнес табысты көрсетпейді.
2. TCP connect - порт тыңдайды ма? Брокерлер/ДБ/SMTP үшін пайдалы.
3. HTTP/HTTPS - мәртебе-коды, тақырыптары, өлшемі, редакторлары, бірінші байтқа дейінгі уақыты.
4. TLS/сертификаттар - жарамдылық мерзімі, тізбек, алгоритмдер, SNI, хаттамалар.
5. DNS - A/AAAA/CNAME, NS-денсаулық, тарату, DNSSEC.
6. gRPC - шақыру күйі, deadline, метадеректер.
7. WebSocket/SSE - қол алысу, қосылуды қолдау, хабар-эхо.
8. Прокси/маршрутизация/CDN - әртүрлі PoP, кэштің хеш-сынамасы, гео-нұсқалар.
9. Транзакциялық синтетикалық сценарийлер (кликтер/формалар): «логин → іздеу → депозит (құмсалғыш)».
10. Heartbeat/cron-мониторинг - сервис «пульсациялауға» міндетті (N минутта бір рет); дабыл жоқ - дабыл.

Кеңестер:
  • Таймауттарды нақты UX-ке жақындатыңыз (мысалы, TTFB ≤ 300 мс, total ≤ 2 с).
  • Қатесі бар «200 ОК» табысты болып саналмауы үшін контент-ассертті (кілт сөз/JSON өрісі) тексеріңіз.
  • Тәуелсіз провайдерлер мен желілер (мульти-хоп, әртүрлі ASN) арқылы тексерулерді қайталаңыз.

4) Ақ жәшік және сервис денсаулығы

Оркестратор үшін Liveness/Readiness сынамалары (процестер тірі? трафикті қабылдауға дайын ба?).
Тәуелділік денсаулығы: ДБ, кэш, оқиғалар брокері, сыртқы API (төлемдер/KYC/AML).
Фича-жалаулар/деградация: проблемалар кезінде қиын емес жолдарды жұмсақ ажыратамыз.

Ақ сынамалар сыртқы тексерулерді алмастырмайды: қызмет «ішіндегі сау» болуы мүмкін, бірақ DNS/TLS/бағытына байланысты пайдаланушыға қол жетімді емес.

5) География және көп аймақтық

Трафиктің негізгі аймақтарынан және күрделі тәуелділік провайдерлерімен бірге синтетиканы іске қосыңыз.
Кворум: егер жергілікті аномалияларды жою үшін N ≥ аймақтарда (мысалы, 3-тен 2-де) сәтсіздік болса, инцидентті тіркейміз.
Когорттар бойынша табалдырық: маңызды сегменттер үшін жеке SLI/SLO (елдер, VIP, байланыс операторлары).

6) Алерт саясаты (шудың минимумы)

Мульти-өңір + мульти-сынама: келісілген сәтсіздік кезінде ғана пейджер (мысалы, HTTP және TLS бір мезгілде, ≥ 2 өңір).
Дебаунс: дәйекті сәтсіздіктердің N немесе пейджер алдындағы терезе 2-3 минут.

Өрістеу:
  • L1: on-call (продакшен-сервистер).
  • L2: ақау белгісіне байланысты желі/платформа/қауіпсіздік.
  • Авто-жабу: тұрақты M сәтті тексеруден кейін.
  • Тыныш сағаттар/жеңілдіктер: күрделі емес ішкі сервистер үшін - тек тикеттер, пейджерсіз.

7) Мәртебе-бет және коммуникация

Жария (клиенттік) және жекеше (ішкі) мәртебе-беттер.
Синтетикадан автоматты инциденттер + қолмен аннотациялар.
Хабарлама үлгілері: табылды - сәйкестендірілді - әсер ету - айналма жол - ETA - шешілді - пост-мордем.
Жоспарлы терезелер: алдын ала жариялау, ерекшеліктерді SLO-дан бөлек ескеру.

8) Сыртқы тәуелділіктерді есепке алу

Әрбір провайдер үшін (төлемдер, KYC, тарату, CDN, бұлттар) - бірнеше өңірлерден өз тексерулері.
Failover-бағыттары: синтетика сигналы бойынша баламалы провайдерге авто-ауыстырып қосу.
Провайдер деңгейіндегі жеке SLO және интегралды e2e-SLO.
Провайдерлермен SLA туралы келісу (статус-вебхактар, қолдау басымдығы).

9) Дашбордтар және негізгі виджеттер

Тексеру жағдайы бар әлем картасы (HTTP, DNS, TLS түрлері бойынша).
Релиздер/жалаушалар аңдатпаларымен оқиғалар таймлайн.
Өңірлер бойынша TTFB/TTL/latency P50/P95/P99.
Когорталар бойынша қолжетімділік (ел/провайдер/құрылғы).
MTTR/MTBF, қол жетімділік бюджетінің бір айдағы «кідіріс минуттары» және «burn-down» трендтері.
Ақаулардың басты себептері (TLS-expiry, DNS-resolving, 5xx, timeouts).

10) Инцидент процесі (жылдам сценарий)

1. Мульти-аймақ/мульти-тип алерт іске қосылады.
2. Кезекші релиздерді растайды, мұздатуды қосады, иелеріне хабарлайды.
3. Жылдам диагностика: DNS/TLS/CDN мәртебесі, соңғы шығарылымдар, қателер кестесі.
4. Тексеріп шығу: бағытты ауыстыру, фолбэк-контент/провайдер, деградация режимін қосу.
5. Қалпына келтіру: синтетика/нақты трафиктің жасыл екенін тексеру.
6. Мәртебе-бетте коммуникация; оқыс оқиғаны жабу.
7. RCA және action items: түзетулер, тесттер, алерттар, плейбуктер.

11) SLA/SLO бойынша есептілік

Ай сайынғы есептер: сервистер/өңірлер бойынша аптайм, тоқтап тұрған минуттар, MTTR, себептер.
SLA-мен салыстыру: егер қолданылатын болса, кредиттер/өтемақылар.
Тоқсандық ревю: табалдырықтарды өзектендіру, синтетиканы бөлу, тәуелділіктер тізбесі.

12) Тексеру үлгілері (мысал)

HTTP API тексеру:
  • Әдісі: 'GET/healthz/public' (құпиясыз).
  • Уақыт: 2 с, retry: 1.
  • Табысы: '2xx', 'X-App-Version' тақырыбы бар, 'status': 'ok' JSON өрісі бар.
TLS тексеру:
  • Мерзімі> 14 күн, валид тізбегі, TLS хаттамалары 1. 2 + ', SNI дұрыс.
DNS тексеру:
  • Жауап беру уақыты ≤ 100 мс, A/AAAA жазбалары жоспарға сәйкес келеді, SERVFAIL/REFUSED жоқ.
Heartbeat:
  • Вебхук '/beat/{ service} '5 минутта бір рет; қатарынан 2 сигналдың болмауы - alert L2 (фондық тапсырмалар/ETL).

13) Енгізу чек-парағы

  • Көп аймақтық сыртқы тексерулер (HTTP/TCP/DNS/TLS/терең сценарийлер).
  • Оркестр үшін ақ readiness/liveness сынамалары.
  • Сыни/сыни емес жолдарды бөлу, тозу фича-жалаулары.
  • Кворум және дебаунс, эскалация және авто жабу.
  • Ашық және ішкі мәртебе беттері, хабарлама үлгілері.
  • Сыртқы провайдерлер үшін жеке тексерулер мен SLO + автоматты failover.
  • Дашбордтар: карта, таймлайн, бұрыштама, бос тұрған минут, MTTR/MTBF.
  • SLA/SLO және инциденттен кейінгі RCA бойынша тұрақты есептер.

14) Жиі қателер

Тек НТТР/мазмұны жоқ ping/порт - іс жүзінде қол жетімсіз болған кезде «жасыл».
Мониторингтің бір нүктесі - жалған оң/теріс қорытындылар.
TLS/DNS бақылауының болмауы - мерзімі өткен/мисконфиг салдарынан кенеттен тоқтап қалу.
Артық шу: бір өңірден/тексеру түрінен жеке-дара сәтсіздіктер бойынша алерталар.
Өзгерістермен байланысы жоқ - дашбордтарда релиздер мен жалаулардың аңдатпалары жоқ.
Ескерілмеген тәуелділіктер - төлем провайдері құлдырады, ал жалпы мәртебесі «жасыл».

15) Қорытынды

Аптайманы бақылау тек «URL-ді теру» ғана емес. Бұл нақты өңірлердегі синтетикалық тексерулер жүйесі, шусыз ақылға қонымды алерталар, статус-беттер арқылы ашық коммуникация, сыртқы тәуелділіктерді есепке алу және қатаң есептілік. Дұрыс құрылған аптайм мониторингі MTTR-ді азайтады, SLA-ны қорғайды және пайдаланушы тәжірибесінің болжамдылығын сақтайды.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.