Аптайманы бақылау
1) Неліктен аптайм мониторингі керек
Аптайм - қызмет пайдаланушыға қолжетімді болған уақыттың үлесі. Бұл бақылаудың «бірінші сызығы»: қол жетімсіздікті, желі бойынша құлдырауды, DNS/TLS ақауын, бағыттау немесе CDN проблемаларын бірден байқау. Жоғары жүктемелі және реттелетін жүйелер үшін (финтех, iGaming) аптайм түсімге, SLA-ны орындауға және айыппұл тәуекелдеріне тікелей әсер етеді.
2) Терминдер мен формулалар
Қолжетімділік SLI: 'SLI = (сәтті тексерулер/барлық тексерулер) × 100%'.
SLO: терезе сыртындағы мақсатты қолжетімділік (әдетте 28-30 күн), мысалы 99. 9%.
SLA: сыртқы міндеттеме; әрқашан ішкі SLO ≤.
MTBF/MTTR: ақаулар арасындағы орташа уақыт/орташа қалпына келтіру уақыты.
99. 0% → ~ 432 минут қол жетімділік
99. 9% → ~ 43 мин
99. 99% → ~4. 3 мин
99. 999% → ~ 26 сек
3) Қандай тексерулер қажет (қара жәшік)
Сервисті «клиенттің көзімен» көру үшін сыртқы нүктелерден (әртүрлі өңірлер/провайдерлер) іске қосылады.
1. ICMP (ping) - негізгі желі/тораптың қол жетімділігі. Жылдам, бірақ бизнес табысты көрсетпейді.
2. TCP connect - порт тыңдайды ма? Брокерлер/ДБ/SMTP үшін пайдалы.
3. HTTP/HTTPS - мәртебе-коды, тақырыптары, өлшемі, редакторлары, бірінші байтқа дейінгі уақыты.
4. TLS/сертификаттар - жарамдылық мерзімі, тізбек, алгоритмдер, SNI, хаттамалар.
5. DNS - A/AAAA/CNAME, NS-денсаулық, тарату, DNSSEC.
6. gRPC - шақыру күйі, deadline, метадеректер.
7. WebSocket/SSE - қол алысу, қосылуды қолдау, хабар-эхо.
8. Прокси/маршрутизация/CDN - әртүрлі PoP, кэштің хеш-сынамасы, гео-нұсқалар.
9. Транзакциялық синтетикалық сценарийлер (кликтер/формалар): «логин → іздеу → депозит (құмсалғыш)».
10. Heartbeat/cron-мониторинг - сервис «пульсациялауға» міндетті (N минутта бір рет); дабыл жоқ - дабыл.
- Таймауттарды нақты UX-ке жақындатыңыз (мысалы, TTFB ≤ 300 мс, total ≤ 2 с).
- Қатесі бар «200 ОК» табысты болып саналмауы үшін контент-ассертті (кілт сөз/JSON өрісі) тексеріңіз.
- Тәуелсіз провайдерлер мен желілер (мульти-хоп, әртүрлі ASN) арқылы тексерулерді қайталаңыз.
4) Ақ жәшік және сервис денсаулығы
Оркестратор үшін Liveness/Readiness сынамалары (процестер тірі? трафикті қабылдауға дайын ба?).
Тәуелділік денсаулығы: ДБ, кэш, оқиғалар брокері, сыртқы API (төлемдер/KYC/AML).
Фича-жалаулар/деградация: проблемалар кезінде қиын емес жолдарды жұмсақ ажыратамыз.
Ақ сынамалар сыртқы тексерулерді алмастырмайды: қызмет «ішіндегі сау» болуы мүмкін, бірақ DNS/TLS/бағытына байланысты пайдаланушыға қол жетімді емес.
5) География және көп аймақтық
Трафиктің негізгі аймақтарынан және күрделі тәуелділік провайдерлерімен бірге синтетиканы іске қосыңыз.
Кворум: егер жергілікті аномалияларды жою үшін N ≥ аймақтарда (мысалы, 3-тен 2-де) сәтсіздік болса, инцидентті тіркейміз.
Когорттар бойынша табалдырық: маңызды сегменттер үшін жеке SLI/SLO (елдер, VIP, байланыс операторлары).
6) Алерт саясаты (шудың минимумы)
Мульти-өңір + мульти-сынама: келісілген сәтсіздік кезінде ғана пейджер (мысалы, HTTP және TLS бір мезгілде, ≥ 2 өңір).
Дебаунс: дәйекті сәтсіздіктердің N немесе пейджер алдындағы терезе 2-3 минут.
- L1: on-call (продакшен-сервистер).
- L2: ақау белгісіне байланысты желі/платформа/қауіпсіздік.
- Авто-жабу: тұрақты M сәтті тексеруден кейін.
- Тыныш сағаттар/жеңілдіктер: күрделі емес ішкі сервистер үшін - тек тикеттер, пейджерсіз.
7) Мәртебе-бет және коммуникация
Жария (клиенттік) және жекеше (ішкі) мәртебе-беттер.
Синтетикадан автоматты инциденттер + қолмен аннотациялар.
Хабарлама үлгілері: табылды - сәйкестендірілді - әсер ету - айналма жол - ETA - шешілді - пост-мордем.
Жоспарлы терезелер: алдын ала жариялау, ерекшеліктерді SLO-дан бөлек ескеру.
8) Сыртқы тәуелділіктерді есепке алу
Әрбір провайдер үшін (төлемдер, KYC, тарату, CDN, бұлттар) - бірнеше өңірлерден өз тексерулері.
Failover-бағыттары: синтетика сигналы бойынша баламалы провайдерге авто-ауыстырып қосу.
Провайдер деңгейіндегі жеке SLO және интегралды e2e-SLO.
Провайдерлермен SLA туралы келісу (статус-вебхактар, қолдау басымдығы).
9) Дашбордтар және негізгі виджеттер
Тексеру жағдайы бар әлем картасы (HTTP, DNS, TLS түрлері бойынша).
Релиздер/жалаушалар аңдатпаларымен оқиғалар таймлайн.
Өңірлер бойынша TTFB/TTL/latency P50/P95/P99.
Когорталар бойынша қолжетімділік (ел/провайдер/құрылғы).
MTTR/MTBF, қол жетімділік бюджетінің бір айдағы «кідіріс минуттары» және «burn-down» трендтері.
Ақаулардың басты себептері (TLS-expiry, DNS-resolving, 5xx, timeouts).
10) Инцидент процесі (жылдам сценарий)
1. Мульти-аймақ/мульти-тип алерт іске қосылады.
2. Кезекші релиздерді растайды, мұздатуды қосады, иелеріне хабарлайды.
3. Жылдам диагностика: DNS/TLS/CDN мәртебесі, соңғы шығарылымдар, қателер кестесі.
4. Тексеріп шығу: бағытты ауыстыру, фолбэк-контент/провайдер, деградация режимін қосу.
5. Қалпына келтіру: синтетика/нақты трафиктің жасыл екенін тексеру.
6. Мәртебе-бетте коммуникация; оқыс оқиғаны жабу.
7. RCA және action items: түзетулер, тесттер, алерттар, плейбуктер.
11) SLA/SLO бойынша есептілік
Ай сайынғы есептер: сервистер/өңірлер бойынша аптайм, тоқтап тұрған минуттар, MTTR, себептер.
SLA-мен салыстыру: егер қолданылатын болса, кредиттер/өтемақылар.
Тоқсандық ревю: табалдырықтарды өзектендіру, синтетиканы бөлу, тәуелділіктер тізбесі.
12) Тексеру үлгілері (мысал)
HTTP API тексеру:- Әдісі: 'GET/healthz/public' (құпиясыз).
- Уақыт: 2 с, retry: 1.
- Табысы: '2xx', 'X-App-Version' тақырыбы бар, 'status': 'ok' JSON өрісі бар.
- Мерзімі> 14 күн, валид тізбегі, TLS хаттамалары 1. 2 + ', SNI дұрыс.
- Жауап беру уақыты ≤ 100 мс, A/AAAA жазбалары жоспарға сәйкес келеді, SERVFAIL/REFUSED жоқ.
- Вебхук '/beat/{ service} '5 минутта бір рет; қатарынан 2 сигналдың болмауы - alert L2 (фондық тапсырмалар/ETL).
13) Енгізу чек-парағы
- Көп аймақтық сыртқы тексерулер (HTTP/TCP/DNS/TLS/терең сценарийлер).
- Оркестр үшін ақ readiness/liveness сынамалары.
- Сыни/сыни емес жолдарды бөлу, тозу фича-жалаулары.
- Кворум және дебаунс, эскалация және авто жабу.
- Ашық және ішкі мәртебе беттері, хабарлама үлгілері.
- Сыртқы провайдерлер үшін жеке тексерулер мен SLO + автоматты failover.
- Дашбордтар: карта, таймлайн, бұрыштама, бос тұрған минут, MTTR/MTBF.
- SLA/SLO және инциденттен кейінгі RCA бойынша тұрақты есептер.
14) Жиі қателер
Тек НТТР/мазмұны жоқ ping/порт - іс жүзінде қол жетімсіз болған кезде «жасыл».
Мониторингтің бір нүктесі - жалған оң/теріс қорытындылар.
TLS/DNS бақылауының болмауы - мерзімі өткен/мисконфиг салдарынан кенеттен тоқтап қалу.
Артық шу: бір өңірден/тексеру түрінен жеке-дара сәтсіздіктер бойынша алерталар.
Өзгерістермен байланысы жоқ - дашбордтарда релиздер мен жалаулардың аңдатпалары жоқ.
Ескерілмеген тәуелділіктер - төлем провайдері құлдырады, ал жалпы мәртебесі «жасыл».
15) Қорытынды
Аптайманы бақылау тек «URL-ді теру» ғана емес. Бұл нақты өңірлердегі синтетикалық тексерулер жүйесі, шусыз ақылға қонымды алерталар, статус-беттер арқылы ашық коммуникация, сыртқы тәуелділіктерді есепке алу және қатаң есептілік. Дұрыс құрылған аптайм мониторингі MTTR-ді азайтады, SLA-ны қорғайды және пайдаланушы тәжірибесінің болжамдылығын сақтайды.