Uptime байкоо
1) Эмне үчүн мониторинг жүргүзүү үчүн
Аптайм - кызмат колдонуучуга жеткиликтүү болгон убакыттын үлүшү. Бул "биринчи сызык" байкоо: дароо жеткиликсиздигин байкоо, тармак боюнча деградация, DNS/TLS, багыттоо көйгөйлөрү же CDN. Жогорку жүктөлгөн жана жөнгө салынуучу системалар үчүн (fintech, iGaming) аптайм түздөн-түз кирешеге, SLA аткарууга жана айып тобокелдиктерге таасир этет.
2) Терминдер жана формулалар
SLI жеткиликтүүлүгү: 'SLI = (ийгиликтүү текшерүүлөр/бардык текшерүүлөр) × 100%'.
SLO: терезенин артында максаттуу жеткиликтүүлүк (адатта 28-30 күн), мисалы, 99. 9%.
SLA: тышкы милдеттенме; ар дайым ички SLO ≤.
MTBF/MTTR: каталар ортосундагы орточо убакыт/орточо калыбына келтирүү убактысы.
99. 0% → ~ 432 мин жеткиликсиз
99. 9% → ~ 43 мин
99. 99% → ~4. 3 мин
99. 999% → ~ 26 сек
3) Кандай текшерүү керек (кара куту)
Тышкы пункттардан (ар кандай аймактар/провайдерлер) "кардардын көзү" кызматын көрүү үчүн ишке киргизилет.
1. ICMP (ping) - негизги тармак/түйүн жеткиликтүүлүгү. Тез, бирок бизнес ийгилигин чагылдырбайт.
2. TCP connect - порт угат? брокерлер/DD/SMTP үчүн пайдалуу.
3. HTTP/HTTPS - статус-код, аталыштар, көлөмү, редакторлор, биринчи байт чейин убакыт.
4. TLS/күбөлүк - жарактуу мөөнөтү, чынжыр, алгоритмдер, SNI, протоколдор.
5. DNS - A/AAAA/CNAME, NS-ден соолук, бөлүштүрүү, DNSSEC.
6. gRPC - чакыруу статусу, deadline, метадеректер.
7. WebSocket/SSE - кол алышуу, байланышты сактоо, жаңырык билдирүү.
8. Прокси/багыттоо/CDN - ар кандай PoP, кэш хеш сыноо, гео-параметрлери.
9. Транзакциялык синтетикалык сценарийлер (чыкылдатуу/формалар): "логин → издөө → депозит (кум куту)".
10. Heartbeat/cron-мониторинг - кызмат "кагып" милдеттүү (хук N мүнөт сайын); сигнал жок - коңгуроо.
- Таймауттарды чыныгы UXге жакын коюңуз (мисалы, TTFB ≤ 300 мс, жалпы ≤ 2 с).
- "200 OK" ката ийгилик деп эсептелбеши үчүн мазмунду (ачкыч сөз/JSON талаасы) текшериңиз.
- Көз карандысыз провайдерлер жана тармактар аркылуу текшерүүлөрдү кайталаңыз (көп-хоп, ар кандай ASN).
4) Ак куту жана ден соолук кызматы
Liveness/Readiness үлгүлөрү үчүн оркестр (жараяндар тирүү? трафикти кабыл алууга даярбы?).
Ден соолук көз карандылык: DD, кэш, брокер, тышкы API (төлөмдөр/KYC/AML).
Фича-желектер/деградация: көйгөйлөр болгон учурда критикалык эмес жолдорду жумшак өчүрөбүз.
Ак үлгүлөр тышкы текшерүүлөрдү алмаштыра албайт: кызмат "ичинде дени сак" болушу мүмкүн, бирок DNS/TLS/каттам үчүн колдонуучу үчүн жеткиликтүү эмес.
5) География жана көп аймактуулук
Трафиктин негизги аймактарынан жана критикалык көз карандылык провайдерлеринин жанынан синтетиканы ишке киргизиңиз.
Кворум: жергиликтүү аномалияларды жок кылуу үчүн ≥ N аймактарда (мисалы, 3 ичинен 2) ийгиликсиздик болсо, инцидентти каттайбыз.
Cocorts боюнча босого: маанилүү сегменттер үчүн өзүнчө SLI/SLO (өлкөлөр, VIP, байланыш операторлору).
6) Алерт саясаты (минималдуу ызы-чуу)
Көп аймак + көп сыноо: пейджер гана макулдашылган ийгиликсиз (мисалы, бир эле учурда HTTP жана TLS, ≥ 2 аймактар).
Дебаунс: N ырааттуу ийгиликсиздиктер же терезе 2-3 мүнөт пейджер алдында.
- L1: on-call (production-services).
- L2: тармак/платформа/коопсуздук бузулуу белгисине жараша.
- Auto-жабуу: туруктуу M ийгиликтүү текшерүү кийин.
- Тынч саат/жеңилдиктер: маанилүү эмес ички кызматтар үчүн - гана билеттер, пейджерсиз.
7) Статус-бет жана байланыш
Коомдук (кардар) жана жеке (ички) статус-беттер.
Автоматтык синтетикалык окуялар + кол аннотациялар.
Билдирүүлөрдүн үлгүлөрү: табылган - аныкталган - таасир - айланма жол - ETA - чечилген - пост-мордем.
Пландаштырылган терезелер: алдын ала жарыялоо, SLOдан өзүнчө эске алуу.
8) Тышкы көз карандылыкты эсепке алуу
Ар бир провайдер үчүн (төлөмдөр, KYC, жөнөтүүлөр, CDN, булуттар) - бир нече аймактардан өз текшерүүлөрү.
Failover-жолдору: auto-которуу боюнча альтернативдик провайдер сигнал синтетика.
Провайдердин деңгээлинде өзүнчө SLO жана интегралдык e2e-SLO.
Провайдерлер менен SLA жөнүндө макулдашуу (статус-вебхактар, колдоо артыкчылыгы).
9) Dashboard жана негизги Widget
Текшерүү абалы менен дүйнө картасы (түрлөрү боюнча: HTTP, DNS, TLS).
Релиздердин/желектердин аннотациялары менен окуялардын таймлайн.
P50/P95/P99 боюнча TTFB/TTL/latency.
Когорталар боюнча жеткиликтүүлүк (өлкө/провайдер/аппарат).
MTTR/MTBF, тенденциялар "токтоо мүнөт" жана "бурн-down" ай үчүн жеткиликтүү бюджет.
Ийгиликсиздиктин негизги себептери (TLS-expiry, DNS-resolving, 5xx, timeouts).
10) Окуя процесси (кыска мөөнөттүү сценарий)
1. Multi-аймак/Multi-түрү алерт иштейт.
2. Нөөмөтчү тастыктайт, релиздерди тоңдурууну камтыйт, ээлерине кабарлайт.
3. Fast диагностика: DNS/TLS/CDN абалы, акыркы релиздер, ката тартиби.
4. Айланып өтүү: багытын өзгөртүү, фолбэк мазмуну/провайдер, деградация режимин күйгүзүү.
5. калыбына келтирүү: синтетика/чыныгы жол жашыл экенин текшерүү.
6. Статус-беттеги байланыш; окуяны жабуу.
7. RCA жана action items: оңдоолор, тесттер, алерттар, плейбуктар.
11) SLA/SLO боюнча отчеттуулук
Айлык отчеттор: кызматтар/региондор боюнча аптайм, токтоп калган мүнөттөр, MTTR, себептер.
SLA менен салыштыруу: кредиттер/компенсациялар, эгерде колдонулса.
Чейректик ревю: босоголорду актуалдаштыруу, синтетиканы бөлүштүрүү, көз карандылыктардын тизмеси.
12) Текшерүү үлгүлөрү (мисал)
HTTP текшерүү API:- Метод: 'GET/healthz/public' (сырсыз).
- Убакыт: 2 с, retry: 1.
- Ийгилик: '2xx', 'X-App-Version' аталышы бар, JSON 'status': 'ok'.
- Мөөнөтү> 14 күн, valid чынжыр, TLS протоколдору 1. 2 + ', туура SNI.
- Жооп убактысы ≤ 100 мс, A/AAAA жазуулар планга ылайык, эч кандай SERVFAIL/REFUSED.
- Webhook '/beat/{ service} 'бир жолу 5 мүнөт; жок 2 катары сигналдар - alert L2 (фон милдеттери/ETL).
13) Киргизүү чек-тизмеси
- Көп аймактык тышкы текшерүү (HTTP/TCP/DNS/TLS/терең жагдайлар).
- Ак үлгүлөрү readiness/жашоо үчүн оркестр.
- сындуу/сындуу эмес жолдорду бөлүү, сынчы-бузулган желектери.
- Кворум жана дебаунс, эскалация жана авто-жабуу.
- Коомдук жана ички статус барактар, билдирүүлөрдүн шаблондору.
- Жеке текшерүү жана SLO үчүн тышкы кызмат көрсөтүүчүлөр + Auto failover.
- Дашборддор: карта, таймлайн, кагыш, токтоп калган мүнөттөр, MTTR/MTBF.
- SLA/SLO жана пост-окуя RCA боюнча үзгүлтүксүз отчеттор.
14) Көп каталар
НТТР/мазмуну жок гана ping/порт - иш жүзүндө жеткиликсиздиги менен "жашыл".
Мониторингдин бир чекити - жалган оң/терс жыйынтыктар.
TLS/DNS контролдоо жоктугу - улам кечигүү/misconfig капыстан токтоп.
Кошумча ызы-чуу: бир аймактан жалгыз мүчүлүштүктөр боюнча алерталар/текшерүү түрү.
Өзгөрүүлөр менен байланышы жок - дашборддордо релиздердин жана желектердин аннотациялары жок.
Эске алынбаган көз карандылык - төлөм провайдери түшүп, жалпы статус "жашыл".
15) Жыйынтык
Uptime Tracking - бул жөн гана "URL чалуу" эмес. Бул реалдуу региондордон келген синтетикалык текшерүү системасы, ызы-чуусуз акылга сыярлык алерталар, статус-барактар аркылуу ачык-айкын байланыш, тышкы көз карандылыкты эсепке алуу жана катуу отчеттуулук. Туура уюлдук мониторинг MTTR азайтат, SLA коргойт жана колдонуучунун тажрыйбасын алдын ала сактайт.