GH GambleHub

SLA жана SLO мониторинг

1) Терминдер жана ролдору

SLA (Service Level Agreement) - кардардын алдындагы тышкы келишимдик милдеттенме (айыптык эскертүүлөр, кредиттер).
SLO (Service Level Objective) - SLAны аткарууну колдогон кызматтын максаттуу ички деңгээли.
SLI (Service Level Indicator) - өлчөнүүчү индикатор, анын негизинде SLO/SLA бааланат.
Error Budget - "жеткиликсиздиктин/каталардын" жол берилген үлүшү: 'Budget = 1 − SLO'.
Scope: колдонуучунун көз менен өлчөнөт (end-to-end). Микросервистерде - компоненттин деңгээлинде да, толук жолдо да.

2) SLI тандоо: так өлчөө

Критерий - колдонуучунун тажрыйбасы жана бизнес баалуулугу менен байланыш.

Типтүү SLI:
  • Жеткиликтүүлүк: ийгиликтүү суроо-талаптардын үлүшү. 'SLI = ийгиликтүү/бардыгы'.
  • Жашыруун: суроо-талаптардын үлүшү T. босогосунан тезирээк 'SLI = P (latency ≤ T)'.
  • Сапаты: туура жооптордун үлүшү (жок 5хх/милдети. каталар).
  • Берилиштердин актуалдуулугу: кечигүү репликация/ETL ≤ X мүнөт.
  • Бизнес-процесстин натыйжалуулугу: ийгиликтүү төлөмдөрдүн/каттоолордун үлүшү.

Анти-үлгүлөрү: бизнес каталарды эске албаганда, "ийгилик" деп гана 200 карап; ордуна сыноо тармагында өлчөө.

3) Формулалар жана байкоо терезелери

Терезеден тышкаркы жеткиликтүүлүк:
  • `Availability = (OK_requests / All_requests) × 100%`.
жашыруун SLO:
  • 'P95 ≤ T' → үлүш катары түзүлгөн жакшы: 'SLI =% суроо ≤ T'.
  • Мисалы: "99% издөө суроо ≤ 300 ms 28 күндүн ичинде".
  • Жылма терезе: 28 же 30 күн (сезгичтик жана туруктуулук балансы). Окуялар үчүн - кошумча терезелер: 1 саат, 6 саат, 24 саат.

4) Error бюджет жана өзгөртүү ылдамдыгын башкаруу

Эсептөө: 'SLO = 99. 9% 'бюджет =' 0. 1% мезгил ичинде ката/жеткиликсиздик.

Саясат:
  • Бюджет> 50%: релиздер жана эксперименттер план боюнча.
  • Бюджет 10-50%: гана төмөн тобокелдик релиздер, канарейка катуулатуу.
  • Бюджет <10%: релиздерди тоңдуруу, негизги себеп, ишенимдүүлүктү жогорулатуу.
  • Прогрессивдүү релиздер менен байланыш: canary/feature-flags "жегиле" бюджет дозалап, деградация учурунда auto-rebound менен.

5) Алерт-саясат: босогодон burn rate

Эмне үчүн "Dowpal SLO - Алерт көтөрүп": өтө кеч. Проактивдүүлүк керек.

Burn Rate (BR) - бюджеттин күйгүзүү ылдамдыгы:
  • 'BR = (кыска терезеден байкалган ката/бул терезеден алгылыктуу ката)'.
  • Эгерде 'BR> 1' - бюджет нормадан тезирээк сарпталат.
Эки терезе Алерт (SRE мыкты practice):
  • Fast alert (ызы-сезимтал, кырсык кармайт): терезе 5-10 мин, босого BR 14-20 ×.
  • Жай алерт (сойлоп деградацияларды кармайт): терезе 1-6 саат, BR босогосу 2-4 ×.
  • Айкалыштыруу шарттары: тез же жай иштеген - пейджинг on-call.
  • Деңгээл: колдонуучу SLO үчүн пейджер, ички SLI боз деградация үчүн билеттер/билдирүүлөр.

6) Байкоо жана чындык булактары

Логи - себептерин аныктоо.
Метриктер - сандык SLI (ийгилик/ката, латенттүүлүк, үлүштөр, эсептегичтер).
Tracks - жолдор аркылуу, "ысык" сегменттерди локалдаштыруу.
Синтетика - перифериядан активдүү үлгүлөр (region-aware).
Реалдуу окуялар - RUM/кардарлардын телеметриясы, бизнес-метрика (конверсия, ийгиликтүү төлөмдөр).

Талаптар: дашборддор релиздер жана окуялар, аннотациялар "версия/канарейка/желек" бир сүрөт.

7) SLO долбоорлоо: кадам шаблон

1. Критикалык жолду сүрөттөп бериңиз (мисалы, "карта менен депозит").
2. SLI аныктоо: ийгилик/ката, жашыруун босого, толук.
3. SLO макулдашуу: 28 күндүк максат + өзгөчөлүктөр (пландаштырылган терезелер).
4. SLA менен байланыш: юридикалык милдеттенме ≦ чыныгы SLO.
5. ээси дайындоо (service owner), RACI жана Алерт канал.
6. Аныктоо алерт-саясат (эки терезе BR) жана auto-спот.
7. Отчеттуулукту киргизиңиз: жума сайын бюджетти карап чыгуу, окуядан кийинки ревю.
8. SLO чейрек сайын карап чыгуу (жүк/архитектура өзгөртүү).

8) SLO мисалдар (үлгүлөрү)

Төлөмдөрдүн API:
  • Жеткиликтүүлүгү: '99 ≥. 95% '(28d, жарыяланган терезелерди кошпогондо ≤ 30 мин/ай).
  • Жашыруун: '99% ≥' жооптор '≤ 400 ms'.
  • Бизнес-операциялардын ийгилиги: '≥ 98. 5% ийгиликтүү уруксат (fraud-чыпкалар эске алынган).
Оюндарды/мазмунду издөө:
  • Жашыруун: '99% ≥' суроо-талап '≤ 300 ms'.
  • Кэштин актуалдуулугу: '≤ 5 мин' 99% учурларда артта калуу.
Striming окуялар (KYC/AML):
  • Жеткирүү: '99 ≥. 9% 'ичинде' ≤ 60 с '(end-to-end, retra менен).
  • Жоготуу: '≤ 0. 01% 'билдирүүлөр (демпотенттик/дедупликация киргизилген).

9) Көп аймак жана көп тенант

SLO "coorts боюнча": өлкө, төлөм провайдери, VIP-сегмент, түзмөк.
Чектеги жергиликтүү SLO: колдонуучуга жакын чекиттерден метриктер (edge/PoP).
Агрегациялоо: жалпы SLO маанилүү когорталар боюнча кемчиликтерди жашырбашы керек.
жөнөтүүчүлөр которуу: SLO-Gates деъгээлинде автоматтык fallback жолдору.

10) Дашборддор жана отчеттуулук

Релиздик дашборд: версия, канарейка (% трафик), SLI (ийгилик/жашыруун), BR, желектердин аннотациялары.
Операциялык дашборд: күнүмдүк бюджет, жогорку окуялар, MTTR, көйгөйлүү когорттор.
Жумалык отчеттор: бюджеттин калдыгы, BR тенденциялары, техникалык карыз (тар жерлер), жакшыртуу планы.

11) жараяндар: окуялар, RCA жана жакшыртуу

Инцидент-менеджмент: alert → BR баалоо → канарейка/желектердин масштабы → артка/fix.
RCA (тамыр себеби): фактылар/убакыт/гипотезалар/оңдоолор/SLI боюнча эффектти текшерүү.
Алынган сабактар: чекене пост-мортемалар, ээлери жана мөөнөттөрү менен милдеттүү action items.
Айлампанын жабылышы: тесттерде, фича-желектерде, лимиттерде, кэштерде, ретраларда, квоталарда өзгөрүүлөр.

12) Комплаенс жана аудит

SLO/SLI контролдоо артефакттары катары (policy-as-code, өзгөрүлбөгөн логиндер).
Талаптарга байланыштыруу (мисалы, төлөм операцияларынын жеткиликтүүлүгү).
Далилдер: алерттердин протоколдору, бюджет боюнча отчеттор, релиздердин/кайра кайтаруулардын журналдары.

13) Көп каталар жана аларды алдын алуу үчүн кантип

“99. 99% же өлүм": кол жеткис максаттар → тынымсыз кооптонуу-ызы-чуу. реалдуу SLO тандоо.
Global орто жергиликтүү каталарды жашыруу → Когортторду киргизүү.
e2e эмес: жогорку SLO кардар боюнча иш жүзүндө деградация → RUM/синтетика кошуу.
Алерта бир босого → эки терезе burn rate өтүү.
Өзгөртүүлөр менен эч кандай байланышы жок → релиздер аннотацияланган эмес, эч кандай авто-кайтаруу жок.

14) Мини-чек-тизмеси киргизүү

  • маанилүү жолдору жана алардын SLI/SLO сүрөттөлгөн.
  • Байкоо жана өзгөчөлүктөр терезеси белгиленген.
  • Эки терезе BR (тез жана жай) орнотулган.
  • Dashboard релиздерди жана аннотацияларды чыгаруу/желектери менен иш.
  • error budget саясаты релиздерди таасир этет.
  • Үзгүлтүксүз бюджет сын-пикирлер жана пост-окуя RCA.
  • Документтер жана көрсөткүчтөрдүн ээлери.

15) Эсептөө мисалы (конкреттүүлүк)

SLO API жеткиликтүүлүгү: 99. 9% 28 күн → бюджет = 0. 1%.
7 күндүн ичинде топтолгон 0. 06% каталар → жумалык бюджеттин 60% сарпталган.
15 мин кыска терезеде каталардын 2% байкалган. Бул терезеде жарактуу: '0. 1% × (15 мин/40320 мин) ≈ 0. 000037%`.
Burn Rate ≫ 1 (× ондогон) → тез пейджер иштейт, канарейка 1% га чейин түшөт, "degrade-payments-UX" фича желеги күйгүзүлөт, RCA башталат.

16) Жыйынтык

SLA/SLO мониторинги - бул отчеттогу сандар гана эмес, өзгөрүү тобокелдигин жана тейлөө сапатын башкаруу механизми. Туура SLI, реалдуу SLO, error budget башкаруу, эки терезе burn-rate алерт жана e2e-байкоо жумушчу чечимдер метрикаларды айлантат: тезирээк наркын бошотуу жана алдын ала колдонуучунун тажрыйбасын сактоо.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Telegram
@Gamble_GC
Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.