SLA жана SLO мониторинг
1) Терминдер жана ролдору
SLA (Service Level Agreement) - кардардын алдындагы тышкы келишимдик милдеттенме (айыптык эскертүүлөр, кредиттер).
SLO (Service Level Objective) - SLAны аткарууну колдогон кызматтын максаттуу ички деңгээли.
SLI (Service Level Indicator) - өлчөнүүчү индикатор, анын негизинде SLO/SLA бааланат.
Error Budget - "жеткиликсиздиктин/каталардын" жол берилген үлүшү: 'Budget = 1 − SLO'.
Scope: колдонуучунун көз менен өлчөнөт (end-to-end). Микросервистерде - компоненттин деңгээлинде да, толук жолдо да.
2) SLI тандоо: так өлчөө
Критерий - колдонуучунун тажрыйбасы жана бизнес баалуулугу менен байланыш.
Типтүү SLI:- Жеткиликтүүлүк: ийгиликтүү суроо-талаптардын үлүшү. 'SLI = ийгиликтүү/бардыгы'.
- Жашыруун: суроо-талаптардын үлүшү T. босогосунан тезирээк 'SLI = P (latency ≤ T)'.
- Сапаты: туура жооптордун үлүшү (жок 5хх/милдети. каталар).
- Берилиштердин актуалдуулугу: кечигүү репликация/ETL ≤ X мүнөт.
- Бизнес-процесстин натыйжалуулугу: ийгиликтүү төлөмдөрдүн/каттоолордун үлүшү.
Анти-үлгүлөрү: бизнес каталарды эске албаганда, "ийгилик" деп гана 200 карап; ордуна сыноо тармагында өлчөө.
3) Формулалар жана байкоо терезелери
Терезеден тышкаркы жеткиликтүүлүк:- `Availability = (OK_requests / All_requests) × 100%`.
- 'P95 ≤ T' → үлүш катары түзүлгөн жакшы: 'SLI =% суроо ≤ T'.
- Мисалы: "99% издөө суроо ≤ 300 ms 28 күндүн ичинде".
- Жылма терезе: 28 же 30 күн (сезгичтик жана туруктуулук балансы). Окуялар үчүн - кошумча терезелер: 1 саат, 6 саат, 24 саат.
4) Error бюджет жана өзгөртүү ылдамдыгын башкаруу
Эсептөө: 'SLO = 99. 9% 'бюджет =' 0. 1% мезгил ичинде ката/жеткиликсиздик.
Саясат:- Бюджет> 50%: релиздер жана эксперименттер план боюнча.
- Бюджет 10-50%: гана төмөн тобокелдик релиздер, канарейка катуулатуу.
- Бюджет <10%: релиздерди тоңдуруу, негизги себеп, ишенимдүүлүктү жогорулатуу.
- Прогрессивдүү релиздер менен байланыш: canary/feature-flags "жегиле" бюджет дозалап, деградация учурунда auto-rebound менен.
5) Алерт-саясат: босогодон burn rate
Эмне үчүн "Dowpal SLO - Алерт көтөрүп": өтө кеч. Проактивдүүлүк керек.
Burn Rate (BR) - бюджеттин күйгүзүү ылдамдыгы:- 'BR = (кыска терезеден байкалган ката/бул терезеден алгылыктуу ката)'.
- Эгерде 'BR> 1' - бюджет нормадан тезирээк сарпталат.
- Fast alert (ызы-сезимтал, кырсык кармайт): терезе 5-10 мин, босого BR 14-20 ×.
- Жай алерт (сойлоп деградацияларды кармайт): терезе 1-6 саат, BR босогосу 2-4 ×.
- Айкалыштыруу шарттары: тез же жай иштеген - пейджинг on-call.
- Деңгээл: колдонуучу SLO үчүн пейджер, ички SLI боз деградация үчүн билеттер/билдирүүлөр.
6) Байкоо жана чындык булактары
Логи - себептерин аныктоо.
Метриктер - сандык SLI (ийгилик/ката, латенттүүлүк, үлүштөр, эсептегичтер).
Tracks - жолдор аркылуу, "ысык" сегменттерди локалдаштыруу.
Синтетика - перифериядан активдүү үлгүлөр (region-aware).
Реалдуу окуялар - RUM/кардарлардын телеметриясы, бизнес-метрика (конверсия, ийгиликтүү төлөмдөр).
Талаптар: дашборддор релиздер жана окуялар, аннотациялар "версия/канарейка/желек" бир сүрөт.
7) SLO долбоорлоо: кадам шаблон
1. Критикалык жолду сүрөттөп бериңиз (мисалы, "карта менен депозит").
2. SLI аныктоо: ийгилик/ката, жашыруун босого, толук.
3. SLO макулдашуу: 28 күндүк максат + өзгөчөлүктөр (пландаштырылган терезелер).
4. SLA менен байланыш: юридикалык милдеттенме ≦ чыныгы SLO.
5. ээси дайындоо (service owner), RACI жана Алерт канал.
6. Аныктоо алерт-саясат (эки терезе BR) жана auto-спот.
7. Отчеттуулукту киргизиңиз: жума сайын бюджетти карап чыгуу, окуядан кийинки ревю.
8. SLO чейрек сайын карап чыгуу (жүк/архитектура өзгөртүү).
8) SLO мисалдар (үлгүлөрү)
Төлөмдөрдүн API:- Жеткиликтүүлүгү: '99 ≥. 95% '(28d, жарыяланган терезелерди кошпогондо ≤ 30 мин/ай).
- Жашыруун: '99% ≥' жооптор '≤ 400 ms'.
- Бизнес-операциялардын ийгилиги: '≥ 98. 5% ийгиликтүү уруксат (fraud-чыпкалар эске алынган).
- Жашыруун: '99% ≥' суроо-талап '≤ 300 ms'.
- Кэштин актуалдуулугу: '≤ 5 мин' 99% учурларда артта калуу.
- Жеткирүү: '99 ≥. 9% 'ичинде' ≤ 60 с '(end-to-end, retra менен).
- Жоготуу: '≤ 0. 01% 'билдирүүлөр (демпотенттик/дедупликация киргизилген).
9) Көп аймак жана көп тенант
SLO "coorts боюнча": өлкө, төлөм провайдери, VIP-сегмент, түзмөк.
Чектеги жергиликтүү SLO: колдонуучуга жакын чекиттерден метриктер (edge/PoP).
Агрегациялоо: жалпы SLO маанилүү когорталар боюнча кемчиликтерди жашырбашы керек.
жөнөтүүчүлөр которуу: SLO-Gates деъгээлинде автоматтык fallback жолдору.
10) Дашборддор жана отчеттуулук
Релиздик дашборд: версия, канарейка (% трафик), SLI (ийгилик/жашыруун), BR, желектердин аннотациялары.
Операциялык дашборд: күнүмдүк бюджет, жогорку окуялар, MTTR, көйгөйлүү когорттор.
Жумалык отчеттор: бюджеттин калдыгы, BR тенденциялары, техникалык карыз (тар жерлер), жакшыртуу планы.
11) жараяндар: окуялар, RCA жана жакшыртуу
Инцидент-менеджмент: alert → BR баалоо → канарейка/желектердин масштабы → артка/fix.
RCA (тамыр себеби): фактылар/убакыт/гипотезалар/оңдоолор/SLI боюнча эффектти текшерүү.
Алынган сабактар: чекене пост-мортемалар, ээлери жана мөөнөттөрү менен милдеттүү action items.
Айлампанын жабылышы: тесттерде, фича-желектерде, лимиттерде, кэштерде, ретраларда, квоталарда өзгөрүүлөр.
12) Комплаенс жана аудит
SLO/SLI контролдоо артефакттары катары (policy-as-code, өзгөрүлбөгөн логиндер).
Талаптарга байланыштыруу (мисалы, төлөм операцияларынын жеткиликтүүлүгү).
Далилдер: алерттердин протоколдору, бюджет боюнча отчеттор, релиздердин/кайра кайтаруулардын журналдары.
13) Көп каталар жана аларды алдын алуу үчүн кантип
“99. 99% же өлүм": кол жеткис максаттар → тынымсыз кооптонуу-ызы-чуу. реалдуу SLO тандоо.
Global орто жергиликтүү каталарды жашыруу → Когортторду киргизүү.
e2e эмес: жогорку SLO кардар боюнча иш жүзүндө деградация → RUM/синтетика кошуу.
Алерта бир босого → эки терезе burn rate өтүү.
Өзгөртүүлөр менен эч кандай байланышы жок → релиздер аннотацияланган эмес, эч кандай авто-кайтаруу жок.
14) Мини-чек-тизмеси киргизүү
- маанилүү жолдору жана алардын SLI/SLO сүрөттөлгөн.
- Байкоо жана өзгөчөлүктөр терезеси белгиленген.
- Эки терезе BR (тез жана жай) орнотулган.
- Dashboard релиздерди жана аннотацияларды чыгаруу/желектери менен иш.
- error budget саясаты релиздерди таасир этет.
- Үзгүлтүксүз бюджет сын-пикирлер жана пост-окуя RCA.
- Документтер жана көрсөткүчтөрдүн ээлери.
15) Эсептөө мисалы (конкреттүүлүк)
SLO API жеткиликтүүлүгү: 99. 9% 28 күн → бюджет = 0. 1%.
7 күндүн ичинде топтолгон 0. 06% каталар → жумалык бюджеттин 60% сарпталган.
15 мин кыска терезеде каталардын 2% байкалган. Бул терезеде жарактуу: '0. 1% × (15 мин/40320 мин) ≈ 0. 000037%`.
Burn Rate ≫ 1 (× ондогон) → тез пейджер иштейт, канарейка 1% га чейин түшөт, "degrade-payments-UX" фича желеги күйгүзүлөт, RCA башталат.
16) Жыйынтык
SLA/SLO мониторинги - бул отчеттогу сандар гана эмес, өзгөрүү тобокелдигин жана тейлөө сапатын башкаруу механизми. Туура SLI, реалдуу SLO, error budget башкаруу, эки терезе burn-rate алерт жана e2e-байкоо жумушчу чечимдер метрикаларды айлантат: тезирээк наркын бошотуу жана алдын ала колдонуучунун тажрыйбасын сактоо.