Кубаттуулукту пландаштыруу жана жүктү жогорулатуу
Кыскача резюме
Power - бул күтүлгөн жүк жана ийгиликсиз өсүшү менен максаттуу SLO туруштук бере алат. Негиздери:1. Суроо-талаптын болжолу (базалык тренд + сезондук + иш-чаралар).
2. Жүктөө модели (интернет үчүн open-model).
3. Коопсуздук запасы (headroom) жана туура эмес бюджет.
4. Масштабдоо (горизонт/тик/авто) + чектөө (rate-limit/backpressure).
5. Каржы: $/1000 RPS, $/ms p95, сценарийлер боюнча TCO.
Терминдер жана метриктер
Throughput: RPS/QPS/CPS - иш жүзүндө кубаттуулугу.
Latency p95/p99: колдонуучу жолдору үчүн SLO максаттуу.
Saturation: CPU/эс/IO/FD/байланыштарды/кезектерди жүктөө.
Error rate: 5xx/timeout/429, мезгил ичинде туура эмес бюджет.
Headroom: жогорку трафикте эркин кубаттуулуктун үлүшү (30% ≥ сунушталат).
Бурст: кыска мөөнөттүү өсүшү (секунд/мүнөт), Spike: кескин өсүшү × N.
Негизги моделдер жана формулалар
Little's Law (кезектүү системалар үчүн)
L = λ W
L - системадагы суроо-талаптардын орточо саны, λ - кирүүнүн орточо интенсивдүүлүгү (RPS), W - системадагы орточо убакыт. Кезектердин тереңдигин баалоо үчүн пайдалуу.
Жүктөө катышы (ρ)
ρ = λ / μ
μ - тейлөө ылдамдыгы (100% CPU менен RPS). ρ → 1 латенттүүлүк сызыктуу эмес өсөт - ρ ≤ 0 жумушчу чекитин сактап. 6–0. 75.
Safety factor/запасы
Capacity_required = Peak_load (1 + Headroom) Degradation_factor
Мында Degradation_factor N баш тартууну, кэштин деградациясын, бир РоР/аймактын жоголушун эске алат (мисалы, 1. 2).
Суроо-талаптын болжолу
1. Тарых: күндүзгү/жумалык профилдер, сезондук, окуялар менен байланышуу (матчтар/агымдар/төлөмдөр).
2. Иш-чаралар: сценарий коэффициенттери (кадимки күн × 1, турнир × 2. 3, акыркы × 3. 5).
3. Булактар: маркетинг кампаниялары, релиздер, боттордун аномалиялары.
4. Прогноздордун бирдиктери: жолдор боюнча RPS (login, lobby, catalog, payments), CPS TLS, QPS DB, IOPS диск, egress Gbit/c.
5. Ишеним: консервативдүү жана агрессивдүү эки сценарийди сактаңыз.
Жүктү моделдөө
Open-model (кириш Poisson окшош): коомдук API/Web үчүн ишенимдүү - сизинг үчүн колдонуңуз.
Closed-модели (VU + think-time): ички ырааттуулугу үчүн ылайыктуу; айкалыштыруу.
Маршруттардын аралашмалары: эндпойнтторго салмак үлүштөрү; "ысык" гана эмес, ошондой эле "кымбат" (каттоо, депозиттик).
Унутпаңыз: ретра, кезек, өнөктөштөрдүн лимиттери (PSP, үчүнчү тараптын API).
Коопсуздук запастарын долбоорлоо
Headroom максаттуу: ≥ 30% чокусуна (интернет үчүн); төлөм өзөгү жана критикалык жолдор үчүн - 40-50%.
N + 1/N + 2: SLOну бузбастан 1-2 учурдун/зонанын бузулушуна туруштук беребиз.
Multi-аймак: ар бир аймак жалпы чокусуна ≥ 60% тартат (кошуна жоготуу аман).
Degrade-режими: экинчи функцияларды өчүрүп, төлөмдөрдү азайтып, кэш/стаб жоопторду күйгүзөбүз.
Сиз катмарлары боюнча
Network/Edge
CPS/RPS алдыңкы, TLS-handshake p95, resumption ≥ 70%, egress Гбит/с.
Anycast/Geo-routing, CDN/WAF чектери (алдын ала макулдашуу).
Запасы: линк/аплинк ≥ чоку × 1. 3, запасы менен SYN backlog, H3 үчүн UDP/443.
Балансировщиктер/Прокси
бийлик үчүн RPS, ачык байланыштар, кезек, CPU/IRQ.
Keepalive жана connection pooling - backends байланыштарды азайтуу.
Запасы: ρ ≤ 0. 7, limiter по CPS/RPS per route.
Тиркемелер
негизги максаттуу аткаруу (RPS/core) платодо.
Пулдар (thread/DB/HTTP) - чектерге таянбаңыз.
Запасы: CPU 60-70% жана latency-trigger (p95) чейин автоскейлер.
Кэштер
Hit-ratio, көлөмү hotset, eviction, реплика.
Запас: эс ≥ 1. 2 × hotset, тармак headroom ≥ 30%.
Маалымат базалары
QPS/TPM, p95 суроолор, кулпу, буфердик кэш, WAL/replication lag.
IOPS жана диск latency - p95 ачкычы.
Запасы: CPU жумушчу чекити 50-65%, <максаттуу; план жана read-replicas.
Дисктер/сактоо
IOPS (4k/64k), throughput, fsync cost.
Запасы: IOPS ≥ чокусу × 1. 5, latency p95 максаттуу терезеде; журнал/маалыматтар үчүн өзүнчө бассейндер.
GPU/ML (онлайн inference бар болсо)
Samples/s, latency, VRAM headroom, batching.
Запастагы: "араа" жүк астында batch параметрлери, warm-pool GPU.
Авто-масштабдоо
HPA/KEDA: CPU + мүнөздүү метриктер (p95 latency, RPS, кезек).
Warm Pools: Алдын-ала жылытылган окуялар алдында.
Step-scaling: эмес, cooldown менен баскычтар "кесип".
Реакция убактысы: алдыңкы катмар үчүн T_scale ≤ 1-2 мүнөт бутага алуу; үчүн - алдын ала.
Чектөө жана backpressure
Rate-limit по IP/ASN/device/route; өнөктөштөр үчүн квоталар.
TTL менен кезек, баш тартуу "сылык" (429/Grey Wol аркылуу) Таймауттарга караганда эртерээк.
Демпотенттүүлүк: төлөмдөр үчүн ачкычтар; retrailer менен budget + jitter.
Request collapsing/SWR: жарылуу учурунда origin ойготпойт.
Тез эсептөө мисалы
Берилген: API боюнча 35k RPS чокусунун болжолу, p95 ≤ 250 мс, орточо тейлөө убактысы 8 мс 60% CPU боюнча → μ ≈ 125 RPS/core, 8 ядро боюнча → ~ 1000 RPS/инстанция.
Кадам 1 (запасы жок): 35 бийлик.
2-кадам (headroom 30%): 35 × 1. 3 = 46.
3-кадам (бир АЗ баш тартуу, + 20%): 46 × 1. 2 ≈ 55.
Кадам 4 (тегеректөө + ысык камдык 10%): 61 бийлик.
Текшерүү: ρ ≈ 35k/( 61k) ≈ 0. 57 - жашыл зонада.
Каржы модели (FinOps)
$/1000 RPS катмарлары боюнча (edge, proxy, app, DB).
$/ms p95 (куйругун азайтуу наркы).
TCO сценарийлери: on-demand vs reserved vs spot (үзгүлтүккө учуроо коркунучу менен).
Кубаттуулук планы: чейректик эсеп/кластер лимиттери, булут квоталары, PSP/CDN лимиттери.
Ийгиликке даяр жана DR
Multi-AZ/аймак: ар бир ийин жүк 60% ≈.
Failover-план: withdraw Anycast, GSLB которуу, TTL ≤ 60-120 б.
Критикалык көз карандылыктар: PSP/банктардын лимиттери, экинчилик провайдер.
Мезгил-мезгили менен окутуу: PoP/BG/кэш өчүрүү менен оюн күнү.
Байкоо жана эрте каныктыруу сигналдары
Туруктуу кирүү менен p95/p99 жана кезектердин өсүшү.
күзүндө hit-ratio кэш, өсүш origin egress.
retransmits/ECN CE жогорулатуу, TLS resumption түшүп.
өсүү 429/timeout жана retry-rate.
DD үчүн - чыр-чатактын өсүшү, checkpoint time, WAL fsync.
Операциялык практикалар
Capacity review ай сайын: факт vs план.
Өзгөртүү Windows боюнча иш-чаралар: freeze ядро жана чектер.
Prewarm (CDN/DNS/TLS/пулдар) чокусуна чейин 10-30 мүнөт.
Лимиттерди чыгаруу: rate-limit/пулдарды Git менен бекитүү.
iGaming/Fintech үчүн өзгөчөлүктөрү
Турнирлер/матчтар: spike + plateau профилдери, боттор үчүн боз маршруттар, каттоо/депозиттердин өзүнчө лимиттери.
Төлөмдөр/PSP: провайдер/ыкма боюнча квоталар, fallback-маршруттар, egress-IP пулдар, SLA Time-to-Wallet.
Контент-провайдерлер: студиялар боюнча бөлүштүрүү, ысык кэштер, шард-пулдар.
Антифрод/AML: эрежелер/эсеби боюнча чектөө, чокусунда жарык эрежелерине чейин деградация.
Киргизүү чек-тизмеси
- чокулары болжолдоо (база/сезон/иш-чаралар), эки жагдайлар.
- SLO/туура эмес бюджет жана максаттуу headroom ≥ 30%.
- катмарлары боюнча (edge/proxy/app/cache/DB/IO/тармак).
- чектөө: rate-limit, кезек, idempotency, retry-budget.
- HPA/KEDA + warm pools; иш-чара алдында жайылтуу планы.
- Multi-AZ/аймак, failover-playbook, TTL жана GSLB.
- Clouds/PSP/CDN макулдашылган жана документтештирилген.
- Байкоо: dashbord capacity, эрте каныктыруу сигналдары.
- DR-машыгуу жана үзгүлтүксүз capacity-review.
Типтүү каталар
орто RPS куйруктары/жарылуулар жок планы.
ρ≈0. 9 "кагазда" - латенттүүлүк кичине ызы-чуу менен жарылат.
Тышкы кызматтардын лимиттерин Ignor (PSP/CDN/DD-кластер).
Эч кандай degrade режимдери жана backpressure - каскаддык фейл.
Pre-жылытуу жок Auto-масштабы - "кийин" чокусуна.
Бардык катмарлар үчүн бирдиктүү headroom - тар жер көчөт.
Mini Playbook
Чокусуна чейин (T-30 мин)
1. minReplicas/максаттуу HPA жогорулатуу, warm pool кирет.
2. CDN/DNS/TLS/коннекттерди жылытуу, кэштерди жылытуу.
3. Пулдун лимиттерин жана макулдашуу боюнча PSP квоталарын жогорулатуу.
4. Боз маршруттарды/бот-чыпкаларды күйгүзүү, оор эндпойнтторду тарытуу.
Аймактын жарым-жартылай жоготуу
1. GSLB → кошуна аймак, TTL 60-120 б.
2. Degrade режимин күйгүзүү (кэш/жөнөкөйлөштүрүлгөн чыгаруу).
3. PSP/egress-IP чектерин кайра бөлүштүрүү.
4. Байланыш статусу, p95/каталарды көзөмөлдөө.
Ретрациялардын көтөрүлүшү
1. retry-budget азайтуу, backoff + jitter кирет.
2. GET боюнча request-collapsing/SWR кирет.
3. Убактылуу "ызы-чуу" ASN үчүн rate-чектөөнү күчөтүү.
Жыйынтык
Кубаттуулукту пландаштыруу - бул суроо-талаптын болжолу + инженердик модель + коопсуздук запасы + операциялык рычагдар. SLO жана headroom формалдаштыруу, тышкы чектөөлөрдү эске алуу, масштабдоону жана деградацияны автоматташтыруу, "миллисекунд наркын" өлчөө жана үзгүлтүксүз capacity-review жүргүзүү. Ошондо жүктүн өсүшү тобокелчиликке эмес, бизнестин башкарылуучу метрикасына айланат.