Ресурстарды бөлүштүрүү
1) Милдет жана принциптер
Ресурстарды бөлүштүрүү - бул максаттуу SLO жана FinOps чектөөлөрүнө суроо-талапты (жүк, долбоорлор, инциденттер) сунуш менен (CPU/RAM/IO/тармак, лицензиялар, адамдар, бюджеттер) салыштыруунун системалуу жолу.
Негизги принциптери:- SLO-биринчи: ресурстук сапат максаты бар; тандоо - ага туруштук берүү куралы.
- Fairness + артыкчылык: баары үчүн адилеттүү үлүшү, бирок артыкчылыктуу - кепилдиктер.
- Isolation: blast-radius "жегич" жүктөрдү чектөө.
- Elasticity: автоматтык кеңейтүү/кысуу үчүн реалдуу суроо-талап.
- Cost-aware: ар бир кошумча ресурс SLO/киреше боюнча түшүнүктүү таасири болушу керек.
- Evidence-based: чечимдер телеметрия жана эксперименттер менен тастыкталган.
2) Ресурстардын таксономиясы
Эсептөө: CPU/Memory/GPU, контейнердик бассейндер, чексиз квоталар.
Сактоо: IOPS/өткөрүү, ысык/жылуу/муздак катмарлары, кэш.
Тармак: egress/ingress, CDN, жеке каналдар, IP бассейндер.
Маалыматтар: DWH/Streaming Slots/терезе ресурстары, арткы терезелер.
Адамдар: On-call Slots, IC/бошотуу, убакыт SRE/Dev (саат/спринт).
Сатуучулар: провайдерлердин лимиттери (PSP/KYC/CDN), rate-limits жана коннектилер.
3) Артыкчылыктуу модель (портфель)
Tier-0: маанилүү flow (логин, төлөмдөр). Кепилденген ресурстар, жеке бассейндер.
Tier-1: бизнес-критикалык (KOR-продукт, D-1 отчеттор). Артыкчылыктуу квоталар.
Tier-2/3: көмөкчү/изилдөө. Burstable, бюджеттик лимиттер.
Долбоорлор: Impact × Urgency × Confidence × Cost → даражасы; САВ/портфелде макулдашуу.
4) Бөлүштүрүү саясаты (кепилдиктер, квоталар, лимиттер)
Guaranteed (dedicated): fix-үлүшү/камдык; үчүн Tier-0/1.
Бурстабле: базалык квота + лимитке чейин эркин ээлөө укугу.
Best-effort: эч кандай кепилдик, алмаштырылышы мүмкүн.
Quota/Limit-as-Code: Бардык квоталар жана чектер декларативдүү сүрөттөлөт (саясатчынын репозиторийи).
Preemption/Pod Disruption Budget: кимди жана кандай ылдамдыкта сүрүп чыгарууга болот.
Тармак квоталары: egress/tenant, провайдерлерге байланыштын лимиттери.
5) Көп багыттуу жана изоляция
Namespace/Account per tenant: өзүнчө лимиттер, бюджет, аудит.
Ызы-чуу кошуналар: cgroups/requests/limits/IO-throttling; "оор" тапшырмалар үчүн өзүнчө ноддор.
P95-обочолонуу: SLO орточо эмес, перцентил боюнча эсептелет; burst p95 кошуна сындырып жок.
Data tenancy: VIP/региондор үчүн өзүнчө пул сактоо катмарлары жана кэш.
6) Auto-масштабдоо жана ийкемдүүлүк
HPA/VPA/Cluster-autoscaler: бир гана CPU эмес, SLI/SLI-прокси (latency p95, queue depth) масштабдуу.
Scheduled scaling: жогорку терезелер/окуялар үчүн алдын ала.
Warm Pools: жылытылган түйүндөр/тез Skylaps үчүн байланыштар.
Network/CDN: RUM/Anycast/POP-жүктөө боюнча автоматтык калыбына келтирүү.
7) кезек, кызмат класстары жана SLA
Класстар: максаттуу күтүү убактысы жана жаңылыштык бюджети менен 'gold/silver/bronze'.
Кезектер/шиналар: артыкчылыктуу, Tier-0 үчүн өзүнчө партиялар, DLQ.
Backpressure: сабактар ядросун коргоо үчүн drop/shape/slow.
Адаптивдик таймауттар/ретрациялар: кызматтын классына жана учурдагы абалына ылайык.
8) Адам ресурстары
Алмаштыруу жана каптоо: жол менен шайкештиги (күн), чокусунда P1 + P2 эки.
SRE/Dev Focus: KPI менен реактивге/проактивге (мисалы, 50/50) убакыт пайызы.
Ресурстарды суроо: саат/спринт үчүн RFC үлгүлөрү, ачык артыкчылыктуу кезек.
9) Каржы модели (FinOps)
Unit-экономика: $/1k суроо, $/ийгиликтүү төлөм, $/GiB Логин.
Бюджеттер жана алерталар: эсептер/тенанттар боюнча квоталар, ашыкча чыгым жөнүндө эскертүүлөр.
оптималдаштыруу: ысык/жылуу/муздак сактоо, log-sampling, non-critical үчүн spot пулдар.
Showback/Chargeback: командалар/тенанттар боюнча чыгымдардын отчеттору натыйжалуулукка түрткү берет.
10) Провайдерлерди башкаруу
Чектөөлөр жана терезелер: контракттык TPS жана кезек PSP/KYC/CDN; календарда пландаштырылган терезелер.
Failover-Profils: салмагы жана бир нече провайдерлердин ортосундагы багыттоо.
Пульс-метрика: жооп убактысы, бузулууга туруктуулук, наркы/ийгиликтүү операция.
11) Жетилүү бөлүштүрүү Метрика
SLO Adherence класстары боюнча:% gold/silver/bronze сактоо.
Resource Efficiency: кайра иштетүү CPU/RAM/IO (median/p95), idle үлүшү.
Cost per SLO-пункту: SLO максаттуу сактоо үчүн чыгымдарды өзгөртүү.
Throttling/Preemption rate: канчалык көп жана ким алмаштырылат.
Hotspot MTTA: Pule/Тенант ысып жооп убакыт.
Fairness Index: Тенанттардын ортосундагы кечигүүлөр/квоталар (джини/вариация).
12) Чек-баракчалар
Бөлүштүрүүнү өзгөртүүгө чейин
- SLO максаттары жана кызмат класс аныкталган.
- жүк боюнча телеметрия бар (p95/p99, өсүү, сезондук).
- Квоталар/лимиттер Git баяндалган жана ревю өткөн.
- Кошуналардын таасирлери сыналган (изоляциялоочу тесттер).
- План кайтаруу жана guardrails даяр.
Жумалык операциялык
- Heatmap бассейндерди кайра иштетүү жана hotspot отчет.
- FinOps отчет: $/бирдик, ашыкча, аномалиялар.
- Провайдердик лимиттер жана SLA аткарылды.
- кезек: класстардын ичинде кечигүү, эч кандай ачкачылык.
- CAPA жумушта аныкталган тар.
13) Шаблондор (идеялар)
13. 1 Квота саясаты (YAML)
yaml tenant: vip-eu class: gold compute:
cpu:
request: "8000m"
limit: "12000m"
memory:
request: "16Gi"
limit: "24Gi"
storage:
tier: hot iops_min: 8000 network:
egress_mbps_cap: 500 slo:
latency_p95_ms: 250 preemption:
protected: true burst:
allowed: true max_factor: 1.5
13. 2 Auto масштабдоо кароо (үзүндү)
yaml autoscaling:
metric: "queue_depth" # или biz_sli.payment_latency_p95 target: 200 min_replicas: 6 max_replicas: 60 warm_pool: 4 cooldown_sec: 120
13. 3 Класс кызматы жана кезек
yaml class: gold sla:
wait_p95_ms: 150 queue:
partition: "gold-eu"
retry_policy:
attempts: 2 backoff_ms: 200 backpressure: "shape" # иначе drop/slow
13. 4 Ресурстук өтүнмө (адамдар)
RFC: RES-OPS-2025-11
Цель: усилить on-call P2 на пике ноябрьских промо (EU)
Период: 2025-11-25..2025-12-05
Обоснование: прогноз трафика +30%, прошлогодний p95 MTTA ↑
Запрос: +1 P2 слот/сутки, +IC в prime-time
14) Жол-жоболор жана автоматташтыруу
Planner-бот: жол кыймылынын тарыхынан жана SLO максаттарынан квоталарды эсептөө, саясатчынын репозиторийиндеги PR.
Guardrails-бот: квота жетишсиздиги/oversubscription менен деплойлорду токтотуу сигналы.
Коммс-бот: командаларга класстын ашыкча чыгымдалышы/алмаштырылышы/өзгөрүшү жөнүндө билдирүүлөр.
Аннотациялар: релиздер/тейлөө терезелери жумуш убактысында салмакты/квоталарды өзгөртөт (кийин suppression алып салуу).
15) Анти-үлгүлөрү
SLO жана телеметрия жок, "сезим боюнча" бөлүп.
"ызы-кошуна" обочолонгон жок бардык үчүн бир чоң бассейн.
жогорку чеги жок көзөмөлсүз burst → "муунтуп" кошуналары.
Backpressure/кезек жок → Snow Cam Таймаут.
Каттоо/egress наркын четке кагуу - "тынч" бюджеттин агып чыгышы.
Белгиленген квоталар сезондук/чокусуз → жеткиликсиздик же ашыкча керектөө.
16) Жол картасы киргизүү (4-8 жума)
1. Нед. 1-2: ресурстарды жана кызматтарды инвентаризациялоо; класстардын максаты (gold/silver/bronze); баштапкы квоталар; негизги SLO.
2. Нед. 3-4: SLI-прокси боюнча авто-масштабдоону күйгүзүү; кезектерди жана backpressure орнотуу; Tier-0 бассейндерди изоляциялоо.
3. Нед. 5-6: FinOps отчеттуулук ($/бирдик, квота, бюджеттин алерттери); warm-pools жана жогорку күндөрдө боёлгон скейлер.
4. Нед. 7-8: Planner/Guardrails автоматташтыруу, Тенант кабинети (квота/нарк көрүнүшү), чейректик review fairness & hotspots.
17) Жыйынтык
Ресурстарды бөлүштүрүү - бул бир жолку жөндөө эмес, SLO, телеметрия жана FinOps орнотулган жандуу процесс. Артыкчылыктар формалдаштырылганда, квоталар жана лимиттер - код, изоляция жана ийкемдүүлүк сыяктуу - демейки боюнча, ал эми чечимдер метрика жана нарк менен тастыкталганда, система тынымсыз туу чокуларын башынан өткөрөт, критикалык флоуну коргойт жана бюджетти "күйгүзбөйт".