Kaynak tahsisi
1) Görev ve ilkeler
Kaynak tahsisi, hedef SLO'lar ve FinOps kısıtlamaları için arz (CPU/RAM/IO/ağ, lisanslar, insanlar, bütçeler) ile talebi (yük, projeler, olaylar) eşleştirmenin sistematik bir yoludur.
Temel prensipler:- SLO-first: kaynağın kalite hedefi vardır; Seçim buna dayanacak bir araçtır.
- Adalet + Öncelik: Herkes için adil bir paylaşım, ancak garantiler bir önceliktir.
- İzolasyon: patlama yarıçaplı "obur" yükleri sınırlayın.
- Esneklik: Gerçek talep için otomatik genişleme/daralma.
- Maliyet farkındalığı: Her ek kaynağın SLO/gelir üzerinde anlaşılabilir bir etkisi olmalıdır.
- Kanıta dayalı: telemetri ve deneylerle doğrulanan çözümler.
2) Kaynak taksonomisi
Hesaplama: CPU/Bellek/GPU, konteyner havuzları, sunucusuz kotalar.
Depolama: IOPS/verim, sıcak/sıcak/soğuk katmanlar, önbellek.
Ağ: çıkış/giriş, CDN, özel kanallar, IP havuzları.
Veri: DWH/akış, dolgu pencerelerindeki yuvalar/pencere kaynakları.
Kişiler: Çağrı yuvaları, IC/Release, SRE/Dev süresi (saat/sprint).
Satıcılar: sağlayıcı limitleri (PSP/KYC/CDN), oran limitleri ve bağlantılar.
3) Önceliklendirme modeli (portföy)
Tier-0: hayati akış (giriş, ödemeler). Garantili kaynaklar, bireysel havuzlar.
Tier-1: iş açısından kritik (temel ürün, D-1 raporları). Tercih edilen kotalar.
Tier-2/3: yardımcı/araştırma. Patlayabilir, bütçe limitleri.
Projeler: Etki × Aciliyet × Güven × Maliyet değerlendirmesi - rütbe; SAV/portföyünde eşleştirme.
4) Tahsis politikaları (garantiler, kotalar, limitler)
Garantili (özel): sabit pay/rezerv; için .
Burstable: taban kontenjan + limite kadar borçlanma hakkı.
En iyi çaba: garanti yok, yerine konabilir.
Kota/Limit-as-Code: Tüm kotalar ve limitler bildirimsel olarak açıklanmıştır (politika deposu).
Preemption/Pod Disruption Budget: Kimin ve hangi hızda devrilebileceği.
Ağ kotaları: çıkış/kiracı, sağlayıcılara bağlantı sınırları.
5) Çok kiracılık ve izolasyon
Kiracı başına ad alanı/Hesap: bireysel limitler, bütçe, denetim.
Gürültülü komşular: cgroups/requests/limits/IO-throttling; "Ağır" görevler için ayrı düğümler.
P95-isolation: SLO, ortalamalara göre değil yüzdelere göre hesaplanır; Patlama p95 komşuları kırmamalıdır.
Veri kiracılık: VIP/bölgeler için ayrı depolama katmanları ve önbellekler.
6) Otomatik ölçeklendirme ve esneklik
HPA/VPA/Cluster-autoscaler: SLI/SLI proxy ile ölçeklendirme (gecikme p95, kuyruk derinliği), sadece CPU değil.
Zamanlanmış ölçekleme: En yoğun pencereler/etkinlikler için önceden.
Sıcak havuzlar: Hızlı scalapes için ısınmış düğümler/bağlantılar.
Ağ/CDN: RUM/Anycast/POP yükü ile otomatik yeniden dengeleme.
7) Kuyruklar, hizmet sınıfları ve SLA'lar
Sınıflar: Hedef bekleme süreleri ve hata bütçeleri ile 'altın/gümüş/bronz'.
Kuyruklar/otobüsler: önceliklendirme, Tier-0 için bireysel gruplar, DLQ.
Backpressure: Çekirdeği korumak için damla/şekil/yavaş disiplinler.
Uyarlanabilir zaman aşımları/geri yüklemeler: hizmet sınıfı ve geçerli durum için.
8) İnsan kaynakları
Vardiya ve kapsama: Trafik maç (takip-güneş), P1 + P2 zirvede iki katına.
SRE/Dev odağı: reaktif/proaktif başına zaman yüzdesi (örn. 50/50) KPI ile.
İstek kaynakları: Saatler/sprint için RFC şablonları, şeffaf öncelik kuyruğu.
9) Finansal Model (FinOps)
Birim ekonomisi: $/1k istekleri, $/başarılı ödeme, $/GiB günlükleri.
Bütçeler ve uyarılar: hesaplar/kiracılar için kotalar, aşırı harcama ile ilgili uyarılar.
Optimizasyon: Sıcak/sıcak/soğuk depolama, günlük örnekleme, kritik olmayan nokta havuzları.
Showback/Chargeback: Takım/kiracı tarafından maliyet raporları performansı motive eder.
10) Sağlayıcı yönetimi
Sınırlar ve pencereler: Sözleşme TPS ve PSP/KYC/CDN'deki kuyruklar; Takvimde zamanlanmış pencereler.
Yük devretme profilleri: Birden çok sağlayıcı arasında ağırlıklar ve yönlendirme.
Darbe metrikleri: tepki süresi, esneklik, maliyet/başarılı operasyon.
11) Dağıtım olgunluk metrikleri
Dereceye göre SLO Uyumu: Altın/gümüş/bronzda % uyumluluk.
Kaynak Verimliliği: CPU/RAM/IO kullanımı (medyan/p95), boşta paylaşım.
SLO noktası başına maliyet: SLO hedefini tutma maliyetindeki değişiklik.
Azaltma/Önleme oranı: ne sıklıkta ve kimleri yerinden ediyoruz.
Hotspot MTTA: Havuz/kiracı aşırı ısınma tepki süresi.
Adalet Endeksi: Kiracılar arasında gecikme/kota dağılımı (gini/varyasyon).
12) Kontrol listeleri
Dağıtımı değiştirmeden önce
- SLO hedefleri ve hizmet sınıfı tanımlanmıştır.
- Yüke göre telemetri vardır (p95/p99, büyüme, mevsimsellik).
- Kotalar/limitler Git'te açıklanır ve gözden geçirilir.
- Komşular üzerindeki etkiler (izolasyon testleri) test edildi.
- Geri alma planı ve korkuluklar hazır.
Haftalık ameliyathane
- Havuz bertaraf ısı haritası ve hotspot raporu.
- FinOps raporu: $/birim, aşımlar, anomaliler.
- Sağlayıcı sınırları ve SLA'lar karşılanır.
- Kuyruklar: sınıflar içinde gecikme, oruç yok.
- Çalışmada tanımlanan darboğazlar tarafından CAPA.
13) Şablonlar (fikirler)
13. 1 Kota Politikası (YAML)
yaml tenant: vip-eu class: gold compute:
cpu:
request: "8000m"
limit: "12000m"
memory:
request: "16Gi"
limit: "24Gi"
storage:
tier: hot iops_min: 8000 network:
egress_mbps_cap: 500 slo:
latency_p95_ms: 250 preemption:
protected: true burst:
allowed: true max_factor: 1.5
13. 2 Otomatik yakınlaştırma profili (parça)
yaml autoscaling:
metric: "queue_depth" # или biz_sli.payment_latency_p95 target: 200 min_replicas: 6 max_replicas: 60 warm_pool: 4 cooldown_sec: 120
13. 3 Hizmet sınıfı ve kuyruklar
yaml class: gold sla:
wait_p95_ms: 150 queue:
partition: "gold-eu"
retry_policy:
attempts: 2 backoff_ms: 200 backpressure: "shape" # иначе drop/slow
13. 4 Kaynak talebi (Kişiler)
RFC: RES-OPS-2025-11
Цель: усилить on-call P2 на пике ноябрьских промо (EU)
Период: 2025-11-25..2025-12-05
Обоснование: прогноз трафика +30%, прошлогодний p95 MTTA ↑
Запрос: +1 P2 слот/сутки, +IC в prime-time
14) Prosedürler ve otomasyon
Planner bot: Trafik tarihinden ve SLO hedeflerinden kotaların hesaplanması, politika deposuna PR.
Korkuluklar-bot: kota/aşırı abonelik yetersiz olduğunda deplors için sinyal durdurmak.
Comms bot: aşırı harcama/ön ödeme/sınıf değişikliği hakkında ekiplerin bildirimleri.
Ek açıklamalar: bakım bültenleri/pencereler, çalışma süresi boyunca ağırlıkları/kotaları değiştirir (daha sonra bastırmanın kaldırılması).
15) Anti-desenler
SLO ve telemetri olmadan "sansasyona göre" vurgulayın.
İzolasyon olmadan herkes için büyük bir havuz "gürültülü komşular".
Bir üst sınır olmadan kontrolsüz patlama - "boğmak" komşuları.
Geri dönüş eksikliği/kuyruklar - zaman aşımı kartopu.
Günlüklerin/çıkışın maliyetini göz ardı edin - "sessiz" bütçe sızıntısı.
Mevsimsellik/zirve olmadan sabit kotalar - kullanılamama veya aşırı harcama.
16) Uygulama Yol Haritası (4-8 hafta)
1. Ned. 1-2: kaynak ve hizmetlerin envanteri; Sınıf atama (altın/gümüş/bronz) birincil kotalar; Temel SLO'lar.
2. Ned. 3-4: SLI proxy tarafından otomatik ölçeklemeyi etkinleştir; Kuyrukları ve geri basınç ayarlarını yapılandır Tier-0 havuzlarını ayır.
3. Ned. 5-6: FinOps raporlama ($/birim, kotalar, bütçe uyarıları); Sıcak havuzlar ve yoğun günler için boyalı skales.
4. Ned. 7-8: Planlayıcı/Korkuluk otomasyonu, kiracı dolabı (kota/değer görünürlüğü), üç aylık inceleme adaleti ve sıcak noktalar.
17) Alt satır
Kaynak tahsisi tek seferlik bir kurulum değil, SLO, telemetri ve FinOps'ta yerleşik canlı bir süreçtir. Öncelikler resmileştirildiğinde, kotalar ve sınırlar - kod, izolasyon ve elastikiyet gibi - varsayılan olarak ve kararlar metrikler ve maliyetlerle onaylandığında, sistem sürekli olarak zirvelerden kurtulur, kritik akışı korur ve bütçeyi "yakmaz".