क्षमता नियोजन और लोड वृद्धि
संक्षिप्त सारांश
शक्ति अपेक्षित लोड वृद्धि और विफलताओं के लिए लक्ष्य एसएलओ का सामना करने की क्षमता है। आधार:1. मांग पूर्वानुमान (आधारभूत प्रवृत्ति + मौसमी + घटनाएं)।
2. लोड मॉडल (इंटरनेट के लिए खुला मॉडल)।
3. हेडरूम और गलत बजट।
4. स्केलिंग (क्षितिज/ऊर्ध्वाधर/ऑटो) + लिमिटर (दर-सीमा/बैकप्रेशर)।
5. वित्त: $/1000 आरपीएस, $/ms p95, परिदृश्य द्वारा टीसीओ।
शर्तें और मेट्रिक्स
थ्रूपुट: आरपीएस/क्यूपीएस/सीपीएस - वास्तविक थ्रूपुट।
लेटेंसी p95/p99: उपयोगकर्ता पथ के लिए SLO को लक्षित करें।
संतृप्ति: सीपीयू/मेमोरी/आईओ/एफडी/कनेक्शन/कतार लोडिंग।
त्रुटि दर: 5xx/timeout/429, अवधि के लिए गलत बजट।
हेडरूम: चरम यातायात पर मुफ्त बिजली की हिस्सेदारी (अनुशंसित ≥ 30%)।
फट: अल्पकालिक स्पाइक (सेकंड/मिनट), स्पाइक: तेज वृद्धि × एन।
बुनियादी मॉडल और सूत्र
लिटिल लॉ (कतारबद्ध सिस्टम के लिए)
L = λ W
L सिस्टम में अनुरोधों की औसत संख्या है, ć औसत प्रवेश दर (RPS) है, सिस्टम में W औसत समय है। कतार गहराई का अनुमान लगाने के लिए उपयोगी।
लोड फैक्टर (ć)
ρ = λ / μ
· - सेवा गति (100% सीपीयू पर आरपीएस)। जब ρ→1, विलंबता गैर-रैखिक बढ़ जाती है - कार्य बिंदु ≤ 0 रखें। 6–0. 75.
सुरक्षा कारक/हाशिया
Capacity_required = Peak_load (1 + Headroom) Degradation_factor
जहां N विफलता, कैश गिरावट, एक PoP/क्षेत्र का नुकसान (जैसे, 1) के लिए खाता है। 2).
मांग पूर्वानुमान
1. इतिहास: दिन/सप्ताह प्रोफाइल, मौसमी, घटनाओं के साथ सहसंबंध (मैच/धाराएं/भुगतान)।
2. घटनाएँ: परिदृश्य गुणांक (नियमित दिन × 1, टूर्नामेंट × 2। 3, अंतिम × 3। 5).
3. उतार-चढ़ाव के स्रोत: विपणन अभियान, रिलीज, बॉट विसंगतियाँ।
4. पूर्वानुमान इकाइयाँ: मार्गों (लॉगिन, लॉबी, कैटलॉग, भुगतान), सीपीएस टीएलएस, क्यूपीएस डीबी, आईओपीएस डिस्क, एग्रेस जीबीपीएस द्वारा आरपीएस।
5. विश्वास: दो परिदृश्य रखें - रूढ़िवादी और आक्रामक।
सिमुलेशन लोड करें
ओपन-मॉडल (पॉइसन जैसा आगमन): सार्वजनिक एपीआई/वेब के लिए प्रशंसनीय - आकार के लिए उपयोग करें।
बंद-मॉडल (VU + थिंक-टाइम): आंतरिक अनुक्रमों के लिए उपयुक्त; संयोजन करें।
रूट मिश्रण: प्रति एंडपॉइंट वजन अंश; न केवल "गर्म", बल्कि "महंगा" (पंजीकरण, जमा) भी शामिल करें।
मत भूलो: रेट्रास, कतारें, पार्टनर लिमिट (पीएसपी, थर्ड-पार्टी एपीआई)।
सुरक्षा मार्जिन डिजाइन
हेडरूम लक्ष्य: शिखर पर ≥ 30% (इंटरनेट के लिए); भुगतान कोर और महत्वपूर्ण रास्तों के लिए - 40-50%।
N + 1/N + 2: SLO का उल्लंघन किए बिना 1-2 उदाहरणों/क्षेत्रों की विफलता का सामना करना।
बहु-क्षेत्र: प्रत्येक क्षेत्र कुल शिखर का ≥ 60% (पड़ोसी के नुकसान से बचने के लिए) खींचता है।
डिग्रेड मोड: द्वितीयक फ़ंक्शन अक्षम करें, पेलोड कम करें, कैश/छुरा प्रतिक्रियाओं को सक्षम करें।
परत द्वारा साइज़िंग
नेटवर्क/किनारा
सामने की ओर CPS/RPS, TLS-हैंडशेक p95, resumption≥70%, egress Gbps।
Anycast/Geo-routing, CDN/WAF सीमा (अग्रिम में सहमत)।
मार्जिन: लिंक/एप्लिंक ≥ पीक × 1। 3, H3 के लिए मार्जिन के साथ SYN बैकलॉग।
बैलेंसर/प्रॉक्सी
उदाहरण के लिए आरपीएस, खुले कनेक्शन, कतारें, सीपीयू/आईआरक्यू।
कीपलाइव और कनेक्शन पूलिंग - बैकेंड से कनेक्शन कम करें।
स्टॉक: 0। 7, सीमित - सीपीएस/आरपीएस प्रति मार्ग।
अनुप्रयोग
पठार में प्रति कोर (आरपीएस/कोर) लक्ष्य प्रदर्शन।
पूल (थ्रेड/डीबी/एचटीटीपी) - सीमा में न चलें।
स्टॉक: CPU 60-70% और विलंबता-ट्रिगर (p95) तक ऑटोस्केल।
कैश
हिट-अनुपात, हॉटसेट वॉल्यूम, निष्कासन, प्रतिकृति।
रिजर्व: मेमोरी ≥ 1। 2 × हॉटसेट, नेटवर्क हेडरूम ≥ 30%।
डाटाबेस
QPS/TPM, p95 अनुरोध, ताले, बफर कैश, WAL/प्रतिकृति अंतराल।
IOPS और विलंबता ड्राइव p95 की कुंजी हैं।
मार्जिन: सीपीयू ऑपरेटिंग पॉइंट 50-65%, प्रतिकृति अंतराल <लक्ष्य; चार्डिंग प्लान और रीड-प्रतिकृतियां।
डिस्क/भंडारण
IOPS (4k/64k), थ्रूपुट, fsync लागत।
स्टॉक: IOPS ≥ चोटी × 1। 5, लक्ष्य खिड़की में विलंबता p95; लॉग/डेटा के लिए अलग पूल।
GPU/ML (यदि ऑनलाइन अनुमान है)
नमूने/एस, विलंबता, वीआरएएम हेडरूम, बैचिंग।
मार्जिन: "आरी" लोड, वार्म-पूल जीपीयू के तहत बैच पैरामीटर।
स्वतः स्केलिंग
HPA/KEDA: CPU मेट्रिक्स + कस्टम (p95 विलंबता, RPS, कतार)।
गर्म पूल: घटनाओं से पहले गर्म उदाहरण।
स्टेप-स्केलिंग: कूलडाउन के साथ कदम ताकि "देखा" न जाए।
प्रतिक्रिया समय: सामने की परत के लिए 1-2 मिनट का लक्ष्य; डीबी के लिए - अग्रिम में।
लिमिटर और बैकप्रेशर
दर-सीमा по आईपी/एएसएन/डिवाइस/रूट; साथी कोटा।
टीटीएल के साथ कतारें, टाइमआउट से पहले "विनम्र" (429/ग्रे-वॉल्यूम के माध्यम से)।
पहचान: भुगतान के लिए कुंजी; बजट + जिटर के साथ रिट्रीट।
अनुरोध ढहने/SWR: छप के दौरान मूल मत जगाओ।
त्वरित गणना का उदाहरण
दिया गया: 35k RPS API शिखर पूर्वानुमान, p95 250 ms, औसत सेवा समय 8 ms प्रति उदाहरण 60% CPU RPS/कोर, 8 कोर प्रति उदाहरण ~ 1000 RPS/उदाहरण।
चरण 1 (कोई स्टॉक नहीं): 35 उदाहरण।
चरण 2 (हेडरूम 30%): 35 × 1। 3 = 46.
चरण 3 (एक AZ की विफलता, + 20%): 46 × 1। 2 ≈ 55.
चरण 4 (राउंडिंग + हॉट रिजर्व 10%): 61 उदाहरण।
जाँच करें: 35k/( 61k) 0। 57 - हरे क्षेत्र में।
वित्तीय मॉडल (FinOps)
परत (किनारे, प्रॉक्सी, ऐप, डीबी) द्वारा $/1000 आरपीएस।
$/ms p95 (पूंछ में कमी लागत)।
TCO परिदृश्य: ऑन-डिमांड बनाम आरक्षित बनाम स्पॉट (रुकावट के जोखिम के साथ)।
क्षमता योजना: तिमाही खाता/क्लस्टर सीमा, क्लाउड कोटा, पीएसपी/सीडीएन सीमाएं।
असफलताओं के लिए तैयार और डीआर
मल्टी-एज ़/क्षेत्र: प्रत्येक हाथ ≈ 60% भार।
विफल योजना: Anycast, GSLB स्विचिंग, TTL ≤ 60-120 s को वापस लें।
महत्वपूर्ण निर्भरता: पीएसपी/बैंक सीमा, माध्यमिक प्रदाता।
आवधिक अभ्यास: PoP/BG/कैश ऑफ के साथ खेल दिवस।
अवलोकन और प्रारंभिक संतृप्ति संकेत
p95/p99 की वृद्धि और स्थिर इनपुट के साथ कतारें।
हिट-अनुपात कैश ड्रॉप, मूल वृद्धि।
रिट्रांसमिट्स/ईसीएन सीई में वृद्धि, टीएलएस फिर से शुरू होना।
ग्रोथ 429/टाइमआउट और रीट्री-रेट।
डेटाबेस के लिए - संघर्ष विकास, चेकपॉइंट समय, WAL fsync।
ऑपरेशनल प्रैक्टिस
क्षमता समीक्षा मासिक: तथ्य बनाम योजना।
घटनाओं के लिए विंडो बदलें: गुठली और सीमाएँ फ्रीज करें।
शिखर से पहले प्रीवार्म (CDN/DNS/TLS/पूल) 10-30 मिनट।
वर्शनिंग सीमित करें: Git में दर-सीमा/पूल कॉन्फ़िग को ठीक करें।
iGaming/fintech विशिष्ट
टूर्नामेंट/मैच: स्पाइक + पठार प्रोफाइल, बॉट्स के लिए ग्रे मार्ग, अलग पंजीकरण/जमा सीमा।
भुगतान/पीएसपी: प्रदाता/विधि कोटा, फॉलबैक मार्ग, एग्रेस-आईपी पूल, एसएलए टाइम-टू-वॉलेट।
सामग्री प्रदाता: स्टूडियो, हॉट कैश, शार्ड पूल द्वारा वितरण।
Antifraud/AML: नियमों/स्कोरिंग पर सीमा, चरम पर प्रकाश नियमों के लिए गिरावट।
कार्यान्वयन जाँच सूची
- पीक पूर्वानुमान (आधार/मौसम/घटनाएं), दो परिदृश्य।
- SLO/गलत बजट और लक्ष्य हेडरूम ≥ 30%।
- परत द्वारा आकार (किनारा/प्रॉक्सी/ऐप/कैश/डीबी/आईओ/नेटवर्क)।
- दर-सीमा, कतार, पहचान, पुन: बजट।
- एचपीए/केईडीए + गर्म पूल; घटना से पहले पदोन्नति योजना।
- मल्टी-एजेड/क्षेत्र, फेलओवर प्लेबुक, टीटीएल और जीएसएलबी।
- क्लाउड/पीएसपी/सीडीएन कोटा सुसंगत और प्रलेखित हैं।
- अवलोकन: क्षमता डैशबोर्ड, प्रारंभिक संतृप्ति संकेत।
- डीआर अभ्यास और नियमित क्षमता-समीक्षा।
सामान्य त्रुटियाँ
सिलाई/स्पाइक्स के बिना औसत आरपीएस के लिए योजना।
ρ≈0. 9 "कागज पर" - विलंबता थोड़ा शोर पर विस्फोट करती है।
बाहरी सेवा सीमा की अनदेखी (PSP/CDN/DB क्लस्टर)।
कोई अपमानजनक मोड नहीं हैं और बैकप्रेशर कैस्केडिंग विफल हैं।
प्रीहीटिंग के बिना ऑटो-स्केल - "चोटी के बाद" प्रबंधन करता है।
सभी परतों के लिए एकल हेडरूम - अड़ चन माइग्रेट करता है।
मिनी प्लेबुक
पीक इवेंट से पहले (T-30 मिनट)
1. minReplicas/लक्ष्य HPA बढ़ाएं, गर्म पूल सक्षम करें।
2. CDN/DNS/TLS/कनेक्शन, वार्म अप कैश।
3. सहमति के अनुसार पीएसपी पूल की सीमा और कोटा बढ़ाएं।
4. ग्रे रूट/बॉट फिल्टर, संकीर्ण भारी एंडपॉइंट चालू करें।
क्षेत्र का आंशिक नुकसान
1. जीएसएलबी → पड़ोसी क्षेत्र, टीटीएल 60-120 एस।
2. डिग्रेड मोड सक्षम करें (कैश/सरलीकृत चेकआउट)।
3. पुनर्वितरण PSP/egress-IP सीमा।
4. स्थिति संचार, p95/त्रुटि नियंत्रण।
पीछे हटने में वृद्धि
1. रीट्री-बजट कम करें, बैकऑफ + जिटर सक्षम करें।
2. GET पर अनुरोध-समापन/SWR सक्षम करें।
3. अस्थायी रूप से "शोर" ASN के लिए दर-सीमा को कड़ा करें।
परिणाम
क्षमता नियोजन मांग पूर्वानुमान + इंजीनियरिंग मॉडल + सुरक्षा मार्जिन + परिचालन ली एसएलओ और हेडरूम को औपचारिक रूप देना, बाहरी सीमाओं पर विचार करना, स्वचालित स्केलिंग और गिरावट, "प्रति मिलीसेकंड लागत" को मापना और नियमित क्षमता-समीक्षा करना। फिर लोड में वृद्धि जोखिम में नहीं, बल्कि एक प्रबंधनीय व्यवसाय मीट्रिक में बदल जाएगी।