क्षमता योजना
1) क्षमता नियोजन क्या है और इसकी आवश्यकता क्यों है
क्षमता नियोजन न्यूनतम लागत पर लक्ष्य एसएलओ प्राप्त करने के लिए आवश्यक संसाधनों के मूल्यांकन और सुरक्षा की व्यवस्थित प्रक्रिया है। हम न केवल सीपीयू/मेमोरी के बारे में बात कर रहे हैं, बल्कि नेटवर्क बैंडविड्थ, स्टोरेज, डेटाबेस/कैश, कतारें/इवेंट बस, बाहरी प्रदाताओं (भुगतान/सीसीएम/एंटी-फ्रॉड) के साथ-साथ मानव संसाधन (ऑन-कॉल, समर्य) के बारे) के बारे।
उद्देश्य:- SLO/SLA यहां तक कि चोटियों और गिरावट में भी करें।
- TCO और पूंजी ओवरप्रोविजन को कम करें।
- संसाधनों से बाहर निकलने से घटनाओं के जोखिम को कम करना (संतृप्ति → p99/त्रुटि)।
- रिलीज और अभियानों (विपणन, टूर्नामेंट, शीर्ष मैच) की भविष्यवाणी सुनिश्चित करें।
2) सत्य के इनपुट और स्रोत
अवलोकन: RPS/concatenation, p50/p95/p99, त्रुटि-दर, संतृप्ति (CPU, mem, Disk IOPS, नेटवर्क pps/mbps), कतार लंबाई, दर।
व्यावसायिक कार्यक्रम: अभियान कैलेंडर, मौसमी (शाम/सप्ताहांत/मेगा-इवेंट्स), क्षेत्र/न्यायालय।
तकनीकी ऋण/विशेषताएं: रिलीज़ का रोडमैप, वास्तुशिल्प परिवर्तन (उदाहरण के लिए, एन्क्रिप्शन, नया लॉगिंग)।
प्रदाता: भुगतान/सीयूएस/मेल/धोखाधड़ीविरोधी सेवाओं का कोटा और थ्रूपुट।
अतीत की घटनाएं: अड़ चन कहां है (डेटाबेस, कैश, एल 7 बैलेंसर, बस, सीडीएन, डिस्क)।
3) बुनियादी अवधारणाएं और सूत्र
हेडरूम - क्षमता मार्जिन: 'हेडरूम = (max _ Stable _ RPS) वास्तविक _ RPS )/max _ stable _ RPS'।
20-40% शिखर पर लक्ष्य (महत्वपूर्ण धाराओं के लिए)।
संतृप्ति - उपलब्ध संसाधन का अनुपात (सीपीयू%, मेमोरी/जीसी, कनेक्शन, फ़ाइल विवरणकर्ता, आईओपीएस, कतार गहराई)।
थ्रूपुट स्थिर - जिस गति पर p99 और त्रुटि-दर लंबे समय तक SLO प्रदर्शन करते हैं (एक बार फटने वाला नहीं)।
क्षमता इकाई (सीयू) - सेवा के लिए बिजली की सामान्यीकृत इकाई (उदाहरण के लिए, एक्स आरपीएस प्रति पॉड वीसीपीयू = 1, रैम = 2 जीआईबी)।
सिस्टम की सीमा अधिकतम गिरावट के बिना है: 'N _ pods × CU'। साझा निर्भरता (डीबी/कैश/बस) को ध्यान में रखना महत्वपूर्ण है।
4) डिमांड मॉडल: पूर्वानुमान
सांख्यिकीय श्रृंखला: साप्ताहिक/दैनिक मौसमी, छुट्टियां, खेल फाइनल, क्षेत्रीय चोटियाँ
Cohorts: देश, भुगतान प्रदाताओं, उपकरणों, वीआईपी खंडों द्वारा।
घटना डेल्टास: अभियान/पोचेस/रिलीज/एसईओ का प्रभाव।
"क्या होगा अगर" (परिदृश्य योजना): + 50% 19: 00-22: 00 पर यातायात के लिए; B के लिए प्रदाता A → पुनर्वितरण की बूंद (विलंबता के लिए + 30%)।
वास्तविक समय समायोजन: अब लीड मेट्रिक्स (सत्रों का पुनरोद्धार, एक मैच के लिए कतार, बास्केट) द्वारा।
5) आपूर्ति मॉडल: जहां श्रृंखला "टूटती है"
पूछताछ कन्वेयर: एज/सीडीएन → एल 7 बैलेंसर → एप्लिकेशन → कैश → डीबी → बाहरी एपीआई → टर्न/टायर → हैंडलर/ईटीएल।
प्रत्येक लिंक के लिए हम तय करते हैं:- क्षमता (सीयू/उदाहरण), स्केलेबिलिटी (क्षितिज/शीर्ष), सीमा (कनेक्शन, पीपीएस, आईओपीएस), देरी।
- विफलता नीतियां (दर सीमा, सर्किट ब्रेकर, गिरावट)।
- SLO स्थानीय हैं और e2e-SLO में उनका योगदान है।
6) त्रुटि मार्जिन और बजट
हम त्रुटि बजट के लिए हेडरूम को बांधते हैं: कम बजट - अधिक स्टॉक।
महत्वपूर्ण प्रवाह (भुगतान/सत्यापन) के लिए - ऊपर हेडरूम, द्वितीयक प्रवाह के लिए - नीचे।
ठंडे/गर्म भंडार: चरम पर सक्रिय/दुर्घटना।
7) स्केलिंग: रणनीति
एचपीए (लोड मैट्रिक्स द्वारा): आरपीएस, विलंबता, कतार की लंबाई, उपयोगकर्ता एसएलआई (सीपीयू% से बेहतर)।
VPA: पोडम संसाधनों का सुधार (स्टेटफुल और p99 GC के साथ सावधान)।
KEDA/एडाप्टर: बाहरी स्रोतों द्वारा स्केलिंग (काफ्का लैग, रेडिस सूची लंबाई, CloudQueue गहराई)।
गर्म पूल/वार्मिंग: ठंड से बचने के लिए पूर्व-उठाए गए उदाहरण।
"लोड-ए-कोड" दृष्टिकोण: ऑटोस्केल/लिमिट/टाइमआउट/रिट्रे नीतियों की समीक्षा और समीक्षा की जाती है।
8) कतारें, बैकप्रेशर और पूंछ नियंत्रण
लक्ष्य p99 के हिमस्खलन जैसी वृद्धि को रोकना है।
हम समवर्ती और कतार के आकार को सीमित करते हैं, समय खिड़कियां और पहचान दर्ज करते हैं।
हेजिंग/रीट्री-बजट: उपयोगकर्ता और सिस्टम के कुल समय बजट को सीमित करें।
सुंदर गिरावट: ओवरलोडिंग करते समय द्वितीयक विशेषताओं को अक्षम करना।
9) डीबी, कैश और स्टोरेज
DB: कनेक्शन सीमा, लॉगिंग/FSync, इंडेक्स, क्वेरी प्लान, प्रतिकृति लैग, हॉट-कीज ़/टेबल, लेनदेन के लिए अधिकतम TPS।
केशी: खंड द्वारा हिट-अनुपात, "विकलांगता का तूफान" रिलीज/विकलांगता, प्रमुख वितरण के दौरान।
भंडारण: IOPS/थ्रूपुट, देरी, संपीड़न, TTL, पुराने बैचों/स्नैपशॉट की सफाई।
प्रवासन योजना: expand→migrate→contract बिना स्टॉप लॉक के।
10) घटना प्रवाह और ईटीएल
काफ्का/बस: पार्टी थ्रूपुट, लैग, आईएसआर, कॉम्पैक्ट, निर्माता/उपभोक्ता सीमा।
ईटीएल/बैच: विंडो शुरू करें, रनटाइम बजट, थ्रॉटल I/O
महत्वपूर्ण प्रवाह (भुगतान/संतुलन) के लिए पहचान और बिल्कुल एक बार की तरह।
11) नेटवर्क और परिधि
L4/L7 संतुलन: कनेक्शन सीमा, सिन बैकलॉग, टीएलएस ऑफलोड, सत्र पुन: उपयोग।
सीडीएन/एज: बैंडविड्थ, मूल लोड को कम करने के लिए कैश पॉलिसी।
इंट्रा-नेटवर्क सीमा: वीपीसी/सबनेट में पीपीएस/एमबीपीएस, एग्रेस-कॉस्ट (FinOps)।
12) बहु-क्षेत्र, डीआर और क्षेत्राधिकार
रणनीतियाँ: सक्रिय-सक्रिय (GSLB/Anycast), सक्रिय-निष्क्रिय (गर्म/गर्म/ठंडा DR)।
क्षेत्र द्वारा N + 1: SLO कोर धाराओं को बनाए रखते हुए AZ/क्षेत्र का स्थायी नुकसान।
कानूनी स्थानीयकरण: देश द्वारा यातायात/डेटा का विभाजन, प्रदाताओं में विभिन्न सीमाएं और एसएलओ।
डीआर परीक्षण: वास्तविक लोड स्थानांतरण के साथ नियमित खेल-दि
13) बाहरी प्रदाता: कोटा और मार्ग
भुगतान/केवाईसी/एंटी-फ्रॉड/मेल/एसएमएस: टीपीएस, फट कोटा, दैनिक सीमा।
मल्टी-प्रदाता: विलंबता/सफलता से रूटिंग, प्रति प्रदाता एसएलओ, ऑटो-फीलर।
SLA अनुबंध: e2e-SLO अनुपालन, वृद्धि चैनल, स्थिति वेबहूक।
14) फिनोप्स: लागत और दक्षता
TCO: गणना + भंडारण + नेटवर्क egress + लाइसेंस/प्रदाता + शुल्क।
इकाई अर्थशास्त्र: 1k अनुरोध/1 जमा लेनदेन/1 KYC की लागत।
अनुकूलन: राइट-साइज़िंग, स्पॉट/उपसर्ग छूट, कैश हिट्रेट, लॉग/ट्रेस डेडअप, कोल्ड स्टोरेज स्तर।
समय में स्थानांतरण लोड करें: "रात" खिड़कियों और सस्ते क्षेत्रों में गैर-महत्वपूर्ण बैच।
15) डैशबोर्ड और रिपोर्टिंग (न्यूनतम सेट)
क्षमता अवलोकन:- वर्तमान लोड बनाम लिंक के पार स्थिर थ्रूपुट।
- सेवा और क्षेत्र द्वारा हेडरूम; 24/72 घंटे का पूर्वानुमान।
- FinOps KPI: $/1k अनुरोध, $/जमा।
- जोखिम और हॉटस्पॉट: (H)
- शीर्ष अड़ चनें (p99, संतृप्ति, अंतराल), डीआर मार्जिन।
- प्रदाता सफलता/विलंबता और सीमाएं; मार्गों पर यातायात का हिस्सा।
- उन्नयन/सूचकांक/अनुकूलन योजना, अपेक्षित बचत/क्षमता वृद्धि।
16) प्रक्रियाएं और भूमिकाएँ
आरएसीआई: प्लेटफ़ॉर्म (इन्फ्रा/क्लस्टर/बैलेंसर), डेटाबेस/डेटा (इंडेक्स, प्रतिकृति), सेवा कमांड (प्रोफाइलिंग/कैश), एसआरई (एसएलओ, अलर्ट), सेक/अनुपालन (क्रिप्टो/लॉग), वित (बजट)।
ताल: साप्ताहिक क्षमता-समीक्षा (रोडमैप, पूर्वानुमान, जोखिम), मासिक फिनोप्स-रिपोर्ट, त्रैमासिक डीआर-परीक्षण।
परिवर्तन प्रबंधन: प्रमुख अभियान/जारी क्षमता-गेट (नीचे चेकलिस्ट)।
17) क्षमता-द्वार
- पीक लोड पूर्वानुमान और "+ x% आपातकालीन पूंछ"।
- कोर स्ट्रीम (भुगतान/एसीसी/लॉगिन) के लिए उपलब्ध हेडरूम।
- प्रदाताओं को कोटा की पुष्टि की गई है; वैकल्पिक मार्ग सक्रिय हैं।
- HPA/KEDA थ्रेसहोल्ड और वार्म-पूल कॉन्फ़िगर किए गए हैं।
- कतार/सीमा और गिरावट की जाँच की गई (प्लेबुक तैयार)।
- कैनरी शेयर और ऑटो-रोलबैक सक्षम हैं।
- डैशबोर्ड/अलर्ट (बर्न-रेट, संतृप्ति, p99) की जाँच की गई।
- डीआर योजना और वृद्धि संपर्क प्रासंगिक हैं।
18) एंटी-पैटर्न
"सीपीयू <70% - सब कुछ ठीक है": निर्भरता सीमा (डीबी कनेक्शन, आईओपीएस, कतारें) की अनदेखी।
प्रति-लिंक मैट्रिक्स के बिना केंद्रीकृत "ब्लैक बॉक्स" - यह समझना असंभव है कि सीमा कहां है।
कैश रणनीति की कमी - रिलीज मार मूल को याद करता है।
बजट के बिना रिट्रे सीमा हार्डकोड अनुरोधों का एक तूफान है।
"एक भुगतान प्रदाता" अपने चरम पर विफलता का एक बिंदु है।
गर्म भंडार को नजरअंदाज करना घटनाओं के कारण के रूप में एक ठंडी शुरुआत है।
कोई आवधिक डीआर परीक्षण नहीं - योजना जरूरत पड़ ने पर काम नहीं करती है।
19) मिनी लागत अनुमान (उदाहरण)
सेवा X: स्थिर 350 RPS प्रति पॉड (vCPU = 1, RAM = 2 GiB)। लक्ष्य 5,000 आरपीएस, हेडरूम 25% है।
पावर की जरूरत = '5000/0। 75 = 6667 आरपीएस '।
पोडोव = 'छत (6667/350) = 20'। प्लस वार्म-पूल 15% → 3 अधिक फली।
डीबी: 12k टीपीएस सीमा, 9k टीपीएस वर्तमान क्रेडिट, 10 पीक पूर्वानुमान। 5k TPS → स्टॉक 1। 5k (14%)। 8 तक कम करने के लिए सूचकांक/शार्डिंग/प्रतिकृति या कैशिंग की आवश्यकता होती है। 5k।
प्रदाता ए (केवाईसी): कोटा 120 आरपीएस, पीक 95 आरपीएस, अभियान + 40% → 133 आरपीएस> कोटा → 70% ए/30% बी।
20) क्षमता नियोजन कार्यान्वयन टेम्पलेट
1. e2e पथ और अड़ चनों का वर्णन करें।
2. सीयू भरें और प्रत्येक परत के निरंतर थ्रूपुट को मापें।
3. सभी लिंक पर संतृप्ति और p99 मेट्रिक्स कॉन्फ़िगर करें।
4. घटना/अभियान/रिलीज पंचांग उत्पन्न करें।
5. Cohort भविष्यवाणी और क्या-यदि परिदृश्य का निर्माण करें।
6. पिन हेडरूम प्रति-थ्रेड और प्रति-क्षेत्र (त्रुटि बजट के लिए बाध्यकारी)।
7. HPA/VPA/KEDA + वार्म-पूल, सीमा/रिट्रे/कतार सेट करें.
8. प्रदाता कोटा जांचें, बहु-मार्ग सक्षम करें।
9. डैशबोर्ड और साप्ताहिक ताल क्षमता-समीक्षा एकत्र करें।
10. त्रैमासिक - डीआर अभ्यास और मॉडल संशोधन।
21) नीचे की रेखा
क्षमता नियोजन पूर्वानुमान, वास्तुशिल्प बाधाओं और लागत का एक प्रबंधनीय बंडल है, न कि "सीपीयू जोड़ें। "जब ई 2 ई पथ की प्रत्येक परत में एक मापा क्षमता होती है, और हेडरूम और गिरावट की रणनीति एसएलओ और त्रुटि बजट से जुड़ी होती है, तो पीक लोड, अभियान और दुर्घटनाएं एक आश्चर्य होना बंद हो जाती हैं। यह दृष्टिकोण घटनाओं के जोखिम को कम करता है, व्यापार मैट्रिक्स को स्थिर करता है और लागत का अनुकू