GH GambleHub

क्षमता नियोजन और लोड वृद्धि

संक्षिप्त सारांश

शक्ति अपेक्षित लोड वृद्धि और विफलताओं के लिए लक्ष्य एसएलओ का सामना करने की क्षमता है। आधार:

1. मांग पूर्वानुमान (आधारभूत प्रवृत्ति + मौसमी + घटनाएं)।

2. लोड मॉडल (इंटरनेट के लिए खुला मॉडल)।

3. हेडरूम और गलत बजट।

4. स्केलिंग (क्षितिज/ऊर्ध्वाधर/ऑटो) + लिमिटर (दर-सीमा/बैकप्रेशर)।

5. वित्त: $/1000 आरपीएस, $/ms p95, परिदृश्य द्वारा टीसीओ।

शर्तें और मेट्रिक्स

थ्रूपुट: आरपीएस/क्यूपीएस/सीपीएस - वास्तविक थ्रूपुट।

लेटेंसी p95/p99: उपयोगकर्ता पथ के लिए SLO को लक्षित करें।

संतृप्ति: सीपीयू/मेमोरी/आईओ/एफडी/कनेक्शन/कतार लोडिंग।

त्रुटि दर: 5xx/timeout/429, अवधि के लिए गलत बजट।

हेडरूम: चरम यातायात पर मुफ्त बिजली की हिस्सेदारी (अनुशंसित ≥ 30%)।

फट: अल्पकालिक स्पाइक (सेकंड/मिनट), स्पाइक: तेज वृद्धि × एन।

बुनियादी मॉडल और सूत्र

लिटिल लॉ (कतारबद्ध सिस्टम के लिए)


L = λ W

L सिस्टम में अनुरोधों की औसत संख्या है, ć औसत प्रवेश दर (RPS) है, सिस्टम में W औसत समय है। कतार गहराई का अनुमान लगाने के लिए उपयोगी।

लोड फैक्टर (ć)


ρ = λ / μ

· - सेवा गति (100% सीपीयू पर आरपीएस)। जब ρ→1, विलंबता गैर-रैखिक बढ़ जाती है - कार्य बिंदु ≤ 0 रखें। 6–0. 75.

सुरक्षा कारक/हाशिया


Capacity_required = Peak_load (1 + Headroom) Degradation_factor

जहां N विफलता, कैश गिरावट, एक PoP/क्षेत्र का नुकसान (जैसे, 1) के लिए खाता है। 2).

मांग पूर्वानुमान

1. इतिहास: दिन/सप्ताह प्रोफाइल, मौसमी, घटनाओं के साथ सहसंबंध (मैच/धाराएं/भुगतान)।

2. घटनाएँ: परिदृश्य गुणांक (नियमित दिन × 1, टूर्नामेंट × 2। 3, अंतिम × 3। 5).

3. उतार-चढ़ाव के स्रोत: विपणन अभियान, रिलीज, बॉट विसंगतियाँ।

4. पूर्वानुमान इकाइयाँ: मार्गों (लॉगिन, लॉबी, कैटलॉग, भुगतान), सीपीएस टीएलएस, क्यूपीएस डीबी, आईओपीएस डिस्क, एग्रेस जीबीपीएस द्वारा आरपीएस।

5. विश्वास: दो परिदृश्य रखें - रूढ़िवादी और आक्रामक।

सिमुलेशन लोड करें

ओपन-मॉडल (पॉइसन जैसा आगमन): सार्वजनिक एपीआई/वेब के लिए प्रशंसनीय - आकार के लिए उपयोग करें।

बंद-मॉडल (VU + थिंक-टाइम): आंतरिक अनुक्रमों के लिए उपयुक्त; संयोजन करें।

रूट मिश्रण: प्रति एंडपॉइंट वजन अंश; न केवल "गर्म", बल्कि "महंगा" (पंजीकरण, जमा) भी शामिल करें।

मत भूलो: रेट्रास, कतारें, पार्टनर लिमिट (पीएसपी, थर्ड-पार्टी एपीआई)।

सुरक्षा मार्जिन डिजाइन

हेडरूम लक्ष्य: शिखर पर ≥ 30% (इंटरनेट के लिए); भुगतान कोर और महत्वपूर्ण रास्तों के लिए - 40-50%।

N + 1/N + 2: SLO का उल्लंघन किए बिना 1-2 उदाहरणों/क्षेत्रों की विफलता का सामना करना।

बहु-क्षेत्र: प्रत्येक क्षेत्र कुल शिखर का ≥ 60% (पड़ोसी के नुकसान से बचने के लिए) खींचता है।

डिग्रेड मोड: द्वितीयक फ़ंक्शन अक्षम करें, पेलोड कम करें, कैश/छुरा प्रतिक्रियाओं को सक्षम करें।

परत द्वारा साइज़िंग

नेटवर्क/किनारा

सामने की ओर CPS/RPS, TLS-हैंडशेक p95, resumption≥70%, egress Gbps।

Anycast/Geo-routing, CDN/WAF सीमा (अग्रिम में सहमत)।

मार्जिन: लिंक/एप्लिंक ≥ पीक × 1। 3, H3 के लिए मार्जिन के साथ SYN बैकलॉग।

बैलेंसर/प्रॉक्सी

उदाहरण के लिए आरपीएस, खुले कनेक्शन, कतारें, सीपीयू/आईआरक्यू।

कीपलाइव और कनेक्शन पूलिंग - बैकेंड से कनेक्शन कम करें।

स्टॉक: 0। 7, सीमित - सीपीएस/आरपीएस प्रति मार्ग।

अनुप्रयोग

पठार में प्रति कोर (आरपीएस/कोर) लक्ष्य प्रदर्शन।

पूल (थ्रेड/डीबी/एचटीटीपी) - सीमा में न चलें।

स्टॉक: CPU 60-70% और विलंबता-ट्रिगर (p95) तक ऑटोस्केल।

कैश

हिट-अनुपात, हॉटसेट वॉल्यूम, निष्कासन, प्रतिकृति।

रिजर्व: मेमोरी ≥ 1। 2 × हॉटसेट, नेटवर्क हेडरूम ≥ 30%।

डाटाबेस

QPS/TPM, p95 अनुरोध, ताले, बफर कैश, WAL/प्रतिकृति अंतराल।

IOPS और विलंबता ड्राइव p95 की कुंजी हैं।

मार्जिन: सीपीयू ऑपरेटिंग पॉइंट 50-65%, प्रतिकृति अंतराल <लक्ष्य; चार्डिंग प्लान और रीड-प्रतिकृतियां।

डिस्क/भंडारण

IOPS (4k/64k), थ्रूपुट, fsync लागत।

स्टॉक: IOPS ≥ चोटी × 1। 5, लक्ष्य खिड़की में विलंबता p95; लॉग/डेटा के लिए अलग पूल।

GPU/ML (यदि ऑनलाइन अनुमान है)

नमूने/एस, विलंबता, वीआरएएम हेडरूम, बैचिंग।

मार्जिन: "आरी" लोड, वार्म-पूल जीपीयू के तहत बैच पैरामीटर।

स्वतः स्केलिंग

HPA/KEDA: CPU मेट्रिक्स + कस्टम (p95 विलंबता, RPS, कतार)।

गर्म पूल: घटनाओं से पहले गर्म उदाहरण।

स्टेप-स्केलिंग: कूलडाउन के साथ कदम ताकि "देखा" न जाए।

प्रतिक्रिया समय: सामने की परत के लिए 1-2 मिनट का लक्ष्य; डीबी के लिए - अग्रिम में।

लिमिटर और बैकप्रेशर

दर-सीमा по आईपी/एएसएन/डिवाइस/रूट; साथी कोटा।

टीटीएल के साथ कतारें, टाइमआउट से पहले "विनम्र" (429/ग्रे-वॉल्यूम के माध्यम से)।

पहचान: भुगतान के लिए कुंजी; बजट + जिटर के साथ रिट्रीट।

अनुरोध ढहने/SWR: छप के दौरान मूल मत जगाओ।

त्वरित गणना का उदाहरण

दिया गया: 35k RPS API शिखर पूर्वानुमान, p95 250 ms, औसत सेवा समय 8 ms प्रति उदाहरण 60% CPU RPS/कोर, 8 कोर प्रति उदाहरण ~ 1000 RPS/उदाहरण।

चरण 1 (कोई स्टॉक नहीं): 35 उदाहरण।

चरण 2 (हेडरूम 30%): 35 × 1। 3 = 46.
चरण 3 (एक AZ की विफलता, + 20%): 46 × 1। 2 ≈ 55.

चरण 4 (राउंडिंग + हॉट रिजर्व 10%): 61 उदाहरण।

जाँच करें: 35k/( 61k) 0। 57 - हरे क्षेत्र में।

वित्तीय मॉडल (FinOps)

परत (किनारे, प्रॉक्सी, ऐप, डीबी) द्वारा $/1000 आरपीएस।

$/ms p95 (पूंछ में कमी लागत)।

TCO परिदृश्य: ऑन-डिमांड बनाम आरक्षित बनाम स्पॉट (रुकावट के जोखिम के साथ)।

क्षमता योजना: तिमाही खाता/क्लस्टर सीमा, क्लाउड कोटा, पीएसपी/सीडीएन सीमाएं।

असफलताओं के लिए तैयार और डीआर

मल्टी-एज ़/क्षेत्र: प्रत्येक हाथ ≈ 60% भार।

विफल योजना: Anycast, GSLB स्विचिंग, TTL ≤ 60-120 s को वापस लें।

महत्वपूर्ण निर्भरता: पीएसपी/बैंक सीमा, माध्यमिक प्रदाता।

आवधिक अभ्यास: PoP/BG/कैश ऑफ के साथ खेल दिवस।

अवलोकन और प्रारंभिक संतृप्ति संकेत

p95/p99 की वृद्धि और स्थिर इनपुट के साथ कतारें।

हिट-अनुपात कैश ड्रॉप, मूल वृद्धि।

रिट्रांसमिट्स/ईसीएन सीई में वृद्धि, टीएलएस फिर से शुरू होना।

ग्रोथ 429/टाइमआउट और रीट्री-रेट।

डेटाबेस के लिए - संघर्ष विकास, चेकपॉइंट समय, WAL fsync।

ऑपरेशनल प्रैक्टिस

क्षमता समीक्षा मासिक: तथ्य बनाम योजना।

घटनाओं के लिए विंडो बदलें: गुठली और सीमाएँ फ्रीज करें।

शिखर से पहले प्रीवार्म (CDN/DNS/TLS/पूल) 10-30 मिनट।

वर्शनिंग सीमित करें: Git में दर-सीमा/पूल कॉन्फ़िग को ठीक करें।

iGaming/fintech विशिष्ट

टूर्नामेंट/मैच: स्पाइक + पठार प्रोफाइल, बॉट्स के लिए ग्रे मार्ग, अलग पंजीकरण/जमा सीमा।

भुगतान/पीएसपी: प्रदाता/विधि कोटा, फॉलबैक मार्ग, एग्रेस-आईपी पूल, एसएलए टाइम-टू-वॉलेट।

सामग्री प्रदाता: स्टूडियो, हॉट कैश, शार्ड पूल द्वारा वितरण।

Antifraud/AML: नियमों/स्कोरिंग पर सीमा, चरम पर प्रकाश नियमों के लिए गिरावट।

कार्यान्वयन जाँच सूची

  • पीक पूर्वानुमान (आधार/मौसम/घटनाएं), दो परिदृश्य।
  • SLO/गलत बजट और लक्ष्य हेडरूम ≥ 30%।
  • परत द्वारा आकार (किनारा/प्रॉक्सी/ऐप/कैश/डीबी/आईओ/नेटवर्क)।
  • दर-सीमा, कतार, पहचान, पुन: बजट।
  • एचपीए/केईडीए + गर्म पूल; घटना से पहले पदोन्नति योजना।
  • मल्टी-एजेड/क्षेत्र, फेलओवर प्लेबुक, टीटीएल और जीएसएलबी।
  • क्लाउड/पीएसपी/सीडीएन कोटा सुसंगत और प्रलेखित हैं।
  • अवलोकन: क्षमता डैशबोर्ड, प्रारंभिक संतृप्ति संकेत।
  • डीआर अभ्यास और नियमित क्षमता-समीक्षा।

सामान्य त्रुटियाँ

सिलाई/स्पाइक्स के बिना औसत आरपीएस के लिए योजना।

ρ≈0. 9 "कागज पर" - विलंबता थोड़ा शोर पर विस्फोट करती है।

बाहरी सेवा सीमा की अनदेखी (PSP/CDN/DB क्लस्टर)।

कोई अपमानजनक मोड नहीं हैं और बैकप्रेशर कैस्केडिंग विफल हैं।

प्रीहीटिंग के बिना ऑटो-स्केल - "चोटी के बाद" प्रबंधन करता है।

सभी परतों के लिए एकल हेडरूम - अड़ चन माइग्रेट करता है।

मिनी प्लेबुक

पीक इवेंट से पहले (T-30 मिनट)

1. minReplicas/लक्ष्य HPA बढ़ाएं, गर्म पूल सक्षम करें।

2. CDN/DNS/TLS/कनेक्शन, वार्म अप कैश।

3. सहमति के अनुसार पीएसपी पूल की सीमा और कोटा बढ़ाएं।

4. ग्रे रूट/बॉट फिल्टर, संकीर्ण भारी एंडपॉइंट चालू करें।

क्षेत्र का आंशिक नुकसान

1. जीएसएलबी → पड़ोसी क्षेत्र, टीटीएल 60-120 एस।

2. डिग्रेड मोड सक्षम करें (कैश/सरलीकृत चेकआउट)।

3. पुनर्वितरण PSP/egress-IP सीमा।

4. स्थिति संचार, p95/त्रुटि नियंत्रण।

पीछे हटने में वृद्धि

1. रीट्री-बजट कम करें, बैकऑफ + जिटर सक्षम करें।

2. GET पर अनुरोध-समापन/SWR सक्षम करें।

3. अस्थायी रूप से "शोर" ASN के लिए दर-सीमा को कड़ा करें।

परिणाम

क्षमता नियोजन मांग पूर्वानुमान + इंजीनियरिंग मॉडल + सुरक्षा मार्जिन + परिचालन ली एसएलओ और हेडरूम को औपचारिक रूप देना, बाहरी सीमाओं पर विचार करना, स्वचालित स्केलिंग और गिरावट, "प्रति मिलीसेकंड लागत" को मापना और नियमित क्षमता-समीक्षा करना। फिर लोड में वृद्धि जोखिम में नहीं, बल्कि एक प्रबंधनीय व्यवसाय मीट्रिक में बदल जाएगी।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

Telegram
@Gamble_GC
इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।