مناطق التوافر والمناطق المتقاطعة
1) المصطلحات والأهداف
منطقة التوافر (AZ) - مركز بيانات معزول داخل المنطقة (سعة/شبكة خاصة).
المنطقة - مجموعة AZ مع الجغرافيا الشائعة والتأخيرات.
- RTO (هدف وقت الاسترداد) - كم من الوقت لا يمكنك تقديم خدمة.
- RPO (هدف نقطة الاسترداد) - مقدار البيانات التي يمكن فقدها.
عادة: داخل المنطقة نهدف إلى RTO ≤ 5-15 دقيقة، RPO ~ 0-1 دقيقة، بين المناطق - RTO ≤ ساعة واحدة، RPO ≤ 5 دقائق (اعتمادًا على المنتج والميزانية).
2) النماذج المعمارية
2. 1 داخل المنطقة (متعدد المناطق)
طبقة عديمي الجنسية: موزعة على منطقة أريزونا ؛ الموازنة - L4/L7 مع الفحوصات الصحية.
طبقة الدولة: مجموعات ذات تكرار متزامن (أو نصاب) بين AZ.
المخبأ/قوائم الانتظار: مجمعة، مع شحن AZ وفشل تلقائي.
2. 2 أقاليمية (متعددة الأقاليم)
نشط: تتلقى كلتا المنطقتين حركة المرور.
الحد الأدنى لوقت المستخدم، والتعافي السريع، واتساق −، وتعقيد الصراع
Active-Passive (ساخن/دافئ): تخدم المنطقة الرئيسية، الثانية - في توقع ساخن/دافئ.
بيانات أبسط وأرخص ؛ − أعلى RTO.
Pilot-Light: الحد الأدنى من «الضوء» (البيانات متزامنة، والحسابات تتكشف في حالة وقوع حادث).
DR-backup: فقط النسخ الاحتياطية وسيناريو الاسترداد (الأرخص والأبطأ).
3) البيانات والاتساق
3. 1 قواعد بيانات
النصاب المتزامن (RPO≈0، ↑latentnost): PostgreSQL مع مواعيد متزامنة داخل المنطقة ؛ قواعد بيانات موزعة (CockroachDB/Cassandra) مع النصاب المحلي (النصاب المحلي) وموازنة AZ.
غير متزامن أقاليمي (RPO> 0, ↓latentnost): النسخ المتماثل المنطقي Postgres/MySQL ؛ «الجداول العالمية» в KV/NoSQL ؛ CDC→strim إلى منطقة أخرى.
الإدخالات المتضاربة: بالنسبة للنشاط النشط، استخدم CRDT/الإصدار أو منطقة القائد لكل مفتاح/مستأجر.
3. 2 مصادر الأحداث وقوائم الانتظار
قوائم الانتظار/التيارات (كافكا/بولسار/SQS-like): مواضيع مرآة أو محاكاة عبر المناطق ؛ المفتاح - استخفاف المستهلك والمأزق الرئيسي.
خطوط الويب والشركاء الخارجيين: التوقيع، إعادة التشغيل، التخزين/نقاط التفتيش في كلا المنطقتين.
3. 3 نقدية
المخابئ المحلية لكل منطقة (الكتابة/التحديث المسبق) ؛ ذاكرة التخزين المؤقت العالمية المشتركة لسيارات KV المعمرة فقط (المعروف أيضًا باسم انقسام الدماغ). التعطيل حسب الحدث (حانة/فرعية)، TTL - محافظ.
4) حلقة المرور والشبكة العالمية
GSLB/DNS: التوجيه القائم على الأرض/الكمون، والفحوصات الصحية، وأوزان حركة المرور للكناري والحوادث.
Anycast/Edge: نقرب المدخل من المستخدم، ثم إلى أقرب منطقة صحية.
السياسات الفاشلة: المجمعات الإقليمية لمرحلة ما قبل النهر، وحظر 0-RTT على المسارات الحرجة، والإجازات الزمنية المنخفضة للتبعيات الأقاليمية.
سياسات إعادة التدوير: التراجع الأسي + التنفس، قيود الموعد النهائي الكامل، وضع/نشر غبي مع «مفتاح الخصوصية».
5) Kubernetes وشبكة الخدمة
5. 1 Multi-AZ في مجموعة واحدة
الطوبولوجيا تنشر القيود по طوبولوجيا. kubernetes. io/zone '.
PodDistructionBudget и الفئات ذات الأولوية.
NodeAffinity/Anti-Affinity - تجنب نسخة طبق الأصل من الموقع المشترك.
مناطق التخزين: PV مع تكرار AZ أو أنظمة الحجم الموزعة.
5. 2 مناطق متعددة (متعددة المجموعات)
مجموعات منفصلة لكل منطقة + GitOps (Argo CD/Flux) للتزامن الإعلاني.
شبكة الخدمات (Istio/Linkerd): موازنة الأحمال بين المناطق وفشلها ؛ mTLS، الهوية المشتركة.
تحويل حركة المرور: 1%→10%→50٪ تدريجياً إلى منطقة جديدة ؛ ضع 0% على الفور
6) اختيار RTO/RPO وربط النمط
7) اختبار تحمل الأخطاء (DR)
GameDays: سيناريو "منطقة/AZ out' ربع سنوي كامل النطاق.
حقن الفوضى: تأخير الشبكة، وفقدان الحزم، وفصل السمسار/القاعدة في منطقة أريزونا واحدة.
RTO/RPO الفعلي: قياس وقت التبديل وفقدان البيانات، نشر التقرير.
كتب التشغيل: تعليمات خطوة بخطوة و «أزرار حمراء» للتبديل (أوزان DNS، أعلام الميزات، ميزات ثقيلة معطلة).
8) إمكانية الرصد والإدارة
الشرائح المترية حسب المنطقة/المنطقة المنخفضة/المستأجر ؛ p95/p99.
ميزانيات SLO والخطأ لكل منطقة ولكل مجموعة عالمية.
التنبيهات: يجب ألا يؤدي تدهور منطقة واحدة إلى «ازدحام» الاستدعاء إذا كانت المنطقة الثانية تنقل حركة المرور بشكل طبيعي.
Трейсы: «منطقة» الأمتعة، «عز»، «فشل» ؛ تقارير «كم عدد الطلبات التي فشلت».
9) السلامة والامتثال
الإقامة في مجال البيانات: ربط بيانات مؤشر الأداء الموحد/الدفع بمناطق محددة (الولاية القضائية).
الأسرار: KMS/HSM الذكي مع المفاتيح والتناوب عبر المناطق ؛ مواد رئيسية منفصلة لكل منطقة.
ومقاطعة ترينيداد وتوباغو والثقة المتبادلة بين المناطق ؛ تقييد الخروج عبر المناطق من قبل الرباط الصليبي الأمامي.
10) التكاليف والوفورات
Edge cache + SWR - انخفاض في الخروج الأقاليمي.
فئات تخزين مختلفة (ساخنة/دافئة/باردة) ومقاييس/سجلات منخفضة الحجم.
موجزات على نطاق تلقائي حسب المنطقة (الحد الأدنى الليلي).
هوية الصورة + تكوين متمايز عبر متغيرات البيئة/قيم هيلم.
11) أنتيباترن
رئيس دولة لكل نظام ؛ انقسام الدماغ بدون النصاب القانوني.
الكتابة المتزامنة الأقاليمية إلى نظام واحد للإدارة القائمة على النتائج (زمن انتقال لا يطاق).
ذاكرة التخزين المؤقت العالمية باتساق قوي بدون CRDT → الازدحام والأشباح.
عمليات إعادة التدوير دون → ازدواجية المعاملات/المدفوعات.
هناك منظمة «عالمية» واحدة - تخفي فشل منطقة واحدة.
لا توجد تمارين DR منتظمة - الخطط غير صالحة للعمل في المعركة.
12) تفاصيل iGaming/Finance
يتم اختيار مقدمي المدفوعات/CCPs على المستوى الإقليمي ؛ قم بالتوجيه الذكي عبر PSP بإشارات صحية، وفشل في النسخ الاحتياطي.
الاختصاص: الاحتفاظ بسجلات المعاملات داخل البلد/المنطقة ؛ عبر المناطق - المجاميع/المجهولة فقط.
الحدود/اللعب المسؤول: القواعد والساعات المحلية - لا تكرر «وجهاً لوجه» بين المناطق، واستخدم اتساق الحدث.
المكافآت/التوازن: المفاتيح الخفية و «مصدر الحقيقة» لكل مستأجر/منطقة ؛ التوفيق بين الوظائف بعد د.
13) وصفات صغيرة (أرقام زائفة)
13. 1 مبعوث على علم بالمحلية + فشل
yaml load_assignment:
endpoints:
- locality: { region: eu, zone: eu-a }
lb_endpoints: [{ endpoint: { address:... } }]
- locality: { region: eu, zone: eu-b }
lb_endpoints: [{ endpoint: { address:... } }]
- locality: { region: us, zone: us-a } # failover target lb_endpoints: [{ endpoint: { address:... } }]
common_lb_config:
zone_aware_lb_config: {}
locality_weighted_lb_config: {}
outlier_detection:
consecutive_5xx: 5 base_ejection_time: 30s
13. 2 انتشار طوبولوجيا Kubernetes
yaml spec:
topologySpreadConstraints:
- maxSkew: 1 topologyKey: topology. kubernetes. io/zone whenUnsatisfiable: DoNotSchedule labelSelector: { matchLabels: { app: api } }
13. 3 DNS Weight Feilover (فكرة)
«الوزن (eu) = 90»، «الوزن (نحن) = 10» → عندما يتحول «eu» المتدهور تلقائيًا إلى «نحن». الفحوصات الصحية وخفض TTLs (ولكن ليس عدوانيًا للغاية، 30-120 ثانية).
14) قائمة التحقق من الاستعداد
- تم تحديد كل خدمة من RTO/RPO والموافقة عليها مع الأعمال التجارية.
- عديمو الجنسية الموزعون على جميع أنحاء أريزونا ؛ النصاب/التكرار ونموذج الاتساق الواضح.
- النسخ المتماثل عبر الإقليمي (asynchron/CDC)، اختبارات الاصطدام/التفريغ.
- تم تكوين GSLB/Anycast، وأتمتة الفحوصات الصحية والأوزان.
- Kubernetes: topology-spread, PDB, anti-affinity; GitOps متعددة المجموعات.
- Retrai with jitter، imputency on write ؛ فترات زمنية قصيرة بين الأقاليم.
- تمارين DR، قياس RTO/RPO الفعلي ؛ الدليل الحالي.
- قابلية الملاحظة حسب المنطقة/المنطقة الزراعية، ومعدل الحرق في الأقسام، التنبيهات لا «تشويش» التشغيل العادي.
- تتوافق الإقامة/الأسرار/المفاتيح مع المتطلبات التنظيمية.
- الاقتصاد: الخروج والتخزين والملامح الذاتية تحت السيطرة.
15) TL ؛ د
قم ببناء multi-AZ كطبقة أساسية ومتعددة المناطق كتأمين تجاري. اختر نمطًا (نشطًا/احتياطيًا) لـ RTO/RPO والتكلفة، وتكرار البيانات بوعي (النصاب/CDC/CRDT)، وإدارة حركة المرور العالمية من خلال GSLB/Anycast والموازنة بين الموقع. إلزامي: الخصوصية، فترات زمنية قصيرة، تمارين DR منتظمة، SLO/مقاييس على شرائح المنطقة/AZ. بالنسبة إلى iGaming/Finance، أضف PSP/KYC الإقليمي، ومتطلبات البيانات، وتقسيم SLOs حسب الولاية القضائية.