المقارنة المرجعية ومقارنة الأداء

موجز موجز

المقارنة هي تجربة وليست "لعبة تشغيل لمدة 5 دقائق. "المبادئ الرئيسية:

1. صياغة الفرضية والمقاييس.

2. متغيرات التحكم (الأجهزة، اللب، الطاقة، ضوضاء الخلفية).

3. جمع بيانات كافية (نسخ طبق الأصل، فترات ثقة).

4. قم بالتنميط - بدونه لا يمكنك فهم «السبب».

5. قم بإعادة: نصوص وإصلاح الإصدارات والتحف.

الأهداف المرجعية ومقاييس الأعمال

الإنتاجية: RPS/QPS/CPS، يكتب/ثانية

الكمون: p50/p95/p99/كثافة الذيل.
الكفاءة: Cost-per-1k RPS، واط لكل معاملة، تحسين $/مللي ثانية.
الاستقرار: التذبذب، التغير بين الدورات/العقدة.
المرونة: كيفية قياس المؤشرات عند مورد × N (معايير أمدال/غوستافسون).

المنهجية: التصميم التجريبي

الفرضية: «المبعوث مع HTTP/3 سيخفض p95 TTFB بنسبة 10-15٪ مع نفس RPS».
وحدة المقارنة: نسخة من الحديد.
الرسم البياني A/B: تشغيل متوازي على بيئة متطابقة ؛ أو ABAB/Latin Square للحد من تأثير الانجراف.
عدد التكرارات: 10 ≥ قصيرة + 3 أشواط طويلة لكل تكوين للحصول على تقييمات ثابتة.
الإحصاءات: متوسط، MAD، فترات ثقة التمهيد ؛ اختبارات غير محورية (Mann-Whitney) للتوزيعات «الذيلية».
DoE (الحد الأدنى): قم بتغيير متغير واحد في كل مرة (OVAT) أو عامل عامل لعوامل 2-3 (على سبيل المثال، ملف تعريف TLS × إصدار HTTP × نواة).

التحكم في المتغيرات والضوضاء

حاكم وحدة المعالجة المركزية: 'الأداء' ؛ تعطيل «حفظ الطاقة».
التوربو/الخنق: مراقبة الترددات ودرجات الحرارة والاختناق (وإلا فإن الإحماء سيعطي مكاسب خاطئة).
NUMA/Hyper-Threading: pin IRQs and process ('taskset/numactl'), measure memory lotality.
الرصيد C-states/IRQ: إصلاح الإعدادات ؛ لاختبارات الشبكة - دبوس IRQ للنوى المحددة.
عمليات الخلفية: عقدة نظيفة، إيقاف تشغيل cron/backup/antivirus/updatedb.
الشبكة: مسارات مستقرة، MTU/ECN/AQM ثابتة، لا ترفرف قناة.
البيانات: نفس المجموعات والكاردينالية والتوزيعات.
ذاكرة التخزين المؤقت: أوضاع منفصلة «باردة» (تمريرة أولى) و «دافئة» (تكرار)، علامة صريحة.

الفئات المعيارية

1) المعايير الجزئية (الوظيفة/الخوارزمية)

الغرض: قياس رمز/خوارزمية محددة.
الأدوات: أطر عمل مدمجة (Go 'testing. B ', JMH, pytest-manchmark).
القواعد: إحماء JIT، مللي ثانية → نانو ثانية ؛ وعزل القوات المسلحة ؛ البذور الثابتة.

2) معايير ميسو (العنصر/الخدمة)

خادم HTTP، ذاكرة التخزين المؤقت، وسيط، قاعدة بيانات على عقدة واحدة.
الأدوات: wrk/wrk2، k6 (الطراز المفتوح)، vegeta، ghz (gRPC)، fio، sysbench، iperf3.
القواعد: حدود الاتصال/الملف، المجمعات ؛ تقرير وحدة المعالجة المركزية/IRQ/GC.

3) المعايير الكلية (المسار e2e/الطلب)

الطريق الكامل: CDN/edge → خدمة → بالوكالة → DB/cache → إجابة.
الأدوات: k6/Locust/Gatling + RUM/OTel ؛ مزيج واقعي من الطرق.
القواعد: أقرب إلى الواقع (بيانات «قذرة»، تأخيرات في الأنظمة الخارجية)، بدقة مع retras.

المقاييس حسب الطبقة

طبقة	المقاييس
العميل/الحافة	DNS p95, TLS handshake p95, TTFB, HTTP/2/3 доля
شبكة	RTT/lost/jitter، ECN CE، Goodput، PPS/CPS
TLS/الوكيل	المصافحة/المصافحات، معدل الاستئناف، مزيج الشفرات
التذييل	p50/95/99، 5xx/429، توقف GC، خيوط، قوائم انتظار
ذاكرة التخزين المؤقت	نسبة الإصابة حسب الطبقة، الإخلاء، المفاتيح الساخنة
DB	QPS، p95 طلبات، أقفال، مخبأ/مخبأ، WAL/fsync
قرص	IOPS، زمن الكمون، 4k/64k، مزيج القراءة/الكتابة، تكلفة fsync
وحدة معالجة الرسومات/ML	الإنتاجية (العينات/العينات)، الكمون، mem BW، CUDA/ROCm util

نماذج الاختبار والأوامر

الشبكة (TCP/UDP):

bash iperf3 -s # server iperf3 -c <host> -P 8 -t 60 # parallel, stable bandwidth

خادم HTTP (حمل ثابت، wrk2):

bash wrk2 -t8 -c512 -d5m -R 20000 https://api. example. com/endpoint \
--latency --timeout 2s

النموذج المفتوح (k6، معدل الوصول):

javascript export const options = {
scenarios: { open: { executor: 'constant-arrival-rate', rate: 1000, timeUnit: '1s',
duration: '10m', preAllocatedVUs: 2000 } },
thresholds: { http_req_failed: ['rate<0. 3%'], http_req_duration: ['p(95)<250'] }
};

قرص (فيو، قراءة عشوائية 4k):

bash fio --name=randread --rw=randread --bs=4k --iodepth=64 --numjobs=4 \
--size=4G --runtime=120 --group_reporting --filename=/data/testfile

قاعدة بيانات (فكرة عينة sysbench + PostgreSQL):

bash sysbench oltp_read_write --table-size=1000000 --threads=64 \
--pgsql-host=... --pgsql-user=... --pgsql-password=... prepare sysbench oltp_read_write --time=600 --threads=64 run

الذاكرة/وحدة المعالجة المركزية (Linux perf + stress-ng):

bash perf stat -e cycles,instructions,cache-misses,L1-dcache-load-misses \
-- <your_binary> --bench

الإحصاءات والصلاحية

النسخ المتماثلة: 10 أشواط على الأقل، باستثناء القيم المتطرفة (قوية: متوسط/MAD).
فترات الثقة: bootstrap 95٪ CI لـ p95/p99 والوسائل.
حجم التأثير: التغير النسبي و CI (على سبيل المثال − 12٪ [− 9٪ ؛ − 15٪]).

الأهمية العملية: انخفاض بنسبة 10٪ في p95 بسعر + 30٪ وحدة المعالجة المركزية - هل يستحق ذلك ؟

الرسوم البيانية: الكمان/ECDF للتوزيعات، «منحنيات التشبع» (RPS→latency).

تحديد سمات عنق الزجاجة وتوطينها

وحدة المعالجة المركزية: «perf»، «async-profiler»، eBPF/pyroscope ؛ اللهب قبل وبعد.
Alloc/GC: ملفات تعريف وقت التشغيل (Go pprof/Java JFR).
I/O: «iostat'،» blktrace «،» fio --lat_percentiles=1'.
Сеть:'s -s'، 'ethtool -S'، 'dropwatch'، 'tc -s qdisc'.
БД: «اشرح (تحليل، مهملات)»، pg_stat_statements، سلوك.
النقد: المفاتيح العلوية، TTL، سبب الإخلاء.

الإبلاغ والتحف

ما يجب إصلاحه:

بناء Git SHA وتجميع/تحسين الأعلام.
Kernel/network configs (sysctl), driver versions/NIC/firmware.
الطوبولوجيا (vCPU/NUMA/HT)، الحاكم، درجة الحرارة/الترددات.
البيانات: الحجم، الكاردينالية، التوزيعات.
ما يجب نشره: جداول p50/p95/p99، خطأ/ثانية، إنتاجية، موارد (CPU/RAM/IO)، CI.
القطع الأثرية: نصوص التشغيل، الرسوم البيانية، غلاف اللهب، نتائج JSON/CSV الخام، بروتوكول البيئة.

القياس العادل

محددات متطابقة (تجمع conn، keepalive، سلسلة TLS، تدبيس OCSP).
HTTP (h2/h3).
توازن درجة الحرارة: الإحماء حتى التوازن (بدون تأثير التعزيز التوربيني).
المخابئ العادلة: إما «بارد» أو كلاهما «دافئ».
تماثل الشبكة: نفس الطرق/MTU/ECN/AQM.
الميزانية الزمنية: DNS/TLS/connect - عد صراحة أو استبعد بالتساوي.

الأنماط المضادة

جولة واحدة → «إخراج».
خلط الأوضاع (جزء بارد، جزء دافئ) في سلسلة واحدة.
نموذج مغلق بدلاً من نموذج مفتوح لحمل الإنترنت → «استقرار» خاطئ.
تكرارات غير محسوبة → «RPS تنمو» على حساب اللقطات والتتابع 5xx.
مقارنة بين مختلف الغدد/النوى/دوائر الطاقة.
لا تنميط → تحسين أعمى.
اللعب مع GC/كومة بدون تحليل الملف الشخصي → تراجع الذيل.

وصفات عملية

الحد الأدنى من خطوات خط أنابيب مقاعد البدلاء:

1. إصلاح البيئة (النص 'env _ capture. sh ').

2. تسخين (5-10 دقائق)، تسجيل الترددات/درجات الحرارة.

3. إجراء تكرارات N على المدى القصير + 1 الطويل.

4. إزالة الملفات الشخصية (CPU/alloc/IO) في الذروة.

5. احسب CI/الرسوم البيانية، وجمع القطع الأثرية.

6. الحل: قبول/رفض الفرضية، تشكيل الخطوات التالية.

منحنى السعة:

خطوات RPS (10٪ من الخطوة) → إصلاح p95/الأخطاء → العثور على «الركبة».
نحن نبني جدولًا زمنيًا RPS→latency RPS→CPU: نرى الحدود وتكلفة أخرى بنسبة٪.

iGaming/fintech specific

التكلفة لكل مللي ثانية: تحسينات الترتيب بنسبة دولار (حدود التحويل/التشويش/PSP).
القمم (المباريات/البطولات): ارتفاع + معايير الهضبة مع تسخين TLS/CDN/ذاكرة التخزين المؤقت.
المدفوعات/تكاليف الخدمات العامة: قياس الاستحقاق من البداية إلى النهاية بحدود الصناديق الرملية، والخصوصية وردود الفعل إزاء التدهور ؛ قم بإصلاح الوقت إلى المحفظة بمقاييس بالوكالة.
مرشحات مكافحة الاحتيال/الروبوت: تضمين ملف تعريف القواعد في مقعد الماكرو (معدل إيجابي خاطئ، إضافة زمن انتقال).
القادة/الجوائز الكبرى: اختبر المفاتيح الساخنة/الترتيب، الأقفال، الذرة.

قائمة مرجعية مرجعية مرجعية

الفرضية/المقاييس/معيار النجاح.
الرصد المتغير (الطاقة/NUMA/IRQ/network/cache).
خطة تشغيل (نسخ طبق الأصل، مدة، إحماء)
فصل بارد/دافئ.
تم تمكين التنميط (CPU/alloc/IO/DB).
الإحصاءات: CI، اختبارات الأهمية، الرسوم البيانية.
القطع الأثرية والنصوص في المستودع (IaC للمقعد).
تقرير يتضمن «تكلفة التحسين» وتوصيات.
الانحدار perf.

تقرير مصغر (نموذج)

الهدف هو تقليل واجهة برمجة التطبيقات p95 بنسبة 15٪ دون نمو وحدة المعالجة المركزية> 10٪.
الطريقة: A/B، k6 طراز مفتوح 1k rps، 10 × 3 أشواط، ذاكرة تخزين مؤقت دافئة.
المجموع: p95 − 12٪ [− 9٪ ؛ − 15٪]، وحدة المعالجة المركزية + 6٪، 5xx دون تغيير.
Flamegraph: ↓ تسلسل JSON (− 30٪ وحدة المعالجة المركزية)، تحول عنق الزجاجة إلى قاعدة البيانات.
القرار: قبول الاستخدام الأمثل ؛ والخطوة التالية هي جمع طلبات قاعدة البيانات.
القطع الأثرية: الرسومات، الملفات الشخصية، التكوينات، JSON الخام.

المجموع

المقارنة الجيدة هي منهجية صارمة + مقارنات عادلة + صلاحية إحصائية + تنميط + قابلية للتكرار. افترض وتحكم في البيئة وقرأ فترات الثقة ونشر القطع الأثرية واتخاذ قرارات بشأن تكلفة التحسين. لذلك لن تحصل على رقم جميل في العرض التقديمي، ولكن زيادة حقيقية في سرعة المنصة وإمكانية التنبؤ بها.