Ցանցի ընդհանուր բենչարիկները
1) Ինչու՞ են անհրաժեշտ «ընդհանուր բենչարկներ»
Բացահայտված մետրերը = չթողարկված արդյունքները և վեճերը «ազնվության» մասին։ Ընդհանուր բենչարիկները ստանդարտացված սցենարներ են, բեռներ, կոդավորման մեթոդներ և հաշվետվությունների ձևեր, որոնք թույլ են տալիս
համեմատել SLO-ի հետ։
կառավարել ցանցերը (սակագները, քվոտաները, լիմիտները) փաստերի հիմքում։
հայտնաբերեք ռեգրեսիան մինչև տեմպը։
կատարել թափանցիկ խթաններ (բոնուսներ/տուգանքներ) և վստահություն։
2) Taksonomia metric
2. 1 Արտադրողականություն
Latency: p50/p95/p99, պոչերը, «cold-start»։
Throughput: wwww.gs/s, tx/s, GB/s (DA/պահեստ), RPS (API)։
Availability: SLO հաջողությունը, Time-Utes/retraev մասը։
Ordering & Exactly-Once: out-of-order %, duplicate ratio.
2. 2 Կայունություն և կայունություն
SLA-Brack/1k իրադարձություններ, MTBF/MTTR, QoS-ի դեգրադացիա։
Backpressure-արդյունավետությունը 'աճի ժամանակ։
2. 3 Անվտանգություն
Ամբողջականության/գողության հանցագործները (bridge, x-domain)։
/ հեղինակային որակը 'մերժված/կեղծ թույլատրությունների մասը։
Անտի ֆրոդը 'TPR/FPR վարքագծային մոդելներ։
2. 4 Տնտեսագիտություն
Cost-to-Serve/հարցում, մարջա/հաղորդագրություն, եկամուտ/bit DA։
Ռեսուրսների արդյունավետությունը 'CPU/GPU-util, IOPS/GB, egress/հարցում։
Արդարություն '«disisy neighbor» ինդեքսը, քվոտաների բաշխումը։
2. 5.1.1 և գործընթացներ
Պարամետրային փոխակերպման արագությունը, անպատասխանատու ածխաջրածինների հաջողությունը,
վերամշակման ժամանակը, ձայների մասնաբաժինը R-փոփոխիչի հետ։
3) Պրոֆիլները և QoS դասարանները
Q4 (քննադատական թիմեր) 'փոքր հաղորդագրություններ, խիստ dedlines։
Q3 (պատվիրված հոսքերը) 'բանալիներ-կուսակցության, կարգի երաշխիք։
Q2 (exactly-once արդյունավետ) 'idempotention + dedup։
Q1 (at-least-once) 'հեռուստացույց, զանգվածային իրադարձություններ։
Յուրաքանչյուր դասարանի համար մենք տալիս ենք ստանդարտ պրոֆիլներ 'հաղորդագրությունների չափը, հաճախականությունը, սինխրոն/ասինխրոն զանգերի մասնաբաժինը, սպայիկները (burst), հարաբերակցությունները։
4) Ստանդարտ սցենարները (Bench Suite)
1. Messaging Core: 1→N и N→1; RPS աճը մինչև հագեցվածությունը; չափումը p95 և duplicate ratio։
2. API Low-Latency: Ընթերցանության/ձայնագրությունների խառնուրդ, սառը/տաք քեշը, լիմիտները և քայքայումը։
3. DA/International: Հրատարակությունների, Troughput/GB և վերջնական։
4. X-Domain/Bridge: Ապացույցներ, վերջնական, challenge ժամանակահատվածներ, կորուստներ/կրճատումներ։
5. ML-Inference Edge-ը 'լատինականությունը/POP-ի վրա, դեգրադացիան ծանրաբեռնվածության ժամանակ։
6. Batch & Stream: ETL պատուհանները, սպառողների ճամբարները, backpressure արդյունավետությունը։
7. System & Abuse: սինթետիկ ֆրոդ-պաթթերներ, որոնք տեղադրված են հակաֆրոդի, FPR/TPR-ի վրա։
8. Failover/Chaos: AZ/Pull անջատումը, stop-rins, SLO փաթեթավորման ժամանակը։
5) Մեթոդաբանություն
5. 1 Կրկնօրինակելիություն
Սխեմաների արձանագրված տարբերակները/MSK/wings; «seeded» բեռի գեներատորները։
Warm-up 35N րոպե; չափումները կայուն բանաձևում MM րոպե։
Ուղու միջոցով (trace/210) և լոգարանների հարաբերակցությունը։
5. 2 Ազնվություն և հակամարմիններ
Setup փուլերի բաժանումը և blind-run (բեռի թաքնված պրոֆիլը)։
Թաքնված վերահսկողական առաջադրանքները (ստուգել քեշի «թեքումը »/հատուկ օպտիմիզացիա ազդանշանների վրա)։
Սև թեստերի հավաքածու 'անսպասելի դաշտեր, միկրոսպլեսներ, «հազվագյուտ» չափեր։
5. 3 Բանաձևը
SuccessRate = 1 − (timeouts + errors)/requests
TailAmplification = p99/p50, Headroom = (cap − current)/cap
Cost/Req = System (ռեսուրս )/հաջողակ _ հարցումներ
FairnessIndex (Jain) քվոտաների/շերտերի համար։
6) SLO և ստանդարտ նպատակներ (ուղեցույցներ)
Q4 API: p95-200 ms, 4999 հաջողությունը։ 99%, սխալներ 241/10 ռուբլիներ։
Draging Q3 'խախտումը 10 հազար ռուբլիներ/105, p95 35500 մզ։
DA հրատարակություններ 'եզրափակիչ 243 T _ block, Throughput 24X GB/2019
Bridge: Կեղծ ապացույցներ = 0; MTTR anomalia 241
Stream: lag ≤ 2×window; drop = 0 կրիտիկական տոպիկների համար։
Batch: պատուհանի ջոբները տեղադրվում են T _ 112-ում '20 տոկոսով։
7) Արտեֆակտները և զեկույցի ձևաչափը
Պրոգոնի անձնագիր 'վարկածներ, գենդեր, ամսաթիվը/ժամանակը, գեոն։
Գրաֆիկները ՝ latency (pXX), throughput, lagi, ռեսուրս-հեռացում։
SLO-2019 աղյուսակները 'pass/fail + դելտա ստանդարտին։
Կապիտալ ռեգրեսիա 'ցուցակ RCA-ից և ֆիքսի պլանից։
Տնտեսությունը 'Cost-to-Serve, մարջա/հաղորդագրություն, hotspot-2019։
Եզրակացությունը '«Պատրաստ եմ վերանորոգման/Թյունինգ/Բլոկեր» կարգավիճակը։
8) Փոխհարաբերությունները և սահմանները
Եթե TailAmplif.ru-ն աճում է ռուսական մեքենայով, մենք իջեցնում ենք քվոտաները կամ բարձրացնում ենք «աղմկոտ» վարձողների գինը։
SLA-Bracks-ը կորցնում է վարձատրությունների (սլեշինգի) մասնաբաժինը մինչև վերականգնումը։
Կայուն որակով ալգորիթմները ստանում են կրճատված take-rate (որակի բոնուս)։
9) Բենչարքերի դիտարկումը
Բեռի բոլոր հարցումների միջոցով։
DLQ/Replay-ը ձախողված իրադարձությունների համար և գաղափարախոսության ապացույցը։
Дашборды: BenchRun Live, Tail Heatmap, Backpressure Monitor, Bridge Risk, DA Throughput.
10) Իներցիայի գործընթացները
Pre-releensgate: Թողարկումը հնարավոր է միայն «SLO _ pass> = pro» և անվտանգության բլոկների բացակայությամբ։
Change Impact: Յուրաքանչյուր կարևոր կազմաձևը/տարբերակը անցնում է կարճ «smoke-bench»։
Sunset-SLO 'օդաչուների ժամանակավորապես ավելացված պահանջները։ ավտոբուսային արձագանքը ժամանակի ընթացքում։
Քվեների փոփոխող 'չափման մասին վեճերում ավելի մեծ քաշը մասնակիցների մոտ բարձր R-հեղինակությամբ։
11) Պլեյբուկը պատրաստելու բենչարկներ
1. Պահանջների հավաքումը 'կրիտիկական տրակտի շղթաներ, QoS դասարաններ, բիզնես-SLO դասարաններ։
2. Կոմպոզիայի դիզայնը 'հաղորդագրությունների չափսերը, R/W միկսը, աճը, x-domain մասը։
3. Բեռի գործիքները 'գեներատորներ, տվյալների ֆիքսուրներ, սինթետիկ ֆրոդ պաթթերներ։
4. Դիտարկումը 'հետքեր, չափումներ, քաղաքականության լոգներ, սխալների բյուջե։
5. Ստանդարտ նպատակները 'SLO, տնտեսական շեմերը, fairness միջանցքները։
6. Փորձնական պրոգոն 'տրամաչափություն, նեղ տեղերի հայտնաբերում, ֆիքսում։
7. Կարգավորումը 'nightly/weekly benci + հաշվետվությունները գանձարանում/www.ru։
8. Միջադեպերը 'chaos-2019, post-mortemes, թեստերի նորարարություն։
12) Anti-gameging և էթիկա 2019
Արգելքը «հատուկ օպտիմիզացումներ բենչայի ազդանշանի տակ» առանց իրական պրոդ-կոդավորման բարելավման։
Կույր բեռներ, պատահական աղմկոտ պարամետրեր, վերահսկողական իրադարձություններ։
Հանրային զեկույցները բանակի հետ. Նախկին հանձնաժողովը վիճելի դեպքերի համար։
13) Տիպիկ «կարմիր դրոշներ»
p95 կայուն նորմալ է, բայց p99։ 9 կտրուկ աճում է ռեսուրսների համար թաքնված մրցակցությունը։
Throughput-ը բարձր է, բայց duplicate ratio-ը սխալ է։
Լավ լատենտ, բայց Cost/Req-ը չի համընկնում քրոսային կախվածության/կրկնակի ձայնագրությունների հետ։
Ցածր lag, բայց DLQ depth-ն աճում է ռետրերում/կարանտինայում։
14) KPI բենչմարկինգի ծրագիրը
Ծածկույթը 'կրիտիկական ճանապարհների մասնաբաժինը էքսպորտային վառարաններով X տոկոսն է։
Ժամանակացույցը 'գրառումից հետո Y- ի զեկույցը։
Որակը 'ռեգրեսիայի քանակը, որոնք բռնված են մինչև prod-2019; միջին դելտա SLO ֆիքսից հետո։
Տնտեսությունը 'Cost-to-Serve/հարցումը և աղմկոտ հարևանների թիվը։
210: ռեցեսիայի վրա ռեակցիաների արագությունը; թափանցիկությունը։
15) Chek-Show-Show-Tra
- Ամրագրված են բեռի և QoS դասարանների պրոֆիլները։
- Տեղադրված են հետքեր, մետրեր, DLQ/Replay
- Որոշված SLO/շեմի արժեքներ և միջանցքներ fairness
- Ներառում է հակա-խաղային պաշտպանություն և «կույր» թեստեր
- Զեկույցի ձևաչափը և ելքային գեյթի գործընթացը []
- Կատարվում են պարամետրեր (nightly/weekly)
- Ինտեգրված chaos/failover բլոկը
- Հանրային փոստի մորտեմներ և թեստերի բարելավում ըստ արդյունքների
16) Գլոսարիա
Bench Suite 'ստանդարտ պարամետրերի և բեռների հավաքածու։
TailAmplif.ru: p99/p50 հարաբերությունը (պոչի ուժը)։
FairnessIndex (Jain): ռեսուրսների բաշխման հավասարության մետր։
DLQ/Replay: կարանտինը և իրադարձությունների վերարտադրումը։
SLO/SLA ՝ ռուսական մակարդակները/պայմանագրային երաշխիքները։
Blind-run: թաքնված պրոտոն հակա-գիմինգի դեմ։
Արդյունքն այն է, որ ընդհանուր բենզալցակայանները ցանցի արտադրողականությունն ու կայունությունը վերածում են կառավարվող պարամետրերի, միացնելով տեխնիկան, իներցիայի տնտեսությունը։ Ստանդարտացված սցենարները, թափանցիկ զեկույցները և անտի-խաղային քաղաքականությունը ապահովում են արդյունքների համեմատությունը, մասնակիցների վստահությունը և էկոհամակարգի էվոլյուցիան առանց գուշակության և «մոգության»։