ნაერთების აუზები და ლატენტობა

ნაერთების და ლატენტობის აუზები

1) რატომ არის საჭირო აუზები

ნაერთები ძვირია (TCP/TLS handshakes, ავთენტიფიკაცია, warm-up). აუზი საშუალებას გაძლევთ:

მზა კონექტორების (keep-alive) გამოყენება TTFB- ის ქვემოთ არის.
გააკონტროლეთ პარალელიზმი და მიეცით backpressure, ნაცვლად retray- ის ზვავის ნაცვლად.
შეამცირეთ p95/p99 კუდები სწორი ზომისა და ტაიმაუტის გამო.

ძირითადი რისკები: ლოდინის ხაზები აუზში, head-of-line ბლოკინგი, კონტეინერებისა და ქარიშხლების ქარიშხალი.

2) მათემატიკის ბაზა: როგორ გავითვალისწინოთ აუზის ზომა

Little კანონის გამოყენებით: 'L = WW'. აუზისთვის ეს ნიშნავს:

'with' არის მოთხოვნის საშუალო ნაკადი (RPS).
'W' არის საშუალო დასაქმება მოთხოვნაზე (მომსახურების დრო, ქსელის ლატენტობის ჩათვლით და დისტანციური სერვისის ჩათვლით).
ტყვიის მინიმალური ზომაა: 'N _ min - × W'.
დაამატეთ მარაგი ვარიაციებისთვის და p99: headroom 20-50%.
მაგალითი: 300 RPS, საშუალო hold-time 40 ms - 'N _ min = 300 × 0. 04 = 12`. 50% -იანი ზღვარით 18 კონექტი.

თუ კუდები დიდია: გაითვალისწინეთ 'W _ p95' ან 'W _ p99 "კრიტიკული ბილიკებისთვის - აუზები იზრდება.

3) დიზაინის ზოგადი პრინციპები

1. მონაცემთა მოკლე გზა: reuse (keep-alive, HTTP/2/3 მულტიპლექსაცია).
2. პარალელიზმის შეზღუდვა: უმჯობესია უარი თქვათ სწრაფად (429/503), ვიდრე ზურგჩანთა.
3. Taimauts> retrai: გამოავლინეთ მცირე Taimauts და იშვიათი retrais ერთად jitter.
4. კლიენტის ხაზები უფრო მოკლეა, ვიდრე სერვერი (სწრაფი fail fast).
5. Backpressure: როდესაც აუზი სავსეა - დაუყოვნებლივ NACK/შეცდომა/კოლბეკი „მოგვიანებით“.
6. სამიზნეების ტყვიების იზოლაცია: DB, ქეში, გარე PSP - საკუთარი ლიმიტები.

4) HTTP/1. 1 vs HTTP/2/3, keep-alive

HTTP/1. 1: კონექტორის ერთი მოთხოვნა ერთდროულად (პრაქტიკულად); თქვენ გჭირდებათ აუზი რამდენიმე კონექტით მასპინძელზე.
HTTP/2: ნაკადების მულტიპლექსირება ერთ TCP- ში; ნაკლები კონექტორი, მაგრამ შესაძლებელია HOL-blocking TCP- ზე პაკეტების დაკარგვით.
HTTP/3 (QUIC): ნაკადის დამოუკიდებლობა UDP- ზე ნაკლებია, ვიდრე HOL პრობლემები, უფრო სწრაფად, ვიდრე პირველი ბაიტი.

პარამეტრები, რომლებიც ხელს უწყობს:

keep-alive timeout 30-90s (პროფილის მიხედვით), კონექტორის მოთხოვნის ლიმიტი (graceful recycle).
ვორკერის დაწყებისას წინასწარ დათბობა.
შეზღუდვა მაქსზე. ნაკადები HTTP/2 (მაგალითად, 100-200).

NGINX (upstream keepalive):

nginx upstream backend {
server app-1:8080;
server app-2:8080;
keepalive 512;
keepalive_requests 1000;
keepalive_timeout 60s;
}
proxy_http_version 1. 1;
proxy_set_header Connection "";

Envoy (HTTP/2 pool):

yaml http2_protocol_options:
max_concurrent_streams: 200 common_http_protocol_options:
idle_timeout: 60s max_connection_duration: 3600s

5) BD აუზები: PgBouncer, HikariCP, დრაივერები

მიზანია კონკურენციის შეზღუდვა და მოკლე კონექტორის შენარჩუნება.

5. 1 PgBouncer (PostgreSQL)

რეჟიმები: 'session '/' transaction '/' stutement'. API- სთვის - უფრო ხშირად გადასვლა.
მნიშვნელოვანი პარამეტრები: 'pool _ size', 'min _ pool _ size', 'reserve _ pool _ size', 'server _ idle _ timeout', 'query _ wait _ timeout'.

ini
[databases]
appdb = host=pg-primary port=5432 dbname=appdb

[pgbouncer]
pool_mode = transaction max_client_conn = 5000 default_pool_size = 100 min_pool_size = 20 reserve_pool_size = 20 query_wait_timeout = 500ms server_idle_timeout = 60 server_reset_query = DISCARD ALL

5. 2 HikariCP (Java)

მცირე, სწრაფი კონექტორები, მძიმე ტაიმაუტები.

properties dataSourceClassName=org. postgresql. ds. PGSimpleDataSource maximumPoolSize=30 minimumIdle=5 connectionTimeout=250 validationTimeout=200 idleTimeout=30000 maxLifetime=1800000 leakDetectionThreshold=5000

წესები:

`maximumPoolSize ≈ RPS × W × headroom`.
'EctionTimeout' ასობით მილიწამი, არა წამი.
ჩართეთ leak detection.

5. 3 Go/Node/Python - მაგალითები

Go http. Client (reuse + timeouts):

go tr:= &http. Transport{
MaxIdleConns:    512,
MaxIdleConnsPerHost: 128,
IdleConnTimeout:   60 time. Second,
TLSHandshakeTimeout: 2 time. Second,
}
c:= &http. Client{
Transport: tr,
Timeout:  2 time. Second ,//general
}

Node. js keep-alive აგენტი:

js const http = require('http');
const agent = new http. Agent({ keepAlive: true, maxSockets: 200, maxFreeSockets: 64, timeout: 60000 });

psycopg / SQLAlchemy (Python):

python engine = create_engine(
url, pool_size=30, max_overflow=10, pool_recycle=1800, pool_pre_ping=True, pool_timeout=0. 25
)

6) მოლოდინის ხაზები და tail-latence

კუდები წარმოიქმნება, როდესაც:

აუზი ნაკლებია, ვიდრე 'WW' - ის მოლოდინის ხაზი იზრდება.
დატვირთვის არათანმიმდევრულობა ბუფერისა და ლიმიტის გარეშე.
გრძელი მოთხოვნები იკავებს კონექტორს და ქმნის HOL- ს.

კონტრშეტევა:

გამოყავით აუზები მოთხოვნის ტიპების მიხედვით (სწრაფი/ნელი).
შემოიღეთ client-side მოლოდინის დრო. თუ ამოიწურება, სწრაფი NACK.
Outlier detection და circuit-breaking მარშრუტებზე (Envoy, HAProxy).
კვოტები „მძიმე“ მარშრუტებისთვის, ცალკეული აუზი მოხსენებების/ექსპორტისთვის.

Envoy circuit breaker (მაგალითი):

yaml circuit_breakers:
thresholds:
- priority: DEFAULT max_connections: 200 max_pending_requests: 100 max_requests: 1000 max_retries: 2

7) Taimauty and retrai (სწორი შეკვეთა)

1. Connect Timeout (მოკლე: 50-250 ms DC- ს შიგნით).
2. TLS handshake timeout (500–1000 ms вне DC).
3. Request/Read Timeout (უფრო ახლოს SLO მარშრუტთან).
4. Retry: მაქსიმუმ 1 ჯერ, მხოლოდ idempotent მეთოდებისთვის; ჯიტერი + backoff.
5. ბუდეტი რელიეფზე: გლობალური პროცენტული ზღვარი RPS- დან (მაგალითად, 10%).

8) Keep-alive, Nagle, ოქმები

გამორთეთ Nagle (TCP _ NODELAY) RPC- სთვის მცირე შეტყობინებებით.
ჩართეთ HTTP keep-alive ყველგან, სადაც შესაძლებელია.
დააკვირდით TIME _ WAIT - tune 'reuse '/' recycle' მხოლოდ იმ შემთხვევაში, თუ გესმით შედეგები; უკეთესია - connects rouse და არა ბირთვის tuning.
TLS: გამოიყენეთ session resumption და ALPN.

9) OS/Kernel tuning (სიფრთხილით)

`net. core. somaxconn`, `net. ipv4. ip_local_port_range`, `net. ipv4. tcp_fin_timeout`.
აღწერილობა: 'nofile' 64k მარიონეტული პროცესისთვის.
IRQ, GRO/LRO ბალანსი - ტრაფიკის პროფილის მიხედვით.
პრიორიტეტი - პროფილი; მეტრიკის გარეშე tuning ხშირად საზიანოა.

10) დაკვირვება: რა გაზომოთ

Pool utilization: დასაქმებულია/სულ, p50/p95 კონექტორის მოლოდინი.
ფრენის მოთხოვნებში და მათი hold დრო (მარშრუტების მონაკვეთები).
Error budget რეაგირება: გამეორებების წილი.
კავშირი churn: შექმნა/დახურვა წამში.
TCP/TLS: SYN RTT, handshakes, session reuse.
Для БД: active connections, waiting, long transactions, locks.

Графики: «RPS vs pool wait», «hold-time distribution», «reuse ratio», «circuit trips».

11) კეისის რეცეპტები

11. 1 API კარიბჭე

HTTP/2 ზურგჩანთებისთვის, 'max _ concurrent _ streams = 200'.
20-40 კონექტორის აუზი მომსახურებისთვის კარიბჭის განყოფილებაში.
Taimauts: კავშირი 100ms, per-try 300-500ms, საერთო 1-2s, 1 retry ერთად ჯიტერი.

11. 2 მომსახურება PostgreSQL საშუალებით PgBouncer

'pool _ mode = transaction', 'defool _ pool _ size' ფორმულის მიხედვით (RPS × W × 1. 3).
დანართში 'ConnectImeout' 250ms ', მოკლე გარიგებები (<100ms).
მძიმე საანგარიშო მოთხოვნები - ცალკე აუზი/რეპლიკა.

11. 3 GRPC შიდა

ერთი არხი (HTTP/2) სამიზნე მასპინძელზე, 100-200 ნაკადის ლიმიტით.
Deadline RPC- ზე SLO მარშრუტზე, retray მხოლოდ idempotent.
ტრეისების სიმრავლე გრძელი RPC- სთვის და hold time- ისთვის.

12) განხორციელების სიის სია (0-30 დღე)

0-7 დღე

გაზომეთ 'W' (ჰოლდინგის დრო) საკვანძო მარშრუტებზე/კლიენტებზე.
გამოთვალეთ 'N _ min = fin × W' და დაამატეთ 30-50% headroom.
ჩართეთ keep-alive და მოკლე Timauts Lone.

8-20 დღე

გამოყავით აუზები (სწრაფი/ნელი/გარე).
შეიყვანეთ circuit-breakers და budgets retrais.
დაამატეთ დაშბორდები: აუზი wait p95, rause ratio, in-flight.

21-30 დღე

ბურგერებთან დატვირთვით გადახურვები, ქაოსის ტესტი „ზურგჩანთა ვარდნა“.
კუდის ოპტიმიზაცია: მძიმე მარშრუტების იზოლაცია, ადგილობრივი ქეში.
აღწერეთ ფორმულები და შეზღუდვები runbook 'ax- ში.

13) ანტი შაბლონები

აუზის „ნაუგადის“ ზომა და headroom- ის არარსებობა.
კონექტის ლოდინის დიდი ტაიმაუტები გრძელი კუდებია სწრაფი წარუმატებლობის ნაცვლად.
ბევრი რეაგირება ჯიტერის და იდემპოტენტობის გარეშე - ქარიშხალი.
ერთი საერთო აუზი ყველა ტიპის მოთხოვნისთვის.
გრძელი გარიგებები ინახავს კონექტორს (DB) და დანარჩენებს.
გამორთული keep-alive ან ძალიან მცირე idle-churn ლიმიტები და TTFB ზრდა.

14) სიმწიფის მეტრიკა

Pool wait p95 იყიდება მთლიანი p95 მარშრუტის <10%.
Reuse ratio (> 90% შიდა HTTP;> 80% გარე).
DB txn time p95 < 100–200 ms; გრძელი გარიგების წილი <1%.
Retry rate <5% (და budget), Timeouts- ის შეცდომები სტაბილური და პროგნოზირებადია.
აუზის დოკუმენტირებული გაანგარიშება ყველა კრიტიკული მომხმარებლისთვის.

15) დასკვნა

ეფექტური კომუნიკაცია არის ტაიმუთის + დისციპლინის რიგების ინჟინერია. გაზომეთ 'W' - ით, გამოთვალეთ აუზი 'WW' ზღვარი, ჩართეთ keep-alive/HTTP2 +, გამოყავით ნელი ბილიკები, შეინარჩუნეთ მოკლე Timauts და მინიმალური retrais ჯიტერით. დაამატეთ დაკვირვება „pool wait vs latence“ და circuit-breakers - და მიიღებთ დაბალ TTFB- ს, კონტროლირებად p99 კუდს და ვარდნის წინააღმდეგობას ზურგჩანთების გადახურების გარეშე.

ნაერთების აუზები და ლატენტობა

ნაერთების და ლატენტობის აუზები

8-20 დღე

21-30 დღე

დაგვიკავშირდით

სწრაფი კავშირი

ვიდეო მალე განახლდება

ჩვენ ახლა ძალიან დაკავებული ვართ პროექტებით