优化铁和资源

简短摘要

优化不是"加快速度"，而是平衡性能↔成本↔可靠性↔能源。基本步骤：测量SLI/SLO和配置文件,找到瓶颈,"正确尺寸"功率,自动缩放,并在图像/图表/策略中巩固改进。

目标和原则

从UX到铁：从SLO开始（p95 latency，操作成功）→寻找有限资源。
正确大小（rightsizing）：资源和实例类型以负载为特征。
缓存和接近：减少对存储和网络的"昂贵"徒步旅行。
自动化：自动化，生命周期策略，IaC。
可观察性："四个信号"度量，CPU/alloc配置文件，跟踪。
安全=性能：mTLS/签名/限制-在可能的情况下进行硬件加速。

CPU和计划

任务：最大限度地减少扭曲和缓存错误，考虑NUMA和中断。

NUMA意识：通过节点（"numactl -cpunodebind -membind"）进行打孔，对于DB/经纪人，在节点上进行固定。
IRQ/softirq：分布内核（RSS/RPS），在CPU后面固定热队列，而无需与窃听者竞争。
超线程：对于"潜伏敏感"，将窃贼固定在物理核上。
上下文卷轴：通过排长队/战斗机/象鼻虫减少。
编译器/JIT：启用PGO/LTO（C/C++），Graal/HotSpot配置文件（Java），"GOMAXPROCS"和操作员分配（Go）。

Linux调谐示例（片段）：

bash
IRQ affinity: bind NIC queue to specific CPU echo 2 >/ proc/irq/XX/smp_affinity # kernel mask
Softirq balance on sysctl -w net network cores. core. netdev_budget=600 sysctl -w net. core. netdev_max_backlog=5000

记忆和变异管理

THP/HugePages：对于JVM/DB,通常禁用THP并手动使用hugepages（减少TLB错误）。
NUMA平衡：对于stateful-将内存固定在本地节点上。

GC/allocator:

JVM：G1/ZGC，"-Xms=-Xmx"相等，合理的"MaxGCPauseMillis"。
Go："GOGC"（从100-200开始），避免多余的变异，"pprof"配置文件。
Python：使用"uvloop"、"asyncio"、C扩展、连接池。
Swap/zswap：对于关键服务，通常在销售中脱节；在通用节点上，zswap用于"软"负载。

存储和I/O

驱动器类型：热路径下的NVMe，用于逻辑/支票/节奏的单独池。
FS：大型文件/DB日志的XFS；ext4适用于小/通用。
RAID/EC：低延迟RAID10，RAID6/EC冷数据。
I/O计划程序：NVMe的"none"/"mq-deadline"。
Async/Batch：分组记录,使用Write-Behind/Group-Commit。

fio用于评估（示例）：

bash fio --name=randread --filename=/data/test --size=20G --bs=4k \
--iodepth=64 --rw=randread --ioengine=libaio --numjobs=4 --time_based --runtime=60

网络

MTU和offload： 9000 MTU在数据中心（如果端到端）,在允许的地方启用GRO/LRO。
RSS/RPS/RFS：NIC上的多通道队列，内核分布；irqbalance-控制。
SO_REUSEPORT：可扩展的listen套接字,内核分布。
客户端taymauts和pullings：短的TCP-keepalive,开放连接极限,backpressure。
TLS: TLS 1.3、AES-NI硬件指令、会话恢复、OCSP稳定。

网络调音（片段）：

bash sysctl -w net. core. rmem_max=268435456 sysctl -w net. core. wmem_max=268435456 sysctl -w net. ipv4. tcp_rmem="4096 87380 134217728"
sysctl -w net. ipv4. tcp_wmem="4096 65536 134217728"

GPU/FPGA/SmartNIC（酌情）

GPU：防冻地狱，建议，CV；跟随"util"，"mem"，"sm_efficiency"。
SmartNIC/eBPF/DPDK：卸载L4/L7，过滤和遥测，而无需过渡到内核。
Energoprofili：将频率固定为稳定的潜伏期；避免激进的电源保存。

应用程序和RSUBD

连接池：限制"max_conns",应用连接池（PgBouncer/Hikari）。
索引/调度程序：EXPLAIN/ANALYZE配置文件,涵盖索引,分期。
缓存：redis/in进程缓存，用于静态的CDN，用于"热"API的边缘缓存。
等效性和队列：避免退缩级联，包括退缩。
Gzip/Brotli：根据CPU成本压缩响应；选择平衡。

容器和Kubernetes

Requests/Limits и bin-packing

Requests="保证"，Limits="天花板"。CPU限制不正确→ throttling和p99。
考虑爆破负荷（锦标赛/比赛高峰）-p95的股票。
Bin-packing：拆分节点池（latency-crit, batch, GPU, spot）。使用拓扑（anti-affinity, spread）。

自动缩放

HPA的定制度量（RPS/p95而不是CPU）。
VPA用于"长寿"和"非高峰"蠕虫。
Cluster Autoscaler+单独的节点组（点播/点）。
事件负载（队列，Kafka，cron）的KEDA。

规划师和经理

CPU Manager："静态"将完整的内核固定在关键的后端。
Topology Manager：与NUMA对齐。
HugePages/设备插件：用于DB/低潜伏期和 GPU/FPGA。

HPA的示例（通过度量适配器进行变量）：

yaml apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: { name: api-gw }
spec:
scaleTargetRef:
apiVersion: apps/v1 kind: Deployment name: api-gw minReplicas: 6 maxReplicas: 60 metrics:
- type: Pods pods:
metric:
name: http_latency_p95_ms target:
type: AverageValue averageValue: 120

FinOps和成本

电价配置文件：选择CPU/RAM/驱动器/网络（计算优化、内存优化、存储优化）实例。
Spot/Preemptible：用于多重冗余的击球/铲球/腰果。
保留/节省："永久"部分的1-3年储备。
热/冷：分层存储，存档对象，重新登录。
Idle resource：夜间/周末停止非关键环境。

能源效率（GreenOps）

Power profiles： performance vs balanced by services。
合并放置：在"冷"时刻密封,关闭未使用的节点。
KPI：每请求瓦,p95/瓦,提供商的CO₂度。

可观察性和测试

Метрики: CPU steal/throttle, `cycles/instructions`, LLC miss, RSS/working set, page faults, disk lat p95/99, NIC drops, retransmits.

Tracing："黄金路径"的分布式路径。
剖析：eBPF/Perf/Flamegraphs，"pprof"/YourKit/JFR。
载荷测试：SLO导向，具有真实的mix操作，"预热"阶段，故障注射。

PromQL（想法）：

promql
CPU throttling доля sum(rate(container_cpu_cfs_throttled_seconds_total[5m])) by (pod)
/ sum(rate(container_cpu_usage_seconds_total[5m])) by (pod)

Network loss sum (rate (node_net_dropped_total[5m])) by (instance)

优化检查表

定义了SLO和"黄金路径"（API/付款/付款）。
收集了CPU/alloc/IO/网络配置文件,找到了顶部N瓶颈。
NUMA/IRQ/RSS配置为后置关键节点。
THP off（如有必要）,hugepages for DB/Java服务。
NVMe热数据,XFS/IO-sched配置,fio-bench已确认。
网络堆栈：MTU，RPS/RFS，SO_REUSEPORT；taymauts/池。
Kubernetes：要求正确,极限不扼杀,HPA按业务指标,VPA/CA包括在内。
"昂贵"路径上的缓存和CDN；Redis/edge缓存。
FinOps：权利/储备/点池；停止中间环境。
CI中的性能自动测试,p95/p99上的回归。

iGaming/fintech的细节

赛程高峰：锦标赛/比赛/促销活动→"弹性"前排池，预热缓存/CDN，HPA RPS/潜伏期。
付款和付款：单独的"黄金"IP/域，优先排队，资源隔离（taints/tolerations），基地准备金。
Antibot/antifrod：重型模型-在GPU制造商上；在线得分≤ 50 ms p95；Fichs缓存。
调节：不变的逻辑和加密不应打破SLO-包括硬件加速和异步管道。

迷你花花公子

发布后↑潜伏期：

1.钻探burn-rate SLO；2）"cpu/alloc"配置文件；3）回滚/失误；4）增加副本/API缓存；5）RCA和测试固定。

高峰负荷（比赛/锦标赛）：

1.加热CDN/缓存；2）提高minReplicas；3）包括爆破限制；4）排队；5）为次要功能启用仅读模式。

典型的错误

极限CPU"窒息"高峰绒毛→高p99。
不正确的节点池：溷合latency关键和击球。
DB/经纪人上没有 NUMA/IRQ设置。
"治疗症状"（我们添加CPU）而不是修复算法/缓存/SQL。
CPU的HPA而不是RPS/latency →迟到。
CI中没有性能测试→销售回归。

底线

优化是系统操作：测量SLI/SLO、分析、校正算法、调整铁（NUMA/IRQ/IO/网络）、"正确尺寸"资源并自动缩放。确保模板的改进（图像、图表、策略），控制成本和能源-您的平台即使在极端高峰期也能保持快速、经济和可持续。