網絡拓撲和路由
簡短摘要
網絡圍繞三個支柱構建:拓撲,分段,路由。現代工廠是帶有ECMP的Leaf-Spine(胖樹),用於L2擴展的overlay VXLAN/EVPN和BGP作為「通用膠水」。正確設置的延遲/損失SLO,QoS和快速失敗使行為在峰值RPS下可預測。
基本拓撲模型
Core/Distribution/Access(經典)
優點:易於理解,適合小型網絡/辦公室。
缺點:Core上的「瓶頸」,比水平縮放更糟糕。
Leaf-Spine (fat-tree, CLOS)
Spine是幹線,Leaf是服務器的環形交換機。
所有Leaf都連接到所有Spine → ECMP和可預測的延遲。
縮放-添加Leaf/Spine而不重構地址計劃。
Ring/Mesh/Star
點數使用(PoP,校園)。對於DC-有限。
建議:針對數據中心和主要地點-Leaf-Spine。對於分支機構/辦公室-簡化的Core/Access+SD-WAN。
分段和地址空間
VLAN-L2分段(廣播域)。
VRF-L3分段(多範圍,dev/stg/prod)。
IPAM/總和:計劃每個服務/區域的'/24'區塊,匯總為'/20'及以上,用於簡單的路線策略。
雙堆棧:IPv4+IPv6,SLAAC/DHCPv6,RA守衛,前綴策略。
Overlay/Underlay: VXLAN/EVPN
Underlay:帶有iBGP/OSPF/IS-IS的IP工廠(Leaf-Spine)。
Overlay:VXLAN在L3之上攜帶L2;EVPN(BGP)是MAC/IP路由的控制平板,通過VNI/VRF具有多重性。
優點:L2拉伸沒有STP,快速收斂,集中策略。
- Leaf是具有VTEP-IP背面的VTEP。
- Spine — route-reflector для EVPN.
- EVPN路由類型(MAC/IP,IMET,L3相互作用)提供ARP引導和比例。
路由協議和角色
IGP(域內)
OSPF/IS-IS:快速收斂、簡單度量。對underlay有好處。
iBGP:在IGP之上或不在IGP之上(BGP只有fabric),帶有route-reflector'ami。
EGP(跨域)
eBGP:與提供商/PSP/CDN同行,社區政策/LP/AS-Path。
Anycast:多個PoP上的IP相同,路由「到最近」(公告上的BGP+健康檢查)。
ECMP и fast-failover
ECMP在均等路徑之間分配線程。
註意flow-hash (5-tuple),避免靜態中框的不對稱性。
用於快速切換的BFD/fast-hellos(<1 c)。
路由策略(TE)
LocalPref/Med/AS-Path是aplink的選擇。
社區-為差異化解決方案調低流量(prod/stg、支付PSP、CDN)。
Blackhole/Sinkhole是針對攻擊的快速「黑洞」/32。
uRPF/RTBH是與提供商的反欺騙和遠程黑洞。
辦公室連通性↔ DC/Cloud
SD-WAN:動態鏈路選擇(MPLS/INTERP/LTE),加密,操作前策略。
MPLS L3VPN:站點之間的隔離VRF,確定性延遲。
IPSec/GRE over IPSec/WireGuard:快速啟動,但規劃MTU/Fragmentation和QoS。
NAT、CGNAT和上線
NAT44/NAT66(很少)和NPTv6。對於支付集成,存儲源IP池和白名單。
egress平衡:ECMP後面的多個NAT網關,哈希粘貼。
Hairpin/基於 Policy-Routing-用於DMZ/檢查細節。
QoS和流量類
類:real-time (VoIP/exchange fids), interactive (API), bulk (becaps/ETL)。
Marking (DSCP), policing/shaping, LLQ/WRR.
API保護/付款-具有最低延遲保證的專用類;bulk限制在pic中。
路由安全
BGP:提供商的TTL安全,max-prefix,RPKI(路線起源驗證)。
IGP:鄰居身份驗證(HMAC),管理平面隔離(OOB)。
細分:用於「支付」,「運營商」,「公共」區域的VRF;VRF之間的ACL僅通過所需的端口。
Anycast服務:降級時健康→ withdraw公告。
可觀察性和SLO
SLO(示例)
在數據中心內部: RTT p 95 ≤ 200-300 μ s,損失≤ 0。01%.
跨站點(L3VPN/SD-WAN): RTT p95 ≤ X ms(根據您的配置文件),損失≤ 0。1%.
故障收斂:≤ 1 c (IGP/BFD), ≤ 5 c (eBGP)。
度量
交換機上的「RTT」,「loss」,「jitter」,「ECMP entropy」,「BFD state」,「BGP prefixes/changes」,「CPU/TCAM」,填充QoS隊列。
Active probing: IP-SLA/SmokePing, QoS per-class。
流量遙測:用於流量和DDoS配置文件的sFlow/NetFlow/IPFIX。
模板(片段)
FRR (BGP underlay + EVPN)
conf router bgp 65000 bgp router-id 10. 0. 0. 1 neighbor SPINE peer-group neighbor SPINE remote-as 65000 neighbor 10. 0. 0. 11 peer-group SPINE neighbor 10. 0. 0. 12 peer-group SPINE
!
address-family l2vpn evpn neighbor SPINE activate advertise-all-vni exit-address-family
!
interface lo ip address 10. 0. 0. 1/32
Linux (ECMP egress)
bash ip route add 0. 0. 0. 0/0 \
nexthop via 203. 0. 113. 1 weight 1 \
nexthop via 203. 0. 113. 2 weight 1
鄰居BFD(思科樣式,概念)
bfd interval 50 min_rx 50 multiplier 5 interface Po1 bfd echo ip ospf network point-to-point
操作和DR
變更控制:分階段引入(單個Leaf/Spine),金絲雀單個VNI/VRF。
自動眼鏡(auto-withdraw):降級服務-我們召回Anycast-/32。
Runbooks: Spine丟失、EVPN環路關閉、ECMP路徑關閉、aplink降解、blackhole插入。
IPAM文檔:誰擁有子網/AS,那裏的公告是NAT。
實施支票
- 選擇拓撲(Leaf-Spine),計算超剪切和胖樹寬度。
- IPAM:總和,生長儲備,過路後背下的單個塊和。
[] Underlay IGP/iBGP, BFD;Overlay EVPN/VXLAN, RR на Spine.
- 東西部和南北政策區域的VRF/ACL。
- Egress設計:NAT池,白色PSP/CDN列表,Anycast在需要的地方。
- QoS類和SLO(RTT/loss/jitter),per類監視。
- 檢測和保護:RPKI, prefix-filters, uRPF, RTBH。
- 可觀察性:BGP變化,BFD,IP-SLA,sFlow;dashbords/alertes。
- DR計劃:Spine/link/aplink故障,withdraw Anycast,流量遷移。
典型錯誤
L2拉伸沒有EVPN/VXLAN → STP風暴和不可預測的失敗。
沒有BFD/fast-hellos →長切換和應用程序定時。
沒有匯總的「手動」IP計劃→路由表爆炸。
過載ECMP-hash →不對稱性和靜態過濾器問題。
eBGP上缺乏RPKI/prefix-filters →高峰風險。
QoS「默認」→ API與備份競爭。
沒有健康駕駛的Anycast在部分故障的情況下→黑洞。
iGaming/fintech的細節
API/付款的低 p95:專用的QoS類,Anycast-enpoint,DNS/GSLB上的後置路由。
白色PSP/提供商列表:固定的egress-IP,備用池,快速切換。
高峰事件:頭部≥ 30%通過Spine↔Leaf鏈接,手柄關閉散裝類。
調節/PII:VRF隔離,e2e加密,區域間嚴格ACL。
迷你花花公子
1)降解時快速入門Anycast
1.健康檢查<閾值→ 2)腳本/控制器刪除'/32'公告→ 3)檢查外部樣本→ 4)穩定時自動返回。
2)將流量轉換為備用aplink
1.降級LocalPref主→ 2)在備用→ 3)觀察損失/RTT → 4)記錄更改。
3)「熱」工廠擴建
1.添加Spine,連接所有Leaf → 2)在機架中添加Leaf對→ 3)iBGP/OSPF鄰域,ECMP熵檢查→ 4)載荷轉移。
結果
可持續網絡是Leaf-Spine+ECMP,EVPN/VXLAN,用於柔性L2/L3多功能,BGP策略和受指標控制的快速失敗。添加熟練的IPAM、QoS、RPKI/過濾器、自動化通信 health→routing和實時運行手冊-您的平臺即使在最熱的時刻也能預測地傳輸流量。