Gestione e instradamento DNS
Breve riepilogo
DNS è un router di livello dei nomi. La TTL, le aree e le regole corrette dipendono da quanto velocemente e prevedibilmente gli utenti arriveranno sui fronti/gateway desiderati. Set minimo: provider Anycast, sani TTL, health-checks con failover automatico, DNSSEC + CAA, controllo IaC e osservabilità (SLO per risposta e tempo di resolutezza).
Architettura di base
Server autorizzati (zone) - Responsabili dei domini aziendali.
Risvolti ricorsivi (clients/INPS/propri) - chiedono alla radice del TLD di essere autorevoli.
Anycast è la stessa indirizzazione IP su una serie di PoP: il prossimo PoP risponde più velocemente e subisce incidenti.
Zone e deleghe
Area radice del dominio «NS» dei provider di server autorevoli.
Sottotitoli (per esempio, "api. example. com ') è possibile delegare a singoli «NS »/provider per l'indipendenza.
Tipi di record (minimo)
A/AAAA - indirizzo IPv4/IPv6.
«CNAME» è un alias a nome; non utilizzare la radice della zona (invece ALIAS/ANAME per i provider).
«TXT» - verifiche, SPF, etichette custom.
MX - Posta elettronica (se in uso).
«SRV» - Servizi (SIP, LDAP, ecc.).
CAA - Chi può rilasciare certificati per il dominio.
«NS »/« SOA» - delega/impostazioni zona.
«DS» è una chiave DNSSEC per il TLD padre.
Esempio di zona (sezione)
$TTL 300
@ IN SOA ns1.dns.example. noc.example. (2025110501 3600 600 604800 300)
IN NS ns1.dns.example.
IN NS ns2.dns.example.
@ IN A 203.0.113.10
@ IN AAAA 2001:db8::10 api IN CNAME api-prod.global.example.
_www IN CNAME cdn.example.net.
_caa IN CAA 0 issue "letsencrypt.org"
TTL e cache
TTL breve (30-300 c) - Per altoparlanti (API, failover).
TTL media (300-3600 c) - per CDN/Statica.
TTL lungo (≥ 1 giorno) - Per le modifiche rare (MX/NS/DS).
Pianificando le migrazioni, ridurre la TTL in anticipo di 24-72 ore.
Tieni conto di Negative Cache TTL (NXDOMAIN) - Gestito da SOA MINIMUM.
Criteri di instradamento (livello GSLB)
Failover (active/passive) - Dà l'IP principale prima del feal health-check, poi la riserva.
Weighted (traffic-split) - Distribuzione del traffico (ad esempio canary 5/95).
Latency-based è la regione più vicina per ritardo di rete RR/regione.
Geo-routing - paese/continente; è utile per le leggi locali/PCI/PII.
Multivalue - diversi «A/AAAA» con controlli sanitari di tutti.
Suggerimenti
Per le API critiche, collegare latency-based + health-checks + TTL breve.
Per i rilasci fluidi - weighted e crescita progressiva della quota.
Per le limitazioni regionali - geo e elenco dei provider autorizzati.
Salute e failover automatico
Health-checks: HTTP (S) (200 OK corpo/intestazione), TCP (porta), ICMP.
Reputazione/fingerprint: controlla non solo la porta, ma anche la correttezza del backend'a (versione, build-id).
La soglia di sensibilità è: «N» controlli di successo/errori consecutivi per evitare il flapping.
Mangia metriche: percentuale di healthy-endpoint, tempo di reazione, numero di cambio.
Aree private e split-horizon
Private DNS - Zone interne in VPC/VNet/On-prem (es. 'svc. local. example`).
Split-horizon: risposte diverse per client interni ed esterni (IP vs interno pubblico).
Protezione da fuoriuscite: non utilizzare i nomi interni Assicurati che le aree private non vengano tagliate attraverso i provider pubblici.
Protezione DNS
DNSSEC: etichette zone (ZSK/KSK), pubblicazione DS'nella zona padre, rollover chiavi.
CAA - Limitare il rilascio dei cerchi TLS a quelli CA affidabili.
Per i ricorsori, crittografare le richieste dei clienti.
ACL/Rate-limit su autorevoli: protezione da query DDoS/ANY riflettenti.
Subdomain Takeover: scansiona regolarmente CNAME/ALIAS su servizi remoti (risorsa rimossa - CNAME rimossa).
Record NS/Glue - Consistenza tra il registratore e il provider DNS.
SLO e osservabilità
SLO (esempi)
La disponibilità di risposte autorevoli è di 99. 99 %/30 giorni.
Tempo di risposta al ricorsore (p95): 50 ms locali/ 150 ms globali.
Successo health-checks: ≥ 99. 9%, falsi risultati - 0. 1%.
Tempo di avanzamento dopo la modifica (propagation): 5 minuti a TTL 60 secondi
Metriche
RCODE (NOERROR/NXDOMAIN/SERVFAIL), QPS, p50/p95.
Le quote IPv6/IPv4, EDNS dimensioni, Truncated (TC) risposte.
Failover, flapping, errori di firma DNSSEC.
Quote di query DoH/DoT (se controllate il ricorrente).
Loghi
Query (qname, qtype, rcode, client ASN/geo), anomalie (tempeste ANY, frequenti NXDOMAIN per prefisso).
IaC e automazione
Terraform/Provider DNS - Conserva le aree nel repository, la rivisitazione PR, il piano/apro.
ExternalDNS (K8s) - Consente di creare o eliminare automaticamente i record da Ingress/Service.
Gli ambienti intermedi includono i prefissi del provider DNS.
Terraform (esempio semplificato)
hcl resource "dns_a_record_set" "api" {
zone = "example.com."
name = "api"
addresses = ["203.0.113.10","203.0.113.20"]
ttl = 60
}
resource "dns_caa_record" "caa" {
zone = "example.com."
name = "@"
ttl = 3600 record {
flags = 0 tag = "issue"
value = "letsencrypt.org"
}
}
Resolver, cache e prestazioni
I ricorsori personalizzati (Unbound/Knot/Bind) sono più vicini alle applicazioni meno di p95.
Attivare prefetch hot record, serve-stale quando l'autorità non è disponibile.
EDNS (0) e le dimensioni corrette del buffer, cookie DNS, minimo-responses.
Separare i flussi di taglio e il traffico delle applicazioni (QoS).
Tieni conto di Negative TTL: un sacco di NXDOMAIN da un client «battuto» può segnare la cache.
DDoS e sostenibilità
Provider Anycast con PoP globali e aggregazione del traffico bot.
Response Rate Limiting (RRL) su autorevoli, protezione da amplificazione.
Disabilita ANY, limita i buffer EDNS, filtri sui tipi «pesanti».
Segmentazione delle zone: critica - in un provider con il miglior scudo DDoS; meno critico, separatamente.
Provider di backup (secondaries) con «AXFR/IXFR» e un feeling automatico NS a livello di registratore.
Operazioni e processi
Modifiche: PR-review, registrazioni canary, riscaldamento della cache (TTL basso → deploy → restituire TTL).
Rollover DNSSEC: regolazione, finestre, monitoraggio della validità (RFC 8901 KSK/ZSK).
Runbook: caduta di PoP, delegazione NS non corretta, health check rotto, SERVFAIL di massa.
Programma DR: provider DNS alternativo, modelli di zona pronti, accesso al registratore, SLA sostituito da NS.
Assegno foglio di implementazione
- Due provider/ROR indipendenti autorevoli (Anycast) corretti «NS» dal registratore.
- Strategia TTL: breve per dinamica, lunga per record stabili negative TTL sotto controllo.
- Health-checks e regole: failover/weighted/latency/geo per profilo dei servizi.
- DNSSEC (KSK/ZSK/DS), «CAA» limita la produzione dei cerchi.
- IaC per le zone ExternalDNS per K8s, ambienti/account separati.
- Monitoraggio: rcode/QPS/latency/propagation, alert SERVFAIL/firme.
- DDoS: Anycast, RRL, restrizioni EDNS, blocco elenchi/ACL.
- Regolamenti di migrazione dei domini e declassamento di TTL per 48-72 ore
- Controllo regolare di CNAME/ALIAS, MX/SPF/DKIM/DMARC (se utilizzato dalla posta elettronica).
Errori tipici
Una TTL troppo grande su A/AAAA critici è una migrazione/feelover a lungo termine.
Un provider DNS/1 PoP SPOF.
Nessun DNSSEC/CAA - Rischio di scambi/cerchi non controllati.
Split-horizon incoerente per la fuoriuscita di nomi interni verso l'esterno.
Niente health-checks su GSLB - cambio di mano e ritardi.
Il CNAME dimenticato per i servizi esterni è a rischio takeover.
L'assenza di fiocchi di neve - confighi e errori nelle modifiche manuali.
Particolare per iGaming/Fintech
Versioni regionali e PSP: geo/latency-routing, elenchi bianchi dei partner IP/ASN, gateway failover veloce.
Picchi (partite/tornei) - TTL breve, CDN riscaldato, nomi separati per gli iventi ('event-N. example. com ') con un criterio gestito.
Legale: fissa l'ora e la versione delle zone in caso di modifiche critiche (registro di verifica).
Protezione antifrode/BOT: nomi separati per tiebreakers/capchi/assegno-endpoint; dirottamento rapido sul buco nero (sinkhole) durante gli attacchi.
Mini playbook
Rilascio canale fronte (weighted):1. `api-canary. example. com ', 5% del traffico; 2) monitor p95/p99/errore; 3) aumentare al 25/50/100%; 4) riduciamo al degrado.
Failover di emergenza:1. TTL 60 c; 2) health-check ha contrassegnato la regione down del GSLB; 3) Controllo dei resolver esterni 4) comunicazione dello stato.
Migrazione provider DNS:1. Importazione di una zona in un nuovo provider 2) Includere il secondary sincronizzato nel vecchio; 3) Cambiare NS dal registratore in una finestra silenziosa; 4) Osservare gli errori SERVFAIL/val.
Totale
Tracciato DNS affidabile - Autorità Anycast + TTL intelligenti + routing salute/ritardo + DNSSEC/CAA + osservabilità. Fissate i processi di migrazione e rollover, tenete il provider di backup, controllate regolarmente la zona per i record sospesi, e i vostri utenti saranno stabilmente sui fronti desiderati anche nell'ora più calda.