DNA 관리 및 라우팅
간단한 요약
DNS는 "이름 수준 라우터" 입니다. "유능한 TTL, 구역 및 정책에 따라 사용자가 원하는 전선/게이트웨이에 얼마나 빠르고 예측할 수 있는지에 달려 있습니다. 최소 세트: 애니 캐스트 제공 업체, 건강한 TTL, 자동 장애가있는 건강 검진, DNSSEC + CAA, IaC 관리 및 관찰 가능성 (응답 및 해결 시간별 SLO).
기본 아키텍처
권한 부여 서버 (영역) -회사의 도메인을 담당합니다.
재귀 적 해결 (클라이언트/ISP/소유) -루트 → TLD → 권한을 부여하십시오.
Anycast는 많은 PoP에서 동일한 IP 주소 지정입니다. 가까운 PoP는 더 빨리 반응하고 사고에서 살아남습니다.
구역과 대표단
도메인의 루트 영역 → 'NS' to 권위있는 서버 제공 업체.
하위 도메인 (예: 'api. 예. com ') 은 독립을 위해 개별' NS '/공급자에게 위임 될 수 있습니다.
기록 유형 (최소)
'A '/' AAAA' -IPv4/IPv6 주소.
'CNAME' - 이름의 별칭; 영역의 루트에서 사용하지 마십시오 (공급자의 ALIAS/ANAME 대신).
'TXT' - 검증, SPF, 사용자 정의 라벨.
'MX' - 메일 (사용되는 경우).
'SRV' - 서비스 (SIP, TP 등).
'CAA' -도메인에 대한 인증서를 발급 할 수있는 사람.
'NS '/' SOA' -위임/영역 매개 변수.
'DS' -부모 TLD의 DNSSEC 키.
샘플 영역 (조각)
$TTL 300
@ IN SOA ns1.dns.example. noc.example. (2025110501 3600 600 604800 300)
IN NS ns1.dns.example.
IN NS ns2.dns.example.
@ IN A 203.0.113.10
@ IN AAAA 2001:db8::10 api IN CNAME api-prod.global.example.
_www IN CNAME cdn.example.net.
_caa IN CAA 0 issue "letsencrypt.org"
TTL과 캐싱
짧은 TTL (30-300 s) - 역학 (API 전선, 장애).
중간 TTL (300-3600 초) -CNC/statics 용.
드문 변경 (MX/NS/DS) 의 경우 긴 TTL (보통 1 일) -
이주를 계획 할 때 TTL 24-72 시간을 미리 줄이십시오.
네거티브 캐싱 TTL (NXtterr) 고려: 'SOA MINIMUM' 관리
라우팅 정책 (GSLB 계층)
실패 (능동/수동) -우리는 기본 IP를 실패한 건강 검진에 제공 한 다음 준비금을 제공합니다.
가중 (트래픽 분할) -트래픽 분포 (예: 카나리아 5/95).
대기 시간 기반은 네트워크 지연 기준으로 가장 가까운 PoR/지역입니다.
지리 라우팅 - 국가/대륙별; 지역/PCI/PII 법률에 유용합니다.
다중 값-각각의 건강 검진이 포함 된 여러 'A/AAAA'.
협의회
중요한 API의 경우 대기 시간 기반 + 건강 검진 + 짧은 TTL을 연결하십시오.
원활한 릴리스-가중치와 점진적인 점유율 증가.
지역 제한 사항-지오 및 허용 된 제공 업체 목록.
건강과 자동 전환
건강 검진: HTP (S) (200 OK, 본체/헤더), 께 (포트), ICMP.
평판/지문: 포트뿐만 아니라 백엔드의 정확성 (버전, 빌드 아이드) 을 확인하십시오.
민감도 임계 값: 플랩을 피하기 위해 'N' 성공/실패한 점검.
측정 항목: 건강한 엔드 포인트 공유, 반응 시간, 스위치 수.
사유지와 분할 수평선
개인 DNA: VPC/VNet/On-prem의 내부 영역 (예: 'svc. 현지. 예 ').
분할 수평선: 내부 및 외부 클라이언트에 대한 다른 응답 (내부 IP 대 공개).
누출 방지: 외부에서 "내부" 이름을 사용하지 마십시오. 공공 공급자를 통해 개인 영역이 해결되지 않는지 확인하십시오.
DNS보안
DNSSEC: 영역 서명 (ZSK/KSK), 상위 영역에 'DS' 게시, 키 롤오버.
CAA: 신뢰할 수있는 CA에 대한 SL 서트 릴리스를 제한합니다.
재귀를위한 DoT/DoH-클라이언트 요청을 암호화합니다.
권위있는 ACL/속도 제한: 반사 DDoS/ANY 요청에 대한 보호.
서브 도메인 인수: 정기적으로 원격 서비스에 대한 "매달린" CNAME/ALIAS를 스캔합니다 (자원 삭제-CNAME는 남아 있음).
NS/Glue 레코드: 레지스트라와 DNA 제공 업체 간의 일관성.
SLO 및 관찰 가능성
SLO (예)
권위있는 답변의 가용성: 99 %/30 일.
재귀 응답 시간 (p95): 전역 50ms 로컬/할 수 있습니다.
성공 건강 검진: 99 이상. 9%, 잘못된 양성- 1%.
전파 시간: TTL 60 초에서 약 5 분.
메트릭
RCODE (NOERROR/NXtterr/SERVFAIL), QPS, p50/p95 응답 시간.
분수 IPv6/IPv4, EDNA 크기, Truncated (TC) 응답.
건강 검진 스위치 수, 플랩, DNSSEC 서명 오류 수.
DoH/DoT 쿼리 공유 (재귀를 제어하는 경우).
통나무
쿼리 (qname, qstyle, rcode, client ASN/geo), 이상 (모든 폭풍, 하나의 접두사로 빈번한 NXtterr).
IaC 및 자동화
Terraform/DNA 제공 업체: 저장소, PR 검토, 계획/앱에 영역을 유지합니다.
ExternalDNA (K8): Ingress/Service에서 레코드를 자동으로 생성/삭제합니다.
중간 환경: 'dev. '/' stg. '접두사 및 개별 DNA 제공자 계정.
테라 폼 (단순화 된 예)
hcl resource "dns_a_record_set" "api" {
zone = "example.com."
name = "api"
addresses = ["203.0.113.10","203.0.113.20"]
ttl = 60
}
resource "dns_caa_record" "caa" {
zone = "example.com."
name = "@"
ttl = 3600 record {
flags = 0 tag = "issue"
value = "letsencrypt.org"
}
}
리졸버, 캐시 및 성능
Unbound/Knot/Bind는 p95 미만의 응용 프로그램에 더 가깝습니다.
프리페치 핫 레코드를 켜고 권한을 사용할 수 없을 때 오래된 서비스를 제공하십시오.
EPS (0) 및 올바른 버퍼 크기, DNA 쿠키, 최소 응답.
별도의 해상도 흐름 및 응용 프로그램 트래픽 (QoS).
네거티브 TTL을 고려하십시오: 고장난 클라이언트의 많은 NXwher가 캐시를 막을 수 있습니다.
DDoS 및 탄력성
글로벌 PoP 및 봇 트래픽 집계가있는 모든 캐스트 제공 업체.
권위있는 증폭에 대한 RRL (Response Rate Limiting).
'무거운' 유형에 대한 '모든' 금지, EDNA 버퍼 제한 필터.
영역 세분화: 중요-최고의 DDoS 쉴드가있는 공급자에서; 덜 중요합니다-별도로.
레지스트라 수준에서 'AXFR/IXFR' 및 자동 플라이 오버 NS를 갖춘 백업 제공 업체 (2 차).
운영 및 프로세스
변경 사항: PR 검토, 카나리아 기록, 예열 캐시 (낮은 TTL → 배치 → 반환 TTL).
롤오버 DNSSEC: 규제, 창, 유효성 모니터링 (RFC 8901 KSK/ZSK).
런북: PoP 드롭, 잘못된 NS 대표단, 건강 검진에서 떨어졌습니다.
DR 계획: 대체 DNA 제공 업체, 기성품 구역 템플릿, NS를 대체하기 위해 레지스트라, SLA 액세스.
구현 점검표
- 레지스트라에서 두 개의 독립적 인 권위있는 공급자/RoP (Anycast), 정확한 'NS'.
- TTL 전략: 역학의 약자, 안정적인 기록의 경우 길다; 제어중인 음의 TTL.
- 건강 점검 및 정책: 서비스 프로파일 별 장애/가중/대기 시간/지리.
- DNSSEC (KSK/ZSK/DS), 'CAA' 는 종의 방출을 제한합니다.
- 영역의 경우 IaC, K8의 경우 ExternalDF, 별도의 환경/계정.
- 모니터링: r코드/QPS/대기 시간/전파, SERVFAIL/서명에 의한 경고.
- DDoS: 애니 캐스트, RRL, EDNA 제한, 목록 블록/ACL.
- 48-72 시간 내에 도메인 마이그레이션 및 TTL 다운 그레이드 규정.
- CNAME/ALIAS, MX/SPF/DKIM/DMARC (메일을 사용하는 경우) 에 대한 정기적 인 감사.
일반적인 실수
중요한 'A/AAAA' 에 너무 많은 TTL-긴 마이그레이션/파이 오버.
하나의 DNA 제공 업체/하나의 PoP는 SPOF입니다.
DNSSEC/CAA의 부재-대체/통제되지 않은 종의 위험.
일관되지 않은 분할 수평선 → 내부 이름이 누출됩니다.
GSLB에 대한 건강 검진 없음-손 교환 및 지연.
외부 서비스에서 잊혀진 CNAME → 인수 위험.
수동 편집 중 IaC → "눈송이" 구성 및 오류가 없습니다.
iGaming/fintech의 특성
지역 버전 및 PSP: 지리/대기 시간 라우팅, IP/ASN 파트너 화이트리스트, 빠른 장애 조치 게이트웨이.
추천 (일치/토너먼트): 짧은 TTL, 워밍업 CDN, 이벤트에 대한 별도의 이름 ('이벤트 -N. 예. com ') 관리 정책이 있습니다.
법적 정확성: 중요한 변경 중 영역의 시간과 버전을 기록합니다 (감사 로그).
사기 방지/BOT 보호: 타이 브레이커/캡차/체크 엔드 포인트에 대한 별도의 이름; 공격시 "블랙홀" (싱크 홀) 로 빠르게 철수합니다.
미니 플레이 북
전면의 카나리아 릴리스 (가중):1. 'api-canary. 예. com '→ 트래픽의 5%; 2) p95/p99/오류 모니터; 3) 25/50/100% 로 증가; 4) 분해 중에 롤업.
긴급 장애:1. TTL 60 s; 2) 건강 검진 표시 영역 아래로 → GSLB가 응답에서 제거되었습니다. 3) 외부 해결사 확인; 4) 상태 통신.
DNA 제공자 마이그레이션
1. 영역을 새로운 공급자로 가져옵니다. 2) 이전 것에 대한 동기 보조를 켜십시오. 3) 레코더의 'NS' 를 "조용한" 창으로 변경하십시오. 4) SERVFAIL/val 오류를 관찰하십시오.
결과
신뢰할 수있는 DNA 루프는 Anycast Authority + 합리적인 TTL + 건강/대기 시간 라우팅 + DNSSEC/CAA + IaC 및 관찰 가능성입니다. 마이그레이션 및 롤오버 프로세스를 기록하고 백업 제공 업체를 유지하며 정기적으로 해당 영역에서 "매달린" 레코드를 확인하십시오. 사용자는 가장 뜨거운 시간에도 원하는 전선에 안정적으로 도달합니다.