Automatyzacja ops i skrypty

1) Dlaczego automatyzacja operacji

Zmniejsza błąd MTTR/ludzkiego, przyspiesza uwalnianie i reakcje.
Czyni działania powtarzalnymi i audytowymi (zgodność).
Uwalnia czas inżynierów na poprawę, a nie rutynowe.

2) Podstawowe zasady

1. Idempotencja: rerun → ten sam wynik.
2. Poręcze bezpieczeństwa: suche, potwierdzenia, limity, automatyczne rolki.
3. Obserwowalność: dzienniki/mierniki/szlaki są wbudowane w każdy skrypt/rurociąg.
4. Konfiguracja> stałe w kodzie: wszystkie za pomocą parametrów/manifestów.
5. GitOps/Docs-as-Code: kod transakcji jest zmieniany, sprawdzany, testowany.
6. Małe kroki: płaty kanaryjskie, partie, przekładki z budżetami.
7. Brak tajemnic w repo: tylko przez tajne magazyny.

3) Klasy zadań automatyzacji

Rekultywacja i incydenty: rolki, przełączniki dostawców, flagi funkcji degradacji.
Planowana praca: rotacja certyfikatów/kluczy, migracja bazy danych (rozwiń → migrate → contract).
Zarządzanie infrastrukturą: IaC (Terraform), konfiguracje (Ansible), manifesty K8s.
Dane i Ops: zasypki, ETL, walidacja jakości.
Ćwiczenia Xaoc/DR: symulacja awarii z bramkami bezpieczeństwa.

4) Jak wybrać narzędzie

Bash - krótkie skrypty klejowe, orkiestra CLI.
Python - logika/SDK, retrai, API, praca z JSON/YAML.
Dowolna - idempotentna konfiguracja, brak agentów.
Terraform jest infrastrukturą deklaracyjną.
Kubernetes Jobs/CronJobs - zadania wsadowe/harmonogram.
Argo/Airflow - zależne DAGs i orkiestra.
ChatOps - bezpieczny start z czatu z audytem.

5) Architektura automatyzacji (odniesienie)

CLI/ChatOps → Kontroler (GitOps/Orchestrator) → Wykonawcy (Ansible/Terraform/K8s Job) → Monitoring (logs/metrics/trails) → Audyt/biletowanie → Dokowanie artefaktów (dowody).

6) Zarządzanie idempotencją i stanem zdrowia

„Sprawdź, a następnie zmień”: detect-then-act (jeśli już OK - nic nie rób).
Przechowywać „stan/blokadę” dla długich procedur.
Podziel procedury na stopnie atomowe z możliwością powtórnego przebiegu.

7) Błędy, cofnięcia i rolki

Retrai z wykładniczym opóźnieniem i jitter.
Budżet czasu operacji (całkowity SLA na zadanie).
Rolki i wyłącznik są zawsze zapewnione.
Wyraźne kody zwrotne i ustrukturyzowane błędy.

8) Bezpieczeństwo i tajemnice

RBAC/ABAC, minimalne uprawnienia, tymczasowe żetony (JIT/JEA).
Sekrety od Vault/KMS/Cloud Secret Manager; klucze są obracane.
„Rozdzielenie obowiązków”: kto pisze, nie jest tym, który zatwierdza i uruchamia prod.
Dziennik audytu: kto/kiedy/co/z jakim wynikiem.

9) GitOps - ChatOps

PR → testy → przegląd → scalenie → auto-promocja do środowisk.
Polecenia w czacie (na przykład '/ops deploy checkout --canary 5% ') powodują rurociągi; boty stosują dowody i linki do desek rozdzielczych.

10) Planowanie i orkiestra

CronJobs/DAG z zależnościami i terminami.
Konkurencja: „Zakazać”, „Zastąpić”, „Pozwolić” (K8s) w zależności od zadania.
Polityki/kwoty zasobów, aby nie „jeść” prod.

11) Obserwowalność automatyzacji

Metryka: sukces/błąd, czas trwania, przekładki, dotknięte obiekty.
Dzienniki: struktura, korelacja-ID, czerwona linia na błędzie.
Ślady: Etapy długich operacji widoczne są w rozłożonych śladach.
Ostrzeżenia: przez objawy (SLO) i przez metryki techniczne (termin,% błędów).

12) Badania i symulacje

Testy jednostkowe parserów logicznych i artefaktowych.
Testy integracyjne w piaskownicy i kanarkach.
„Symulatory” (suchy-run + manekiny dostawców), powtórzyć prawdziwe scenariusze.
Ćwiczenia: jasne cele, bramy bezpieczeństwa, AAR → RCA → CAPA.

13) Szablony kodów

Bash (szkielet z balustradami)

bash
!/usr/bin/env bash set -Eeuo pipefail trap 'echo "[ERR] line $LINENO"; exit 1' ERR

log(){ printf '%s %s\n' "$(date -Iseconds)" "$"; }
DRY=${DRY_RUN--true}

ensure_dep(){ command -v "$1" >/dev/null          { echo "need $1"; exit 2; }; }

apply_change(){
local target="$1"
if [[ "$DRY" == "true" ]]; then log "[DRY] would update $target"
else kubectl apply -f "$target"
fi
}

main(){
ensure_dep kubectl for f in manifests/.yaml; do apply_change "$f"
done log "done"
}
main "$@"

Python (Retrai + Idempotencja)

python import argparse, time, json, sys from pathlib import Path import requests

def with_retries(fn, attempts=5, base=0. 2):
for i in range(attempts):
try:
return fn()
except Exception as e:
sleep = base (2i)
time. sleep(sleep)
raise

def already_done(marker):
return Path(marker). exists()

def mark_done(marker):
Path(marker). write_text("ok")

def main():
ap = argparse. ArgumentParser()
ap. add_argument("--endpoint", required=True)
ap. add_argument("--marker", default="/tmp/op. marker")
args = ap. parse_args()

if already_done(args. marker):
print("idempotent: nothing to do"); return

def call():
r = requests. post(args. endpoint, json={"action":"rotate"})
r. raise_for_status()
return r. json()

resp = with_retries(call)
print(json. dumps(resp))
mark_done(args. marker)

if __name__ == "__main__":
sys. exit(main())

Ansible (zadanie idempotentne)

yaml
- hosts: web become: true tasks:
- name: Ensure nginx present and enabled ansible. builtin. package:
name: nginx state: present
- name: Deploy config ansible. builtin. template:
src: nginx. conf. j2 dest: /etc/nginx/nginx. conf mode: '0644'
notify: restart nginx handlers:
- name: restart nginx ansible. builtin. service:
name: nginx state: restarted

Kubernetes CronJob (planowana rotacja)

yaml apiVersion: batch/v1 kind: CronJob metadata:
name: cert-rotate spec:
schedule: "0 3  "
concurrencyPolicy: Forbid jobTemplate:
spec:
template:
spec:
serviceAccountName: ops-automation restartPolicy: OnFailure containers:
- name: rotator image: registry/ops/rotator:1. 2. 3 args: ["--rotate", "--budget-ms=60000"]
envFrom:
- secretRef: { name: rotator-secrets }

Akcje GitHub (wyzwalacz ChatOps)

yaml name: ops-deploy on:
workflow_dispatch:
inputs:
service: {required: true}
canary: {required: false, default: "5"}
jobs:
deploy:
runs-on: ubuntu-latest steps:
- uses: actions/checkout@v4
- run:./scripts/deploy. sh "${{ inputs. service }}" --canary "${{ inputs. canary }}"

14) Lista kontrolna wdrażania

Wybrano narzędzie dla każdej operacji i opisano książkę startową.
Istnieją suche biegi, potwierdzenia i limity (balustrady).
Rejestry są ustrukturyzowane, podłączone są mierniki i wpisy.
Tajemnice przed przechowywaniem, minimalny i tymczasowy dostęp.
Przeprowadzone badania (jednostka/integracja/kanarka) i symulacje.
GitOps/PR recenzje są wymagane, jest audyt.
Plan wycofania i udokumentowane kryteria sukcesu.
Automatyzacja jest związana z budżetami SLO/błędów.

15) Anty-wzory

Skrypty bez idempotencji i wałków.
„Sekrety w kodzie”, superadmin odpowiada za wszystko.
Ręczne edycje w sprzedaży bez audytu.
Chunky Bash Zoo zamiast deklaratywnego IaC.
Parametry „chronione” w kodzie - brak ponownego użycia.
Brak suchych biegów/kanarów → duże eksplozje.
Dzienniki „dla ludzi” bez struktury i korelacji.

16) Metryki dojrzałości automatyki operacyjnej

Zasięg:% operacji automatyki i runbooka.
Wskaźnik sukcesu/szybkość powtarzania zadań automatycznych.
Czas na egzekucję i na czas.
Zmień wskaźnik awarii przed/po automatyzacji.
Kompletność audytu:% operacji z pełnymi dowodami.
Bezpieczeństwo: czas rotacji klucza/certyfikatu, udział dostępu JIT.

17) Sedno sprawy

Automatyzacja ops to nie zestaw rozbieżnych skryptów, ale system: idempotentne działania, bezpieczne balustrady, obserwowalność, tajemnice i dostęp pod kontrolą, GitOps/ChatOps, testy i ćwiczenia. W takim systemie operacje stają się szybkie, przewidywalne i kontrolne - a firma otrzymuje stabilne zwolnienia i niskie ryzyko incydentów.

Automatyzacja ops i skrypty

Python (Retrai + Idempotencja)

Ansible (zadanie idempotentne)

Kubernetes CronJob (planowana rotacja)

Akcje GitHub (wyzwalacz ChatOps)

Skontaktuj się z nami

Szybki kontakt

Wideo zostanie wkrótce zaktualizowane

Obecnie jesteśmy bardzo zajęci projektami