Ops-автоматизація та скрипти
1) Навіщо автоматизувати операції
Знижує MTTR/помилки людини, прискорює релізи і реакції.
Робить дії повторюваними і аудійованими (комплаєнс).
Звільняє час інженерів для поліпшень, а не рутини.
2) Основні принципи
1. Ідемпотентність: повторний запуск → той же результат.
2. Безпечні перила: dry-run, підтвердження, ліміти, авто-відкати.
3. Спостережуваність: логи/метрики/трейси вбудовані в кожен скрипт/пайплайн.
4. Конфігурація> константи в коді: все через параметри/маніфести.
5. GitOps/Docs-as-Code: код операцій версіонується, ревьюится, тестується.
6. Малі кроки: канарні частки, батчі, ретраї з бюджетами.
7. Без секретів в репо: тільки через secret-сховища.
3) Класи задач автоматизації
Ремедіація та інциденти: відкати, перемикання провайдерів, фіча-прапори деградації.
Планові роботи: ротації сертифікатів/ключів, міграції БД (expand→migrate→contract).
Управління інфраструктурою: IaC (Terraform), конфігурації (Ansible), K8s маніфести.
Дані та DataOps: бекфіли, ETL, валідація якості.
Xaoc/DR-навчання: симуляції відмов з гейтами безпеки.
4) Як вибрати інструмент
Bash - короткі glue-скрипти, CLI-оркестрація.
Python - логіка/SDK, ретраї, API, робота з JSON/YAML.
Ansible - ідемпотентна конфігурація, агенти не потрібні.
Terraform - декларативна інфраструктура.
Kubernetes Jobs/CronJobs - пакетні завдання/планування.
Argo/Airflow - залежні DAG-і і оркестрація.
ChatOps - безпечний запуск з чату з аудитом.
5) Архітектура автоматики (референс)
CLI/ChatOps → Контролер (GitOps/оркестратор) → Виконавці (Ansible/Terraform/K8s Job) → Моніторинг (логи/метрики/трейси) → Аудит/тікетинг → Док-артефакти (evidence).
6) Ідемпотентність і управління станом
«Перевіряй, потім міняй»: detect-then-act (якщо вже ОК - нічого не роби).
Зберігай «відмітки виконання» (state/lock) для довгих процедур.
Процедури діліть на атомарні кроки з можливістю повторного прогону.
7) Помилки, ретраї та відкати
Ретраї з експоненціальною затримкою і джиттером.
Бюджет часу операції (загальне SLA на завдання).
Відкати і «стоп-кнопка» (circuit breaker) завжди передбачені.
Явні коди повернення і структуровані помилки.
8) Безпека і секрети
RBAC/ABAC, мінімальні привілеї, тимчасові токени (JIT/JEA).
Секрети з Vault/KMS/Cloud Secret Manager; ключі ротуються.
«Поділ обов'язків»: хто пише - не той, хто схвалює і запускає в проді.
Аудит-журнал: хто/коли/що/з яким результатом.
9) GitOps и ChatOps
PR → тести → рев'ю → мердж → авто-промоція в середовища.
Команди в чаті (наприклад, '/ops deploy checkout --canary 5%') викликають пайплайни; боти прикладають evidence і посилання на дашборди.
10) Планування та оркестрація
CronJobs/DAG з залежностями та дедлайнами.
Конкурентність: 'Forbid','Replace','Allow'( K8s) залежно від завдання.
Політики ресурсів/квоти, щоб не «з'їсти» прод.
11) Спостережуваність автоматики
Метрики: успіх/помилка, тривалість, ретраї, порушені об'єкти.
Логи: структуровані, correlation-ID, червоний рядок на помилці.
Трейси: кроки довгих операцій видно в розподілених трасуваннях.
Алерти: за симптомами (SLO) і за технічними метриками (дедлайн,% помилок).
12) Тестування та симуляції
Юніт-тести логіки та парсерів артефактів.
Інтеграційні тести в пісочниці і на канарці.
«Тренажери» (dry-run + фіктивні провайдери), replay реальних сценаріїв.
Навчання: чіткі цілі, гейти безпеки, AAR→RCA→CAPA.
13) Шаблони коду
Bash (скелет з поручнями)
bash
!/usr/bin/env bash set -Eeuo pipefail trap 'echo "[ERR] line $LINENO"; exit 1' ERR
log(){ printf '%s %s\n' "$(date -Iseconds)" "$"; }
DRY=${DRY_RUN--true}
ensure_dep(){ command -v "$1" >/dev/null { echo "need $1"; exit 2; }; }
apply_change(){
local target="$1"
if [[ "$DRY" == "true" ]]; then log "[DRY] would update $target"
else kubectl apply -f "$target"
fi
}
main(){
ensure_dep kubectl for f in manifests/.yaml; do apply_change "$f"
done log "done"
}
main "$@"
Python (ретраї + ідемпотентність)
python import argparse, time, json, sys from pathlib import Path import requests
def with_retries(fn, attempts=5, base=0. 2):
for i in range(attempts):
try:
return fn()
except Exception as e:
sleep = base (2i)
time. sleep(sleep)
raise
def already_done(marker):
return Path(marker). exists()
def mark_done(marker):
Path(marker). write_text("ok")
def main():
ap = argparse. ArgumentParser()
ap. add_argument("--endpoint", required=True)
ap. add_argument("--marker", default="/tmp/op. marker")
args = ap. parse_args()
if already_done(args. marker):
print("idempotent: nothing to do"); return
def call():
r = requests. post(args. endpoint, json={"action":"rotate"})
r. raise_for_status()
return r. json()
resp = with_retries(call)
print(json. dumps(resp))
mark_done(args. marker)
if __name__ == "__main__":
sys. exit(main())
Ansible (ідемпотентна задача)
yaml
- hosts: web become: true tasks:
- name: Ensure nginx present and enabled ansible. builtin. package:
name: nginx state: present
- name: Deploy config ansible. builtin. template:
src: nginx. conf. j2 dest: /etc/nginx/nginx. conf mode: '0644'
notify: restart nginx handlers:
- name: restart nginx ansible. builtin. service:
name: nginx state: restarted
Kubernetes CronJob (планова ротація)
yaml apiVersion: batch/v1 kind: CronJob metadata:
name: cert-rotate spec:
schedule: "0 3 "
concurrencyPolicy: Forbid jobTemplate:
spec:
template:
spec:
serviceAccountName: ops-automation restartPolicy: OnFailure containers:
- name: rotator image: registry/ops/rotator:1. 2. 3 args: ["--rotate", "--budget-ms=60000"]
envFrom:
- secretRef: { name: rotator-secrets }
GitHub Actions (ChatOps тригер)
yaml name: ops-deploy on:
workflow_dispatch:
inputs:
service: {required: true}
canary: {required: false, default: "5"}
jobs:
deploy:
runs-on: ubuntu-latest steps:
- uses: actions/checkout@v4
- run:./scripts/deploy. sh "${{ inputs. service }}" --canary "${{ inputs. canary }}"
14) Чек-лист впровадження
- Для кожної операції вибраний інструмент і описаний runbook.
- Є dry-run, підтвердження і ліміти (перила).
- Логи структуровані, метрики і алерти підключені.
- Секрети зі сховища, доступи мінімальні і тимчасові.
- Тести (юніт/інтеграція/канарка) і симуляції проведені.
- GitOps/PR-рев'ю обов'язкові, є аудит.
- План відкату і критерії успіху задокументовані.
- Автоматизація прив'язана до SLO/бюджетів помилок.
15) Анти-патерни
Скрипти без ідемпотентності і відкатів.
«Секрети в коді», обліки-суперадміна на все.
Ручні правки в проді без аудиту.
Кусковий Bash-зоопарк замість декларативної IaC.
Параметри «зашиті» в код - немає перевикористання.
Немає dry-run/канарок → великі вибухи.
Логи «для людей» без структури і кореляції.
16) Метрики зрілості Ops-автоматизації
Coverage: % операцій з автоматизацією та runbook.
Success rate/Retry rate автоматичних завдань.
Mean time to execute (середня тривалість) і on-time (в дедлайн).
Change failure rate до/після автоматизації.
Аудит-повнота: % операцій з повним evidence.
Сек'юріті: час ротації ключів/сертифікатів, частка JIT-доступів.
17) Підсумок
Ops-автоматизація - це не набір розрізнених скриптів, а система: ідемпотентні дії, безпечні перила, спостережуваність, секрети і доступи під контролем, GitOps/ChatOps, тести і навчання. У такій системі операції стають швидкими, передбачуваними і аудіруемими - а бізнес отримує стабільні релізи і низький ризик інцидентів.