Operations and Ac.Management Documentation of Operations as Cod
תיעוד העברה כקוד
1) מהות הגישה
תיעוד כקוד הוא תרגול שבו מידע מבצעי, הוראות ותהליכים מאוחסנים, נערכים ומאומתים באותו אופן כמו קוד: באמצעות Git, בקשות משיכה, סקירה ואימות CI.
בלולאה מבצעית, זהו הבסיס למהימנות, שקיפות ותאימות פיקודית.
- ליצור מערכת ידע חיה, משוחזרת וממומשת, שבה כל הוראה היא חפץ של התשתית, ולא PDF מיושן.
2) למה אתה צריך את זה
שקיפות: אתם יכולים לראות מי, מתי ולמה שינה את ההליך.
עקביות: כל הצוותים עובדים על הגרסאות הנוכחיות.
אינטגרציה עם CI/CD: אימות אוטומטי של הוראות.
שכפול - תשתיות ותיעוד מסונכרנים.
בקרת גישה וביקורת דרך גיט.
מפעילים חדשים רואים בדיוק תרחישים הקשורים לקוד.
3) מתקנים ראשיים
4) ארכיטקטורת מאגר
ops-docs/
├── README.md # описание структуры
├── standards/
│ ├── sop-deploy.md
│ ├── sop-oncall.md
│ └── sop-release.md
├── runbooks/
│ ├── payments-latency.md
│ ├── games-cache.md
│ └── kyc-verification.md
├── playbooks/
│ ├── dr-failover.yaml
│ ├── psp-switch.yaml
│ └── safe-mode.yaml
├── postmortems/
│ └── 2025-03-17-bets-lag.md
├── policies/
│ ├── alerting.yaml
│ ├── communication.yaml
│ └── security.yaml
└── templates/
├── postmortem-template.md
├── sop-template.md
└── playbook-template.yaml
טיפ: לכל תיקייה יש מאגר Git או תת-מודול משלה כך שצוותים שונים יוכלו לנהל תוכן באופן עצמאי.
5) תבנית וסטנדרטים
Metadata (חומר קדמי YAML):yaml id: sop-deploy owner: platform-team version: 3.2 last_review: 2025-10-15 tags: [deployment, ci-cd, rollback]
sla: review-180d
מבנה סימון:
Цель
Контекст
Последовательность шагов
Проверка результата
Риски и откат
Контакты и каналы
YAML-playbook (דוגמה):
yaml name: failover-psp triggers:
- alert: PSP downtime steps:
- action: check quota PSP-X
- action: switch PSP-Y
- action: verify payments latency < 200ms rollback:
- action: revert PSP-X
6) גיטופס ותהליכי שינוי
בקשת משיכה = שינויים בתיעוד RFC.
בעל דומיין וראש המבצעים חייבים לאשר.
אימות CI: בדיקת מבנה, שדות חובה, סימון Markdown/YAML.
הוצאה לאור אוטומטית: לאחר מיזוג - יצירת לוחות מחוונים HTML/wiki/.
שינוי יומן: היסטוריה אוטומטית של שינויים עם תאריכים וסופרים.
תזכורות התראה: עדכון מסמך כל N ימים (על ידי SLA).
7) שילוב CI/CD
בדיקות מוך: תחביר Markdown, תקפות YAML, שדות בעלים/גירסה.
בדיקת קישור: בדיקת כתובות וקישורים פנימיים.
Docs-build: המרה לפורטל HTML/Confluence/.
ניתוח: מה השתנה מאז הפרסום האחרון של התיעוד.
סינכרון אוטומטי: עדכון קישורים בלוחות מחוונים גראפנה, Ops UI, Slack.
טיפים לסעיפים מיושנים או בעלים נעדרים.
8) שילוב עם כלים מבצעיים
Grafana/Kibana: הערות וקישורים לאלבום הריצות המקביל ישירות מהפאנל.
מנהל תקרית: ”Open Runbook” כפתור בעת יצירת כרטיס.
פורטל תורן: הוצאה של סו "פ עכשווי וספרי משחק לפי קטגוריה של אירוע.
עוזרי אל: חיפוש במאגר, דור TL; ד "ר וטיפים לפעולה.
לוחות BCP - באופן אוטומטי מעמיסים הוראות DR כאשר תסריט מופעל.
9) ניהול אופן חיים של מסמך
10) אוטומציה וסנכרון
Docs Bot: בודק אילו מסמכים הם לא מעודכנים.
תג גרסה: "! סקירה [ אחרונה: 2025-05 ] ממש בכובע.
Runbook-finder: על ידי התראה פותח את המסמך הרצוי על ידי תג.
מחולל תבניות: יוצר SOPs חדשים על ידי תבנית ("להפוך את" פריסה "לסופ חדש).
Audit-סנכרון: Associate את גרסת SOP עם שחרור המערכת וביצוע זיהוי.
11) ביטחון ופרטיות
RBAC לכל מאגר: רק בעלי דומיין יכולים לערוך.
סודות ומצ "ח: לא ניתן לשמור במסמכים פתוחים; רק קישורים לכספות מוגנות.
ביקורת: יומן של כל השינויים, ביקורות ופרסומים.
מדיניות עדכנית: סקירת מצבי חירום כל 6 חודשים.
גיבויים: תמונות מאגר רגילות ומטבעות פורטל באזור DR.
12) מדדי בגרות
13) אנטי דפוסים
התיעוד מאוחסן ב-Google Docs ללא גרסאות ובעלים.
ספר ריצות אינו מעודכן לאחר השחרור.
SOP מתייחס לפקודות/כלים של מורשת.
אין אימות מודיע, סימון עם שגיאות וקישורים שבורים.
תשכפל את אותן ההוראות במקומות שונים.
חוסר בעלים ותהליך ביקורת.
14) רשימת מימושים
[ ] זהה בעלי דומיין ובעלי מסמכים.
[ ] Create Git Repository 'Ops-Docs/' and SOP/runbook/Playbook templates.
[ ] הגדרות CI בודק וקווים (Markdown/YAML).
[ ] הגדרת פרסום אוטומטי לפורטל או לוויקי.
[ ] אינטגרציה עם Grafana/Incident Manager.
[ ] הוספת רובוט Ops לתזכורות ותיקוני SLA.
[ ] Train docs-as-קוד פקודות עבודה.
15) 30/60/90 - תוכנית יישום
30 ימים:- צור מבנה מאגר, תבניות, מקוון CI ותהליך סקירת יחסי ציבור.
- נודד דמויות מפתח ו5-10 ספרי ריצה קריטיים.
- להגדיר אוטומטי לבנות בפורטל.
- יישום אינטגרציות עם מנהל אירוע וגראפנה.
- חבר בוט Ops לביקורת ודיווח.
- עדכן את התבנית שלאחר המוות וקישור לתקרית לוח המחוונים.
- כיסוי מלא של SOP/runbook (90%).
- הזן KPI: סיקור, סקירה של SLA, שימוש.
- רטרו על הנוחות והאיכות של תהליך ”docs-as-code”.
16) דוגמה לתבנית SOP (Markdown)
SOP: Deployment через ArgoCD id: sop-deploy owner: platform-team last_review: 2025-10-15 tags: [deployment, rollback, argo]
Цель
Обеспечить безопасное и управляемое развертывание сервисов через ArgoCD.
Контекст
Используется для всех микросервисов с шаблоном Helm v2+.
Требует активного GitOps-контура и включенных health-checks.
Последовательность шагов
1. Проверить статус `argocd app list`
2. Выполнить `argocd app sync payments-api`
3. Убедиться, что `status: Healthy`
4. В случае проблем — `argocd app rollback payments-api --to-rev <rev>`
Проверка результата
SLO API доступность ≥ 99.95%, алертов нет.
Риски и откат
- Ошибка синхронизации — rollback.
- При повторных ошибках — эскалация Head of Ops.
Контакты
@platform-team / #ops-deploy
17) אינטגרציה עם תהליכים אחרים
ניתוח מבצעי: סיקור ודיווחי ביקורת.
אימון מרכזייה: אימונים המבוססים על ספרי הפעלה אמיתיים.
פוסטמורטים: החדרה אוטומטית של קישורים ל-SOP וספר משחקים.
אתיקה שלטונית: שקיפות של שינוי וסמכות.
עוזרי אל: חיפוש הקשר וטי-אל; ד "ר מהמאגר.
18) FAQ
Q: למה Git אם יש קונפלואנס?
א. גיט נותן גרסאות, סקירה, אוטומציה ורבייה. מפגש הוא אולי התצוגה האולטימטיבית, אבל לא מקור האמת.
קיו: כיצד להימנע מהנחיות מיושנות?
A: SLA לשחזור (180 ימים) + Ops-תזכורת-bots + תג אוטומטי של הסימון האחרון.
ש: האם המודיע יכול להיות מחובר לתיעוד?
א ': כן. תחביר, שדות דרושים, והפניות שבורות נבדקות כצינור רגיל, בדומה לבדיקות קוד.