GH GambleHub

ריכוז יומנים

1) מדוע לרכז יומנים

יומנים מרכזיים הם הבסיס של יכולת תצפית, ביקורת וציות. אחת:
  • להאיץ את החיפוש אחר שורשי אירוע (קורלציה על ידי בקשה-id/trace-id);
  • מאפשר לך לבנות התראות אות על תסמינים (שגיאות, חריגות);
  • לתת שביל ביקורת (מי/מתי/מה עשה את זה);
  • עלות נמוכה יותר עקב איחוד של שימור ואחסון.

2) עקרונות בסיסיים

1. רק יומנים מובנים (JSON/RFC5424) - אין ”טקסט חופשי” ללא מפתחות.

2. סכימת מפתחות אחידה: 'ts, level, service, env, אזור, דייר, , , , msg, kv...'

3. מתאם ברירת המחדל: להעיף trace_id מהשער אל אחוריים ויומנים.
4. מזעור רעש: רמות נכונות, דגימה, שכפול חזרות.
5. בטיחות לפי עיצוב: PII מיסוך, RBAC/ABAC, חוסר יכולת.
6. כלכלה: חם/חם/קר, דחיסה, צבירה, טי-טי-אל והתייבשות.


3) אדריכלים טיפוסיים

EFK/ELK: (Fluente Bit/Fluentd/Filebeat). ▪ (Elasticsearch/OpenSearch) # (קיבנה/OpenSearch Dashboards). חיפוש וצבירה אוניברסליים.
Loki-like (רישום אינדקס על ידי תוויות): Promtail/Fluent Bit # Loki # Grafana. זול יותר עבור כרכים גדולים, מסנן תווית חזק + צפייה לינארית.
ענן: CloudWatch/Cloud Logging/Log Analytics + ייצוא לאחסון קר (S3/GCS/ADLS) ו/או SIEM.
גישת אגם דאטה: Sippers = object axsoring (parquet/iceberg) = שאילתות אנליטיות זולות (Athena/BigQuery/Spark) + שכבה מקוונת (OpenSearch/Loki) בימים האחרונים.

המלצה: לשמור על שכבה מקוונת (7-14 ימים חמים) וארכיון (חודשים/שנים) באגם עם יכולת החזרת נוזלים.


4) תרשים ופורמט של יומנים (המלצה)

פורמט JSON מינימלי:
json
{
"ts":"2025-11-01T13:45:12.345Z",
"level":"ERROR",
"service":"payments-api",
"env":"prod",
"region":"eu-central",
"tenant":"tr",
"trace_id":"0af7651916cd43dd8448eb211c80319c",
"span_id":"b7ad6b7169203331",
"request_id":"r-7f2c",
"user_id":"",        // masked
"route":"/v1/payments/charge",
"code":"PSP_TIMEOUT",
"latency_ms":1200,
"msg":"upstream PSP timeout",
"kv":{"provider":"psp-a","attempt":2,"timeout_ms":800}
}

סטנדרטים: RFC3339 לזמן, רמה מהסט ”TRACE/DEBUG/INFO/EARRY/IROR/FATAL”, מפתחות snake_case.


5) רמות כריתת עצים ודגימה

DEBUG - רק בדב/במה; בדרבן אחר דגל ועם טי-טי-אל.
מחזור חיים של בקשות/אירועים.
אזהרה - מצבים חשודים מבלי להשפיע על SLO.
שגיאה/קטלנית - השפעה על בקשה/משתמש.

דוגמית:
  • מגבלת קצב לשגיאות חוזרות (לדוגמה, 1/sc/key).
  • דגימת זנב של עקבות (להשאיר רישומים/עקבות מלאים רק לבקשות ”רעות”).
  • דינמי: במקרה של סערת טעויות, לצמצם את הפרטים, לחסוך סיכום.

6) משלוח יומנים (סוכנים ומשלחים)

בקודקוד: Fluent Bit/Filebeat/Promtail Pilebeat/Productive Piles/juntrals, persing, masking, buzing.
תורים ברשת: קפקא/NATS להחלקת שיא, מגשים מחדש והזמנה.
אמינות: backpressure, buffers disk, אישור משלוח (לפחות פעם אחת), מדדים אידמפוטנטים (key-hash).
סינון בקצה: ביטול ”פטפוט” וסודות לפני הפגיעה ברשת.


7) אינדקס ואחסון

זמן החלוקה (יומי/שבועי) + על ידי 'env/region/terenant' (באמצעות תבניות אינדקס או תוויות).

שכבות אחסון:
  • חם (SSD, 3-14 ימים): חיפוש מהיר והתראות.
  • חם (HDD/מקפיא, 30-90 ימים): לפעמים אנחנו מסתכלים.
  • ארכיון קר (אובייקט, חודשים/שנים): ציות וחקירות נדירות.
  • דחיסה וסיבוב: ILM/ISM (מדיניות מחזור חיים), gzip/zstd, downsampling (טבלאות צבירה).
  • התייבשות מחדש: העמסה זמנית של חבורות ארכיון לתוך מקבץ ”חם” לחקירה.

8) חיפוש ואנליטיקה: שאילתות לדוגמה

תקרית: שירות מסנן הזמן xs' = ”×” רמה> = שגיאה ”×” trace _ id ”/” request _ id'.
ספקים: "קוד: PSP _' ו 'kv. ספק psp-a מקובץ על ידי אזור.
חריגות: עלייה בתדירות ההודעות או שינוי בהתפלגויות השדה (ML-גלאים, מבוססי כללים).
ביקורת: ”קטגוריה: ביקורת” + ”שחקן ”/” משאב” + תוצאה.


9) קורלציה עם מדדים ועקבות

זיהוי זהה: ”trace _ id/span _ id” בכל שלושת האותות (metrics, logs, races).
קישורים מגרפים: מעבר קליק מלוח p99 ללוגים על ידי "trace _ id'.
שחררו אנוטציות: גרסאות/קנריות במדדים ויומנים לקשירה מהירה.


10) בטיחות, מח "ש וציות

סיווג שדה: PII/סודות/כספים - מסכה או מחיקה בכניסה (מסנני Bit/Lua שוטפים, Re2).
RBAC/ABAC: אינדקס/תווית גישה לפי תפקיד, row/field-level-security.
Immutability (WORM/append-only) לביקורת ודרישות רגולטוריות.
שמירה ו ”זכות לשכוח”: TTL/מחיקה על ידי מפתחות, tokenization 'user _ id'.
חתימות/חשיש: שלמות של כתבי עת קריטיים (פעולות ניהול, תשלומים).


11) SLO ומידות יומן צינור

משלוח: 99. 9% מהאירועים בשכבה החמה 30-60 שניות.
הפסדים: <0. 01% ב-24 שעות (לפי סימני התייחסות).
זמינות חיפוש: 99. 9% ב-28 ימים.
איחוי של בקשות: p95 סימון 2-5 שניות על מסננים טיפוסיים.
עלות: אירועי $/1M ו $/אחסון/GB בשכבות.


12) לוחות מחוונים (מינימום)

בריאות צינור: כניסה/יציאה של משלחים, מגשים מחדש, חוצץ מילוי, קפקא לג.
שגיאות על ידי שירותים/קודים: טופ N, טרנדים, אחוזון 'latency _ ms'.
פעילות ביקורת: פעולות ניהול, שגיאות ספק, גישה.
כלכלה: נפח/יום, אינדקס-צמיחה, ערך אחר שכבה, שאילתות ”יקרות”.


13) פעולות וספרי שעשועים

סערת יומן: לאפשר דגימה אגרסיבית/מגבלת קצב על הסוכן, להעלות חוצצים, זמנית להעביר חלק מהזרם לחמם.
סכימה סחיפה: התראה להופעתם של מפתחות/טיפוסים חדשים, התחל משא ומתן סכימה-קטלוג.

חיפוש איטי: בנייה מחדש של אינדקסים, הגדלת העתקים, ניתוח שאילתות ”כבדות”,

תקרית אבטחה: חדירה מיידית מופעלת, חפצים נפרקו, גישה מוגבלת על ידי תפקיד, RCA.


14) פינוקס: איך לא להישבר על היומנים

הסר מילוליות: הפעל עקבות מרובות שורות לשדה 'ערמה' וצילומי דגימה חוזרים.
הפעל TTL: שונה עבור ”env ”/” רמה ”/” קטגוריה”.
השתמש Loki/ארכיון + על פי דרישה להתייבש לגישה נדירה.
צדדים ודחיסה: צדדים גדולים יותר הם זולים יותר, אבל לפקוח עין עבור SLA חיפוש.
התממשות הערכות תכופות (צבירה יומית).


15) דוגמאות אינסטרומנטליות

ביט שוטף (מיסוך ושליחה ל ־ OpenSearch)

ini
[INPUT]
Name       tail
Path       /var/log/app/.log
Parser      json
Mem_Buf_Limit   256MB

[FILTER]
Name       modify
Match
Remove_key    credit_card, password

[OUTPUT]
Name       es
Host       opensearch.svc
Port       9200
Index       logs-${tag}-${date}
Logstash_Format  On
Suppress_Type_Name On

יומן הגישה Nginx Extreme JSON trace_id

nginx log_format json escape=json '{ "ts":"$time_iso8601","remote":"$remote_addr",'
'"method":"$request_method","path":"$uri","status":$status,'
'"bytes":$body_bytes_sent,"ua":"$http_user_agent","trace_id":"$http_trace_id"}';
access_log /var/log/nginx/access.json json;

OpenSearch ILM Policy (hot love ac מחק)

json
{
"policy": {
"phases": {
"hot":  { "actions": { "rollover": { "max_age": "7d", "max_size": "50gb" } } },
"warm": { "min_age": "7d", "actions": { "forcemerge": { "max_num_segments": 1 } } },
"delete":{ "min_age": "90d", "actions": { "delete": {} } }
}
}
}

16) רשימת מימושים

[ ] פריסת שדה מקובלת ורמות רישום; איתור/מתאם בקשה-איד מופעל.
[ ] סוכנים מוגדרים (Floent Bit/Promtail) עם מסכות וחוצצים.
[ ] שכבה מקוונת (OpenSearch/Loki/Cloud) וארכיון (S3/GCS + parquet) שנבחר.
[ ] ILM/ISM + מדיניות שמירה חמה/קרה, תהליך החזרת נוזלים.
[ ] RBAC/ABAC, ביקורת חוסר יכולת, יומן גישה.
[ לוחות מחוונים ] צינור, התראות אובדן/פיגור/חוצצי דיסק.
[ ] ספרי שעשועים: סערת יומן, סכימת סחף, חיפוש איטי, תקרית אבטחה.
[ גבולות פיננסיים ]: אירועי דולר/1 מ ', מכסות לבקשות ”יקרות”.

17) אנטי דפוסים

רישומי טקסט ללא מבנה כפול חוסר היכולת לסנן ולצבור.
Stacktrace ענק ב INFO # פיצוץ נפח.
חוסר מתאם = ”רפרוף” לכל השירותים.
אחסון ”הכל לנצח” = חוק הענן כמו מטוס.
סודות/מח "ש ביומנים * סיכוני ציות.
אינדקס ידני עורך בסחף מכירות, והפסקת חיפוש ארוכה.


18) השורה התחתונה

ריכוז לוג הוא מערכת, לא רק ערימה. סכימה סטנדרטית, מתאם, משלוחים מאובטחים, אחסון שכבות, ומדיניות גישה קפדנית להפוך יומנים לכלי רב עוצמה עבור SRE, אבטחה, ומוצר. החזרות נכונות ו FinOps לשמור על התקציב, ו צינור SLOs וחוברות משחק להפוך את החקירות מהר וראוי לשחזור.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.