Bağlamsal analiz
1) Bağlamsal analitik nedir ve neden gereklidir?
Bağlamsal analitik, şu anda kararları iyileştirmek için durumsal sinyallerin (kim, nerede, ne zaman, hangi cihazda, hangi amaçla, sistemin/pazarın hangi durumunda) çıkarılması ve kullanılmasıdır: Öneriler, teklifler, risk sınırları, uyarılar, bir sonraki en iyi reaksiyon (Sonraki En İyi Eylem).
Faydaları: daha yüksek alaka düzeyi, daha az gürültülü eylem, dönüşüm ve elde tutma kazançları, düşük işletme maliyetleri ve riskleri.
2) Bağlam taksonomisi
Kullanıcı: segment, yaşam döngüsü aşaması, niyet, davranış geçmişi, dil.
Cihaz/istemci: tip ve model, işletim sistemi/tarayıcı, ağ, bağlantı kalitesi, pil/CPU.
Zaman: Günün saati, haftanın günü, mevsim, takvim etkinlikleri, faaliyetin "taze penceresi".
Coğrafi/yerel: ülke/bölge/satış noktası, coğrafi kurallar ve fiyatlar, yerel tatiller.
Operasyonel: sistem önyükleme, kuyruklar, API sınırları, mevcut olaylar.
İçerik: Görüntülenen nesnenin konusu/türü/kategorisi, meta veriler.
İş bağlamı: kampanya, promosyon, fiyat, limitler, anti-risk kuralları.
Orta/dış: hava durumu, trafik, döviz kurları, makro eğilimler (ilgili ise).
3) Sinyal kaynakları ve toplama
Olaylar ve günlükler: tıklamalar, görünümler, işlemler, sistem metrikleri.
İstemci SDK/edge: cihaz sensörleri, gecikme süresi, yerel özellikler.
Özel dizinler: takvimler/tatiller, coğrafi katmanlar, içerik sınıflandırıcıları.
Gözlemci modelleri: niyet, konular, toksisite/risk, içerik gömme.
Yapılandırma ve kurallar: aktif kampanyalar, özellik bayrakları, sınırlar.
Uygulama: her sinyal için - sözleşme (şema, frekans, izin verilen değerler) ve kalite (tazelik/eksiksizlik).
4) Normalleştirme ve bağlamsal özelliklerin oluşumu
Kategorizasyon ve hashing: yüksek kardinalite özellikleri - hashing trick/embedding.
Zaman özellikleri: saat/gün için döngüsel kodlama (sin/cos), sürgülü pencereler "son N dakika/saat/gün".
Oturum: oturum sınırlarının tespiti (hareketsizlik eşiği),'bir oturum içinde "işaretleri.
Hiyerarşiler: strana ^ bölge ^ gorod; kategoriya ^ podkategoriya ^ teg.
Etkileşimler: 'device _ os × yerel × hour_bucket' türünün özellikleri.
Çevrimiçi ve çevrimdışı: Özellik Mağazasında materyalizasyon seçenekleriyle birlikte bir özellik özelliği: çevrimiçi (ms) ve çevrimdışı (toplu halde).
5) Bağlamsal Analitik Mimarisi
Anahat: Ingest ^ Bağlam zenginleştirme ^ Feature Store (online/offline) ^ Model/Rules ^ Serving ^ Feedback.
Bileşenler:1. Etkinlik Otobüsü (Kafka/Pulsar/NATS) ve sözleşmeler (Avro/Protobuf).
2. Özellik Mağazası:- Çevrimiçi: Düşük gecikme süresi için KV/önbellek (Redis/RocksDB).
- Çevrimdışı: Eğitim ve analitik için DWH/Lake (Parquet/Delta/ClickHouse).
- 3. Bağlam Zenginleştirme Hizmeti: SDK/kenar/dizinlerden bağlam toplama, normalleştirme, TTL ve sürümler.
- 4. Karar verme: modeller (çevrimiçi puanlama) + kural motoru, bağlamsal haydutlar.
- 5. Teslimat: API, webhooks, UI widget'ları, push/chat, CRM/CDP.
- 6. Gözlemlenebilirlik: SLO, bağlam sürüklenmesi, eylem etkileri.
6) Bağlama uyarlanmış modeller ve yöntemler
Bağlam Haydutlar (LinUCB/Thompson): NBA/Teklifler için Araştırma/Operasyon Dengeleme.
Yükseltme modellemesi: bağlama duyarlı eylem etkisi modeli (T-/S-/DR-yöntemleri).
GBDT/Etkileşimli tabular NN-Splines/context kesişim noktalarını otomatik arar.
Sıralı modeller (RNN/Transformer): oturum kalıpları, HRED/GRU4Rec, olaylara ve bağlamlara göre kendi kendine dikkat.
Bağlam kümeleme: Politika/model yönlendirme için çevrimiçi kümeler.
Bağlam ile kurallar ve eşikler: risk eşiği saat/konum/sinyal kalitesine bağlıdır.
7) Gerçek zamanlı vs çevrimdışı
Gerçek zamanlı: çözümler ≤ (100-500) ms. Online Feature Store içeriği, önceden yüklenmiş dizinler, önbellek.
Neredeyse gerçek zamanlı: pencereler 1-5 dakika, artımlı vitrinler, ucuz zenginleştirme.
Çevrimdışı: eğitim/kalibrasyon, özellik etkileşimlerinin tasarımı, etki analizi.
Kural: her iki konturdaki özelliklerin özdeş tanımları; Online/offline tutarlılık testleri.
8) Bağlam kalitesi ve SLO
Tazelik: X dakika/saniyeden daha eski değildir (sinyal türüne göre).
Tamlık - Dolu olan temel bağlamların yüzdesi.
Doğruluk/Tutarlılık: referans kitap uyumluluğu, geçerli kavşaklar.
Çevrimiçi özellikleri okumak ve karar vermek için gecikme süresi p95/p99.
Uplift/TO/ARPPU/Recall @ K, içeriğe duyarlı iş metrikleridir.
9) Nedensellik ve deneyler
Varyans azaltma için bağlam veya CUPED ile katmanlaştırılmış A/B.
Korkulukları olan haydutlar: araştırmada hasar sınırlaması.
Yarı-deneyler: Farklılıklar Farkı/Dış değişiklikler için Sentetik Kontrol (bölge/mevsim).
Çoklu hedef takası: Bağlam için eşleştirilmiş hedeflerin (fayda/risk/şikayetler) optimizasyonu.
10) Gizlilik, rıza ve güvenlik
Her bağlam kaynağına onay verir ve hedefler atar.
Zenginleştirme/depolamadan önce PII minimizasyonu ve tokenizasyonu.
RLS/CLS: bağlama bağlı görünürlük kuralları, depolamanın coğrafi lokalizasyonu.
TTL politikaları: Hassas bağlamlar için sıkı saklama süreleri.
Denetim ve DSAR: Veri konusu tarafından bağlam gösterme/kaldırma yeteneği.
11) Gözlemlenebilirlik ve teşhis
Bağlam panoları: özelliklere göre kapsama, "bilinmeyen/diğer" paylaşımı, sinyal yaşlandırma.
Bağlam kayması: PSI/JS dağılıma göre; otomatik uyarılar.
Trace-id: Uçtan uca olay izi, zenginleştirme, karar, eylem.
Eylem sonrası ilişkilendirme: hangi bağlamlar etkinin anahtarıydı.
12) Bilgi grafikleri ve semantik ile entegrasyon
Bağlam ontolojileri: katı değerler ve hiyerarşiler (zaman/coğrafi/aygıt).
KG-zenginleştirme: "ilgili" gerçeklerin çıkarılması (örneğin, provayder↔kategoriya↔region).
Anlamsal arama: sıralamada filtre/ağırlık olarak bağlam.
13) Kenar bağlamı
Yerel özellikler: ağ kalitesi, gecikme süresi, pil, donanım yapılandırması.
Kenar çözümleri: hafif modeller/kurallar; Sadece toplu ve kişisel olmayan özellikler gönderiyoruz.
Senkronizasyon: Bağlam güncellemelerinin arabelleğe alınması ve veri tekilleştirilmesi.
14) Antipatterns
"Bağlam çok - daha iyi anlamına gelir. "Yeniden eğitim, gecikme ve maliyet artışı.
Tutarsız özellikler çevrimiçi/çevrimdışı. Çelişkili sonuçlar ve bozulma.
TTL olmadan geçici sinyaller. Çöp birikimi, gizlilik ihlalleri.
SELECT ve "free" şemaları. Tüketiciler MINOR evrimi sırasında bozulur.
Farklı bağlamlar için aynı politikalar. Verimlilik ve adalet kaybı.
Nedenselliği görmezden gelin. Korelasyonlara tepki - hasar.
15) Uygulama Yol Haritası
1. Keşif: çözüm haritaları ve son tarihler, bağlamların listesi, sahipler, riskler.
2. Sözleşmeler ve sözlükler: sinyal şemaları, referans kitapları, TTL, onaylar.
3. Özellik Mağazası: Tek özellik belirtimi (çevrimiçi/çevrimdışı), tutarlılık testleri.
4. MVP modeli/politikası: 3-5 temel bağlamlar, metrikler, teslimat kanalları.
5. Deneyler: A/B tabakalı, küçük bir fraksiyon üzerinde haydutlar.
6. Gözlemlenebilirlik: Gecikme/tazelik/kapsama, sürüklenme uyarıları ile SLO.
7. Güvenlik/priv: RLS/CLS, tokenization, DSAR süreçleri.
8. Ölçek: daha fazla bağlam, kişiselleştirme, KG/semantik, kenar.
16) Yayın öncesi kontrol listesi
- Bağlam sinyallerinin sözleşmeleri, TTL, sahipleri ve onayları vardır.
- Özellikler, Özellik Mağazasında bildirilir; Online/offline aynı şekilde hesaplanır.
- Gecikme p95 okuma özellikleri ve hedef penceresinde kararlar.
- Sürüklenme/kapsama izlenir; Uyarılar ve runbooks've vardır.
- A/B veya bantlar yapılandırılmıştır; korkuluklar tanımlanmıştır.
- Gizlilik ve RLS/CLS politikaları etkinleştirildi; İhracat kişisel değildir.
- Dokümantasyon: bağlamlar, şemalar, örnek sorgular ve kurallar sözlüğü.
17) Mini şablonlar
17. 1 Bağlam özelliği belirtimi (pseudo-YAML)
yaml feature:
name: hour_bucket type: categorical source: event_time transform: "floor(minute/15)" # 15-минутные окна ttl: 30m online: true offline: true dq:
allowed: [0..95]
freshness_sla: 60s
17. 2 Bağlam ile Sonraki En İyi Eylem politikası
yaml nba_policy:
context_require:
- locale in ["en","ru","tr"]
- device_os in ["Android","iOS"]
model: "linucb_v5"
guardrails:
- latency_p95_ms <= 200
- complaint_rate_24h < 0. 02 fallback: "rule_based_offer_if_model_conf<0. 55"
17. 3 Çevrimiçi vitrin için Idempotent birleştirme
sql merge into fs_online as t using incoming as s on t. key = s. key and t. feature = s. feature when not matched then insert (key, feature, val, ts) values (...)
when matched and s. ts > t. ts then update set val=s. val, ts=s. ts;
17. 4 Tabakalı deney
yaml ab_test:
strata: [device_os, hour_bucket, region]
allocation: {control: 0. 5, treatment: 0. 5}
metrics: [uplift_cr, arppu, complaints]
duration_min_days: 7 stop_rules: {p_value<=0. 05, min_effect_size: 0. 5pp}
18) Alt satır
Bağlamsal analitik sadece "ikame saat ve ülke'değil, uçtan uca bir mühendislik devresidir: açıkça tanımlanmış sinyaller ve TTL, tutarlı çevrimiçi/çevrimdışı özellikler, bağlamı dikkate alan modeller ve politikalar, kanıta dayalı etki değerlendirmesi ve katı gizlilik kuralları. Düzgün ayarlanmış bir bağlam, her etkileşimi, ürün ve iş metriklerini ölçülebilir şekilde geliştiren akıllı, zamanında ve güvenli bir seçime dönüştürür.