Nümunələrin tanınması
Nümunələrin tanınması
Nümunə tanıma - alqoritmlərin məlumatlarda sabit strukturları tapmağı öyrəndiyi sahədir: siniflər, klasterlər, təkrarlanan formalar, motivlər və asılılıqlar. Məqsəd «semantik şablonları» avtomatik olaraq müəyyən etmək və onları proqnozlaşdırmaq, oxşarlıqları tapmaq, seqmentləri aşkar etmək və qərar vermək üçün istifadə etməkdir.
1) Tapşırıqların qoyulması
Təsnifat: obyektin sinifə aid edilməsi (frod/frod deyil, hadisə növü).
Çoxmərtəbəli/çoxmərtəbəli təsnifat: eyni vaxtda bir neçə sinif.
Klasterləşdirmə və seqmentləşdirmə: etiketsiz qruplaşdırma, anormal/niş qruplarının seçilməsi.
Oxşarlıqların sıralanması/axtarışı: uyğunluq qaydası, nearest neighbors.
Strukturların seqmentasiyası: obyektin hissələrinin işarələnməsi (şəkil, log yazısı, sessiya).
Ardıcıllığın tanınması: müvəqqəti seriyalar/log/mətn üçün etiketlər.
Qaydaların və motivlərin çıxarılması: tez-tez dəstlər/ardıcıllıqlar, assosiativ qaydalar.
Qrafik tapşırıqlar: düyünlərin/qabırğaların təsnifatı, icmaların aşkarlanması.
- Nəzarət (etiketləri var), nəzarətsiz (klasterləşdirmə/qaydalar), yarı nəzarət (təxəllüslər), özünü öyrənmə (özünü-supervised: contrastive/augmentations).
2) Məlumatlar və təqdimatlar
Cədvəl: ədədi və kateqoriya əlamətləri; qarşılıqlı, pəncərələr üzrə statistika.
Zaman sıraları/hadisə qeydləri: lag, trend, mövsümlük, DTW xüsusiyyətləri, spektral xüsusiyyətlər.
Mətn: tokenlər/embeddinq (Bag-of-Words, TF-IDF, word2vec/fastText, BERT-embeddinq), n-qramlar, əsas ifadələr.
Görüntülər/audio: spektrlər/təbaşir fiçləri, yerli deskriptorlar (SIFT/HOG), CNN qlobal embeddinqlər.
Qraflar: bitişiklik matrisi, node2vec/DeepWalk, GNN-embeddingi.
Multi-modallıq: embeddinqlərin birləşməsi (late/early fusion), cross-attention.
Açar prinsiplər: nöqtə-zamanlı düzgünlük, gələcəyin sızması, standartlaşdırma/robast skeylinq, kateqoriya kodlaşdırma (one-hot/target/hash), keçidlərin və emissiyaların düzgün emalı.
3) Metodlar
3. 1 Klassik statistik və metrik
Xətti modellər: nizamlanma ilə logistika/xətti reqressiya (L1/L2/Elastic Net).
Ən yaxın qonşuların metodları: kNN, ball-tree/FAISS embeddinq axtarışları üçün.
SVM/səs üsulları: RBF/polinomial nüvələr, one-class SVM («norma» üçün).
Sadəlövh Bayes/hibridlər: mətn/kateqoriyalar üçün sürətli beyzlaynlar.
Ölçünün azaldılması: Vizualizasiya və emal üçün PCA/ICA/t-SNE/UMAP.
3. 2 Ağaclar və ansambllar
Random Forest, Gradient Boosting (XGBoost/LightGBM/CatBoost): lövhədə güclü beyzlaynlar, qarışıq növlərə davamlı, əlamətlərin əhəmiyyətini verir.
Stekinq/blending: müxtəlif modellərdən ansambllar.
3. 3 Modallara görə neyron şəbəkələr
Ardıcıllıqlar: RNN/LSTM/GRU, Temporal Convolutional Networks, Transformers (o cümlədən uzun sıralar üçün).
Kompüter görmə: CNN/ResNet/ConvNeXt, Vision Transformer; deteksiya/seqmentasiya (Faster/Mask R-CNN, U-Net).
Mətn: Encoder-only (BERT sinfi), Encoder-Decoder (T5), təsnifat/sıralama/NER.
Qraflar: Struktur nümunələri üçün GCN/GAT/GraphSAGE.
3. 4 Nümunə mədən və qaydalar
Tez-tez dəstlər/ardıcıllıqlar: Apriori/Eclat, FP-Growth, PrefixSpan.
Assosiativ qaydalar: support/lift/confidence; biznes dəyəri ilə filtrasiya.
Zaman seriyasının motivləri/şablonları: Matrix Profile, SAKS, rejim seqmentasiyası.
4) Validasiya və təcrübələr
Split: i.i.d. Sabit məlumatlar üçün K-fold; ardıcıllıqlar üçün temporal CV/rolling-windows.
Stratifikasiya və qruplaşdırma: istifadəçilər/sessiyalar/kampaniyalar arasında sızmalara nəzarət.
Out-of-time test: «gələcək» dövrdə son test.
Beyzlaynlar: sadəlövh qaydalar, tezlik proqnozları, sadə logreg/GBM.
5) Keyfiyyət metrikası
Təsnifat: accuracy (balans), ROC-AUC, PR-AUC nadir siniflər, logloss, F1, precision/recall @k, NDCG/Lift sıralama üçün.
Klaster: silhouette, Davies-Bouldin, Calinski-Harabasz; xarici - «qızıl standart» olduqda ARI/NMI.
Şəkillərdə seqmentasiya: IoU/Dice.
Sıra/NER: token-/entity-level F1; online tanınması üçün vaxt-ilk-correct.
Business Metrics: artımlı mənfəət, manuel yükün azaldılması, emal sürəti.
6) Şərh və etimad
Qlobal: phich (gain/permutation), PDP/ICE, SHAP-summary əhəmiyyəti.
Yerli: SHAP/LIME/Anchors xüsusi həll izah üçün.
Qaydalar üçün: şəffaf metriklər (support/lift), qaydaların toqquşması, örtük.
Embeddinqlərin vizuallaşdırılması: «xəritə» nümunələri və klasterlər üçün UMAP/t-SNE.
7) Məlumatların davamlılığı və keyfiyyəti
Çeviklik: davamlı skeyler (median/MAD), vinzorizasiya, emissiya qorunması.
Drift: paylama monitorinqi (PSI/JS/KL), hədəf drift və fich, periodik yenidən kalibrləmə.
Ədalət: seqmentlərdə səhvlərin müqayisəsi, FPR/TPR məhdudiyyətləri, bias-skill.
Gizlilik/uyğunluq: sahələrin minimuma endirilməsi, təxəllüsləşmə, rollara giriş.
8) Paypline (verilənlərdən prodakşenə qədər)
1. Problemin və KPI-nin (və «qızıl» yoxlama ssenarilərinin) müəyyən edilməsi.
2. Məlumatların toplanması/hazırlanması: sxemlər, deduplikasiya, müvəqqəti zonalar, aqreqatlar və embeddinqlər.
3. Basic: sadə qaydalar/logreg/GBM; sanity-checks.
4. Fikirlərin zənginləşdirilməsi: domen əlamətləri, modallıq embeddingi, feature store.
5. Təlim və seçim: mesh/bayes-optimallaşdırma, erkən dayanma, cross-validation.
6. Kalibrləmə və eşiklər: Platt/isotonic, biznes dəyəri üçün eşik seçimi.
7. Deploy: REST/gRPC batch/online; artefaktların və sxemlərin versiyalaşdırılması.
8. Monitorinq: keyfiyyət (ML-metrika + biznes), paylama, gecikmələr; alertlər və runibuki.
9. Retreninq: cədvəl/sürüklənmə hadisəsi; A/B/Kanarya relizləri.
9) Ssenari üzrə praktiki nümunələr
Frod və risk-skorinq (lövhə): GBM/stacking → qrafik əlamətləri (cihazlar/kartlar üzrə əlaqələr) və GNN əlavə edin; ciddi latency-məhdudiyyətlər; PR-AUC/geri @FPR ≤ x% optimallaşdırma.
Personallaşdırma və məzmun (sıralama): istifadəçilərin/obyektlərin öyrədilən embeddinqləri + ikili klik siqnalı; loss: pairwise/listwise; Online yeniləmələr.
Log/sıra analitikası: TCN/Transformer, augmentasiyalarda contrastive self-supervised; motivlərin və rejimlərin dəyişikliyinin deteksiyası.
Mətn niyyət/mövzu tanıma: BERT-sinif, fine-tuning; əsas tokenlər/attention vasitəsilə şərh edilə bilər.
Şəkillər/videolar (keyfiyyət nəzarəti/hadisələr): qüsurların təsnifatı, lokalizasiyası (Grad-CAM/Mask R-CNN), IoU metrikası və eskalasiya qaydaları.
Qraflar (icmalar/fırıldaqçı zəncirlər): GNN + qrafik anomaliyaların evristikası (degree/triangles/s-əmsalı).
10) Model seçimi: sadə matris həlləri
11) Səhvlərin və overfitin azaldılması üsulları
Nizamlama (L1/L2/dropout), erkən dayanma, data augmentation və mixup/cutout (CV/audio üçün).
Sızmalara nəzarət: ciddi müvəqqəti splitlər, qrup kəsikləri, validasiya zamanı embeddinqlərin «dondurulması».
Ehtimalların kalibrlənməsi və biznes məhdudiyyətləri altında sabit hədlər.
Sürüşmə müqaviməti üçün Ensembling/Model soup.
12) Buraxılışdan əvvəl çek siyahısı
- Düzgün split (temporal/group), heç bir sızma
- OOT pəncərəsində və əsas seqmentlərdə sabit metriklər
- Kalibrlənmiş ehtimallar; müəyyən eşik/cost-matris
- Qurulmuş SLO: keyfiyyət, gecikmə, mövcudluq
- Featuring log, artefaktların versiyaları, məlumat müqavilələri
- Retreninq planı və deqradasiya strategiyası (fallback)
- Sənədləşmə və Runibook (RCA, səhvlər, eskalasiya yolları)
Mini sözlük
Nümunə-mədən: tez-tez rast gəlinən dəstlərin/ardıcıllıqların axtarışı.
Embeddinq: semantikanı/oxşarlığı saxlayan obyektin vektor təqdimatı.
Contrastive learning: «oxşar» nümunələri yaxınlaşdıran və «fərqli» ayıran təlim.
Silhouette/NMI/ARI: clusterization keyfiyyət metrik.
IoU/Dice: seqmentasiya keyfiyyət metrik.
Yekun
Nümunələrin tanınması yalnız "X modeli 'nin seçimi deyil, ideya, düzgün validasiya və əməliyyat dövrünün intizamıdır. Güclü performans (fiç/embeddinq), davamlı beyzlaynlar (GBM/SVM/sadə CNN), keyfiyyətli split və məhsulun ciddi monitorinqi ən çox gəlir verir. Yalnız ML- və biznes metriklərində ölçülə bilən artım gətirdikdə mürəkkəblik (dərin arxitekturalar, multi-modallıqlar, qraflar) əlavə edin.