Namunalarni tanish
Namunalarni tanish
Pattern tanish - bu algoritmlar ma’lumotlarda barqaror tuzilmalarni topishni o’rganadigan soha: sinflar, klasterlar, takrorlanuvchi shakllar, motivlar va qaramliklar. Maqsad - «semantik shablonlarni» avtomatik ravishda aniqlash va ularni bashorat qilish, o’xshashliklarni topish, segmentlarni aniqlash va qarorlar qabul qilish uchun ishlatishdan iborat.
1) Vazifalar qo’yish
Tasniflash: obʼektni sinfga kiritish (frod/frod emas, hodisa turi).
Ko’p qirrali/ko’p qirrali tasnif: bir vaqtning o’zida bir nechta sinflar.
Klaster va segmentlash: belgilarsiz guruhlash, anormal/nishon guruhlarini ajratish.
O’xshashlik/o’xshashlikni qidirish: relevantlik bo’yicha tartibga solish, nearest neighbors.
Tuzilmalar segmentatsiyasi: obyekt qismlarini belgilash (rasm, log-yozuv, sessiya).
Ketma-ketlikni aniqlash: vaqtinchalik seriya/log/matn uchun belgilar.
Qoidalar va motivlarni ajratib olish: tez-tez to’plamlar/ketma-ketliklar, assotsiativ qoidalar.
Grafik vazifalar: tugun/qovurgʻalarni tasniflash, jamoalarni aniqlash.
- Nazorat (belgilar mavjud), nazorat qilinmaydigan (klaster/qoidalar), yarim nazorat (soxta belgilar), o’z-o’zini o’rganish (self-supervised: contrastive/augmentations).
2) Ma’lumotlar va taqdimnomalar
Jadval: son va toifaviy belgilar; o’zaro hamkorlik, derazalar bo’yicha statistika.
Vaqtinchalik qatorlar/hodisa loglari: laglar, trendlar, mavsumiylik, DTW-xususiyatlar, spektral belgilar.
Matn: tokenlar/embeddingi (Bag-of-Words, TF-IDF, word2vec/fastText, BERT-embeddingi), n-gramm, asosiy iboralar.
Tasvirlar/audio: spektrlar/tebranish fichlari, lokal deskriptorlar (SIFT/HOG), global embeddinglar CNN.
Grafalar: tutash matritsasi, node2vec/DeepWalk, GNN-embeddingi.
Ko’p modallik: embeddinglar birlashmasi (late/early fusion), cross-attention.
Asosiy tamoyillar: point-in-time to’g "riligi, kelajakda oqish yo’qligi, standartlashtirish/robast-skeyling, toifalarni kodlash (one-hot/target/hash), o’tkazmalar va chiqindilarni ehtiyotkorlik bilan qayta ishlash.
3) Usullar
3. 1 Klassik statistik va metrik
Chiziqli modellar: muntazam ravishda (L1/L2/Elastic Net) logistika/chiziqli regressiya.
Eng yaqin qoʻshnilarning usullari: kNN, ball-tree/FAISS embeddinglar boʻyicha qidirish uchun.
SVM/yadro usullari: RBF/polinomial yadrolar, one-class SVM («norma» uchun).
Sodda Bayes/duragaylar: matn/toifalar uchun tezkor beyzlaynlar.
O’lchamning pasayishi: vizualizatsiya va oldindan ishlash uchun PCA/ICA/t-SNE/UMAP.
3. 2 Daraxtlar va ansambllar
Random Forest, Gradient Boosting (XGBoost/LightGBM/CatBoost): tabletkadagi kuchli beyzlaynlar, aralash fich turlariga chidamli, belgilar muhimligini beradi.
Steking/blending: turli xil modellardagi ansambllar.
3. 3 Modallik bo’yicha neyron tarmoqlar
Ketma-ketlik: RNN/LSTM/GRU, Temporal Convolutional Networks, Transformers (shu jumladan uzun qatorlar uchun).
Kompyuter ko’rish: CNN/ResNet/ConvNeXt, Vision Transformer; deteksiya/segmentatsiya (Faster/Mask R-CNN, U-Net).
Matn: Encoder-only (BERT-sinf), Encoder-Decoder (T5), tasnif/reyting/NER.
Grafalar: GCN/GAT/GraphSAGE tarkibiy patternlar uchun.
3. 4. Pattern-kon va qoidalar
Tez-tez toʻplamlar/ketma-ketliklar: Apriori/Eclat, FP-Growth, PrefixSpan.
Assotsiativ qoidalar: support/lift/confidence; biznes qiymati bo’yicha filtrlash.
Vaqtinchalik seriyalarning motivlari/shablonlari: Matrix Profile, SAKS, rejimlarni o’zgartirish bo’yicha segmentatsiya.
4) Validatsiya va eksperimentlar
Splitlar: i.i.d. statsionar ma’lumotlar uchun K-fold; ketma-ketliklar uchun temporal CV/rolling-windows.
Stratifikatsiya va guruhlash: foydalanuvchilar/sessiyalar/kampaniyalar o’rtasidagi oqishni nazorat qilish.
Out-of-time test: «kelajak» davridagi yakuniy test.
Beyzlaynlar: sodda qoidalar, chastota prognozlari, oddiy logreg/GBM.
5) Sifat metrikasi
Tasniflash: accuracy (balansda), ROC-AUC, PR-AUC noyob sinflarda, logloss, F1, precision/recall @k, NDCG/Lift.
Klaster: silhouette, Davies-Bouldin, Calinski-Harabasz; tashqi - «oltin standart» mavjud bo’lganda ARI/NMI.
Rasmlardagi segmentatsiya: IoU/Dice.
Ketma-ketlik/NER: token-/entity-level F1; onlayn tanib olish uchun time-to-first-correct.
Biznes-metrika: inkremental foyda, qo’l yukini kamaytirish, ishlov berish tezligi.
6) Sharhlanuvchanlik va ishonch
Global miqyosda: fich (gain/permutation), PDP/ICE, SHAP-summary ahamiyati.
Mahalliy: SHAP/LIME/Anchors aniq yechimni tushuntirish uchun.
Qoidalar uchun: shaffof metriklar (support/lift), qoidalar to’qnashuvi, qoplash.
Embeddinglarni vizualizatsiya qilish: «kartalar» patternlari va klasterlari uchun UMAP/t-SNE.
7) Ma’lumotlarning barqarorligi va sifati
Ishsizlik: barqaror skeylerlar (median/MAD), vinzorizatsiya, chiqindilardan himoya qilish.
Dreyf: taqsimot monitoringi (PSI/JS/KL), maqsadli dreyf va fich, davriy qayta kalibrlash.
Adolat: segmentlar bo’yicha xatolarni taqqoslash, FPR/TPR, bias-skill bo’yicha cheklovlar.
Maxfiylik/komplayens: maydonlarni minimallashtirish, taxalluslashtirish, rollarga kirish.
8) Payplayn (ma’lumotlardan prodakshengacha)
1. KPI (va «oltin» tekshirish stsenariylari) vazifasini aniqlash.
2. Ma’lumotlarni yig’ish/tayyorlash: sxemalar, deduplikatsiya, vaqtinchalik zonalar, agregatlar va embeddinglar.
3. Beyzlaynlar: oddiy qoidalar/logreg/GBM; sanity-checks.
4. Tasavvurlarni boyitish: domen belgilari, modallik embeddinglari, feature store.
5. O’qitish va tanlash: to’rlar/bayes-optimallashtirish, erta to’xtash, kross-validatsiya.
6. Kalibrlash va chegaralar: Platt/isotonic, biznes qiymatiga chegaralarni tanlash.
7. Deploy: REST/gRPC batch/onlayn; artefaktlar va sxemalarni versiyalash.
8. Monitoring: sifat (ML-metrika + biznes), tarqatish, kechikish; alertlar va runibuklar.
9. Retrening: jadval/dreyf hodisasi bo’yicha; A/V/kanar relizlari.
9) Ssenariylar bo’yicha amaliy patternlar
Frod va risk-skoring (tabletka): GBM/steking → grafik belgilar (qurilmalar/kartalar bo’yicha aloqalar) va GNN qo’shing; qat’iy latency-cheklovlar; PR-AUC/recall @FPR bo’yicha optimallashtirish ≤ x%.
Personallashtirish va kontent (reyting): foydalanuvchilar/obyektlarning o’rganiladigan embeddinglari + ikkilik klik-signal; loss: pairwise/listwise; onlayn yangilanishlar.
Loglar/ketma-ketliklar tahlili: TCN/Transformer, augmentatsiyalarda contrastive self-supervised; rejim motivlari va smenalari deteksiyasi.
Matnli niyat/mavzularni tanib olish: BERT-klass, fine-tuning; asosiy tokenlar/attention orqali talqin qilinishi.
Tasvir/video (sifat nazorati/hodisalar): nuqsonlar tasnifi, lokalizatsiya (Grad-CAM/Mask R-CNN), IoU metrikasi va eskalatsiya qoidalari.
Grafalar (jamoalar/firibgarlik zanjirlari): GNN + grafik anomaliyalar evristikasi (degree/triangles/ -koeffitsiyent).
10) Model tanlash: yechimlarning oddiy matritsasi
11) Xatolar va overfitni kamaytirish usullari
Muntazam (L1/L2/dropout), erta to’xtash, data augmentation va mixup/cutout (CV/audio uchun).
Oqishni nazorat qilish: qattiq vaqtinchalik splitlar, guruh bo’linmalari, embeddinglarni validatsiyada «muzlatish».
Ehtimollarni kalibrlash va biznes cheklovlari ostida barqaror chegaralar.
Ensembling/Model soup siljishlarga chidamlilik uchun.
12) Chiqarishdan oldingi chek-varaq
- To’g "ri splitlar (temporal/group), oqish yo’q
- OOT oynasi va asosiy segmentlardagi barqaror metriklar
- Kalibrlangan ehtimollar; chegaralar/kostmatritsalar aniqlandi
- SLO ishga tushirildi: sifat, kechikish, foydalanish imkoniyati
- Inferens loglari, artefaktlar versiyasi, ma’lumotlar kontraktlari
- Retrening rejasi va degradatsiya strategiyasi (fallback)
- Hujjatlar va runibuklar (RCA, xatolar, eskalatsiya yo’llari)
Mini-lugʻat
Pattern-mining: tez-tez uchraydigan toʻplamlar/ketma-ketliklarni qidirish.
Embedding: semantika/o’xshashlikni saqlaydigan obyektning vektorli tasviri.
Contrastive learning: o’rganish, «o’xshash» misollarni yaqinlashtirish va «turli» larni ajratish.
Silhouette/NMI/ARI: klaster sifati metrikasi.
IoU/Dice: segmentatsiya sifati metrikasi.
Jami
Patternlarni aniqlash - bu nafaqat "X modeli" ni tanlash, balki tasavvurlar, to’g "ri validatsiya va operatsion tsiklning fanidir. Kuchli tasavvurlar (fichlar/embeddinglar), barqaror beyzlaynlar (GBM/SVM/oddiy CNN), sifatli splitlar va mahsulotdagi qatʼiy monitoring eng katta samara beradi. Agar ML- va biznes-metrik ko’rsatkichlar bo’yicha o’lchanadigan o’sishni keltirsa, murakkablik (chuqur arxitektura, ko’p modallik, grafalar) qo’shing.